Top 25 otázek týkajících se testování ETL & Odpovědi

Anonim

Níže jsou uvedeny často kladené otázky v rozhovorech pro nováčky i zkušené testery a vývojáře ETL.

1) Co je to ETL?

V architektuře datových skladů je ETL důležitou součástí, která spravuje data pro jakýkoli obchodní proces. ETL znamená Extract, Transform and Load . Extrahuje proces čtení dat z databáze. Transformace provádí převod dat do formátu, který by mohl být vhodný pro vytváření zpráv a analýzu. While, load provede proces zápisu dat do cílové databáze.

2) Vysvětlete, co zahrnuje testování ETL?

Testování ETL zahrnuje

  • Ověřte, zda se data transformují správně podle obchodních požadavků
  • Ověřte, že projektovaná data jsou načtena do datového skladu bez jakéhokoli zkrácení a ztráty dat
  • Ujistěte se, že aplikace ETL hlásí neplatná data a nahrazuje je výchozími hodnotami
  • Ujistěte se, že se data načítají v očekávaném časovém rámci, aby se zlepšila škálovatelnost a výkon

3) Uveďte, jaké jsou typy aplikací datového skladu a jaký je rozdíl mezi dolováním dat a datovým skladem?

Typy aplikací datového skladu jsou

  • Zpracování informací
  • Analytické zpracování
  • Dolování dat

Dolování dat lze definovat jako proces extrakce skrytých prediktivních informací z velkých databází a interpretace dat, zatímco datové sklady mohou využívat datový důl pro analytické zpracování dat rychleji. Skladování dat je proces agregace dat z více zdrojů do jednoho společného úložiště

4) Jaké jsou různé nástroje používané v ETL?

  • Stream rozhodnutí Cognos
  • Oracle Warehouse Builder
  • Obchodní objekty XI
  • Obchodní sklad SAS
  • Server SAS Enterprise ETL

5) Co je to fakt? Jaké jsou typy faktů?

Jedná se o ústřední součást vícerozměrného modelu, který obsahuje míry, které mají být analyzovány. Fakta souvisí s rozměry.

Druhy faktů jsou

  • Doplňková fakta
  • Poloaditivní fakta
  • Neaditivní fakta

6) Vysvětlete, co jsou kostky a kostky OLAP?

Kostky jsou jednotky zpracování dat složené z tabulek faktů a dimenzí z datového skladu. Poskytuje vícerozměrnou analýzu.

OLAP znamená Online Analytics Processing a OLAP cube ukládá velká data v muti-dimenzionální formě pro účely reportování. Skládá se ze skutečností nazývaných jako opatření kategorizovaná podle dimenzí.

7) Vysvětlete, co je úroveň sledování a jaké jsou typy?

Úroveň sledování je množství dat uložených v souborech protokolu. Sledovací úroveň může být rozdělena na dvě normální a podrobné. Normální úroveň podrobně vysvětluje sledovací úroveň, zatímco podrobná vysvětluje sledovací úrovně v každém řádku.

8) Vysvětlete, co je Grain of Fact?

Fakt obilí lze definovat jako úroveň, na které jsou informace o faktech uloženy. To je také známé jako Fact Granularity

9) Vysvětlete, co je schéma faktografických faktů a co jsou opatření?

Tabulka faktů bez opatření je známá jako tabulka faktických faktů. Může zobrazit počet vyskytujících se událostí. Například se používá k záznamu události, jako je počet zaměstnanců ve společnosti.

Číselná data založená na sloupcích v tabulce faktů jsou známá jako opatření

10) Vysvětlete, co je transformace?

Transformace je objekt úložiště, který generuje, upravuje nebo předává data. Transformace jsou dvou typů aktivní a pasivní

11) Vysvětlete použití vyhledávací transformace?

Transformace vyhledávání je užitečná pro

  • Získání související hodnoty z tabulky pomocí hodnoty sloupce
  • Aktualizujte pomalu se měnící tabulku dimenzí
  • Ověřte, zda v tabulce již existují záznamy

12) Vysvětlete, co je rozdělení, rozdělení hash a rozdělení každý s každým?

Pro zlepšení výkonu jsou transakce rozděleny na další části, což se nazývá rozdělení na oddíly. Rozdělení na oddíly umožňuje serveru Informatica vytvářet vícenásobné připojení k různým zdrojům

Typy oddílů jsou

Round-Robin Partitioning:

  • Data jsou distribuována rovnoměrně mezi všechny oddíly
  • Toto rozdělení je použitelné v každém oddílu, kde je počet řádků ke zpracování přibližně stejný

Rozdělení hash:

  • Za účelem rozdělení klíčů na seskupení dat mezi oddíly používá server Informatica hashovací funkci
  • Používá se, když je třeba zajistit, aby byly zajištěny skupiny procesů řádků se stejným klíčem rozdělení ve stejném oddílu

13) Uveďte, jaké jsou výhody použití DataReader Destination Adapter?

Výhodou použití cílového adaptéru DataReader je to, že naplní sadu záznamů ADO (skládá se ze záznamů a sloupců) v paměti a zpřístupní data z úlohy DataFlow implementací rozhraní DataReader, aby data mohla spotřebovat jiná aplikace.

14) Pomocí SSIS (SQL Server Integration Service), jaké jsou možné způsoby aktualizace tabulky?

K aktualizaci tabulky pomocí SSIS jsou možné tyto způsoby:

  • Použijte příkaz SQL
  • Použijte pracovní tabulku
  • Použijte mezipaměť
  • Použijte úlohu skriptu
  • Pokud se používá MSSQL, použijte k aktualizaci celý název databáze

15) V případě, že máte pro vyhledávání jiný zdroj než OLEDB (Object Linking and Embedding Database), co byste udělali?

V případě, že máte pro vyhledávání jiný zdroj než OLEBD, musíte k načtení dat použít mezipaměť a použít ji jako zdroj

16) V jakém případě používáte dynamickou a statickou mezipaměť v připojených a nepřipojených transformacích?

  • Dynamická mezipaměť se používá, když musíte aktualizovat hlavní tabulku a pomalu se měnící dimenze (SCD) typu 1
  • Pro ploché soubory se používá statická mezipaměť

17) Vysvětlete, jaké jsou rozdíly mezi vyhledáváním Nepřipojeno a Připojeno?

Propojené vyhledávání

Nepřipojené vyhledávání

  • Připojené vyhledávání se účastní mapování

- Používá se, když se při mapování místo transformace výrazu použije vyhledávací funkce

  • Lze vrátit více hodnot

- Vrací pouze jeden výstupní port

  • Může být připojen k jiným transformacím a vrátí hodnotu
  • Nelze připojit další transformaci
  • Pro připojené vyhledávání lze použít statickou nebo dynamickou mezipaměť
  • Nepřipojeno jako pouze statická mezipaměť
  • Připojené vyhledávání podporuje uživatelem definované výchozí hodnoty
  • Nepřipojené vyhledávání nepodporuje uživatelem definované výchozí hodnoty
  • V připojeném vyhledávání může být více sloupců vráceno ze stejného řádku nebo vloženo do mezipaměti dynamického vyhledávání
  • Nepřipojené vyhledávání označuje jeden návratový port a vrací jeden sloupec z každého řádku

18) Vysvětlete, co je zobrazení zdroje dat?

Zobrazení zdroje dat umožňuje definovat relační schéma, které se použije v databázích analytických služeb. Spíše než přímo z objektů zdroje dat se dimenze a krychle vytvářejí z pohledů zdroje dat.

19) Vysvětlete, jaký je rozdíl mezi nástroji OLAP a ETL?

Rozdíl mezi nástrojem ETL a OLAP je v tom

Nástroj ETL je určen pro extrakci dat ze starších systémů a načtení do určené databáze s určitým procesem čištění dat.

Příklad: Datová fáze, Informatica atd.

Zatímco OLAP je určen pro účely hlášení v datech OLAP dostupných ve vícesměrném modelu.

Příklad: Obchodní objekty, Cognos atd.

20) Jak můžete extrahovat data SAP pomocí Informatica?

  • S možností připojení napájení extrahujete data SAP pomocí informatiky
  • Nainstalujte a nakonfigurujte nástroj PowerConnect
  • Importujte zdroj do analyzátoru zdrojů. Mezi Informatica a SAP Powerconnect fungují jako brána. Dalším krokem je vygenerování kódu ABAP pro mapování, pak pouze informatika může vytáhnout data ze systému SAP
  • Pro připojení a import zdrojů z externích systémů se používá Power Connect

21) Uveďte, jaký je rozdíl mezi Power Mart a Power Center?

Power Center

Power Mart

  • Předpokládejme, že zpracováváme obrovské množství dat
  • Předpokládejme, že zpracováváme malý objem dat
  • Podporuje zdroje ERP jako SAP, people soft atd.
  • Nepodporuje zdroje ERP
  • Podporuje místní a globální úložiště
  • Podporuje místní úložiště
  • Převádí místní na globální úložiště
  • Nemá žádnou specifikaci pro převod lokálního do globálního úložiště

22) Vysvětlete, co je pracovní oblast a jaký je účel pracovní oblasti?

Data staging je oblast, kde dočasně držíte data na serveru datového skladu. Data staging zahrnuje následující kroky

  • Extrakce zdrojových dat a transformace dat (restrukturalizace)
  • Transformace dat (čištění dat, transformace hodnot)
  • Náhradní přiřazení kláves

23) Co je Bus Schema?

Pro různé obchodní procesy k identifikaci běžných dimenzí se používá BUS schéma. Dodává se s přizpůsobenými rozměry a se standardizovanou definicí informací

24) Vysvětlete, co je čištění dat?

Vyčištění dat je proces mazání dat z datového skladu. Odstraní nevyžádaná data jako řádky s nulovými hodnotami nebo mezerami navíc.

25) Vysvětlete, co jsou objekty schématu?

Objekty schématu jsou logická struktura, která přímo odkazuje na data databází. Objekty schématu zahrnují tabulky, pohledy, synonyma sekvencí, indexy, klastry, balíčky funkcí a odkazy na databáze

26) Vysvětlete tyto pojmy Session, Worklet, Mapplet a Workflow?

  • Mapplet: Uspořádá nebo vytvoří sady transformace
  • Pracovní sešit: Představuje konkrétní sadu zadaných úkolů
  • Pracovní postup: Jedná se o sadu pokynů, které serveru říkají, jak provádět úkoly
  • Relace: Jedná se o sadu parametrů, která serveru říká, jak přesouvat data ze zdrojů do cíle

Stažení PDF zdarma: ETL Testing Interview Otázky a odpovědi