Top 25 otázek týkajících se testování ETL & Odpovědi

Níže jsou uvedeny často kladené otázky v rozhovorech pro nováčky i zkušené testery a vývojáře ETL.

1) Co je to ETL?

V architektuře datových skladů je ETL důležitou součástí, která spravuje data pro jakýkoli obchodní proces. ETL znamená Extract, Transform and Load . Extrahuje proces čtení dat z databáze. Transformace provádí převod dat do formátu, který by mohl být vhodný pro vytváření zpráv a analýzu. While, load provede proces zápisu dat do cílové databáze.

2) Vysvětlete, co zahrnuje testování ETL?

Testování ETL zahrnuje

Ověřte, zda se data transformují správně podle obchodních požadavků
Ověřte, že projektovaná data jsou načtena do datového skladu bez jakéhokoli zkrácení a ztráty dat
Ujistěte se, že aplikace ETL hlásí neplatná data a nahrazuje je výchozími hodnotami
Ujistěte se, že se data načítají v očekávaném časovém rámci, aby se zlepšila škálovatelnost a výkon

3) Uveďte, jaké jsou typy aplikací datového skladu a jaký je rozdíl mezi dolováním dat a datovým skladem?

Typy aplikací datového skladu jsou

Zpracování informací
Analytické zpracování
Dolování dat

Dolování dat lze definovat jako proces extrakce skrytých prediktivních informací z velkých databází a interpretace dat, zatímco datové sklady mohou využívat datový důl pro analytické zpracování dat rychleji. Skladování dat je proces agregace dat z více zdrojů do jednoho společného úložiště

4) Jaké jsou různé nástroje používané v ETL?

Stream rozhodnutí Cognos
Oracle Warehouse Builder
Obchodní objekty XI
Obchodní sklad SAS
Server SAS Enterprise ETL

5) Co je to fakt? Jaké jsou typy faktů?

Jedná se o ústřední součást vícerozměrného modelu, který obsahuje míry, které mají být analyzovány. Fakta souvisí s rozměry.

Druhy faktů jsou

Doplňková fakta
Poloaditivní fakta
Neaditivní fakta

6) Vysvětlete, co jsou kostky a kostky OLAP?

Kostky jsou jednotky zpracování dat složené z tabulek faktů a dimenzí z datového skladu. Poskytuje vícerozměrnou analýzu.

OLAP znamená Online Analytics Processing a OLAP cube ukládá velká data v muti-dimenzionální formě pro účely reportování. Skládá se ze skutečností nazývaných jako opatření kategorizovaná podle dimenzí.

7) Vysvětlete, co je úroveň sledování a jaké jsou typy?

Úroveň sledování je množství dat uložených v souborech protokolu. Sledovací úroveň může být rozdělena na dvě normální a podrobné. Normální úroveň podrobně vysvětluje sledovací úroveň, zatímco podrobná vysvětluje sledovací úrovně v každém řádku.

8) Vysvětlete, co je Grain of Fact?

Fakt obilí lze definovat jako úroveň, na které jsou informace o faktech uloženy. To je také známé jako Fact Granularity

9) Vysvětlete, co je schéma faktografických faktů a co jsou opatření?

Tabulka faktů bez opatření je známá jako tabulka faktických faktů. Může zobrazit počet vyskytujících se událostí. Například se používá k záznamu události, jako je počet zaměstnanců ve společnosti.

Číselná data založená na sloupcích v tabulce faktů jsou známá jako opatření

10) Vysvětlete, co je transformace?

Transformace je objekt úložiště, který generuje, upravuje nebo předává data. Transformace jsou dvou typů aktivní a pasivní

11) Vysvětlete použití vyhledávací transformace?

Transformace vyhledávání je užitečná pro

Získání související hodnoty z tabulky pomocí hodnoty sloupce
Aktualizujte pomalu se měnící tabulku dimenzí
Ověřte, zda v tabulce již existují záznamy

12) Vysvětlete, co je rozdělení, rozdělení hash a rozdělení každý s každým?

Pro zlepšení výkonu jsou transakce rozděleny na další části, což se nazývá rozdělení na oddíly. Rozdělení na oddíly umožňuje serveru Informatica vytvářet vícenásobné připojení k různým zdrojům

Typy oddílů jsou

Round-Robin Partitioning:

Data jsou distribuována rovnoměrně mezi všechny oddíly
Toto rozdělení je použitelné v každém oddílu, kde je počet řádků ke zpracování přibližně stejný

Rozdělení hash:

Za účelem rozdělení klíčů na seskupení dat mezi oddíly používá server Informatica hashovací funkci
Používá se, když je třeba zajistit, aby byly zajištěny skupiny procesů řádků se stejným klíčem rozdělení ve stejném oddílu

13) Uveďte, jaké jsou výhody použití DataReader Destination Adapter?

Výhodou použití cílového adaptéru DataReader je to, že naplní sadu záznamů ADO (skládá se ze záznamů a sloupců) v paměti a zpřístupní data z úlohy DataFlow implementací rozhraní DataReader, aby data mohla spotřebovat jiná aplikace.

14) Pomocí SSIS (SQL Server Integration Service), jaké jsou možné způsoby aktualizace tabulky?

K aktualizaci tabulky pomocí SSIS jsou možné tyto způsoby:

Použijte příkaz SQL
Použijte pracovní tabulku
Použijte mezipaměť
Použijte úlohu skriptu
Pokud se používá MSSQL, použijte k aktualizaci celý název databáze

15) V případě, že máte pro vyhledávání jiný zdroj než OLEDB (Object Linking and Embedding Database), co byste udělali?

V případě, že máte pro vyhledávání jiný zdroj než OLEBD, musíte k načtení dat použít mezipaměť a použít ji jako zdroj

16) V jakém případě používáte dynamickou a statickou mezipaměť v připojených a nepřipojených transformacích?

Dynamická mezipaměť se používá, když musíte aktualizovat hlavní tabulku a pomalu se měnící dimenze (SCD) typu 1
Pro ploché soubory se používá statická mezipaměť

17) Vysvětlete, jaké jsou rozdíly mezi vyhledáváním Nepřipojeno a Připojeno?

Propojené vyhledávání	Nepřipojené vyhledávání
Připojené vyhledávání se účastní mapování	- Používá se, když se při mapování místo transformace výrazu použije vyhledávací funkce
Lze vrátit více hodnot	- Vrací pouze jeden výstupní port
Může být připojen k jiným transformacím a vrátí hodnotu	Nelze připojit další transformaci
Pro připojené vyhledávání lze použít statickou nebo dynamickou mezipaměť	Nepřipojeno jako pouze statická mezipaměť
Připojené vyhledávání podporuje uživatelem definované výchozí hodnoty	Nepřipojené vyhledávání nepodporuje uživatelem definované výchozí hodnoty
V připojeném vyhledávání může být více sloupců vráceno ze stejného řádku nebo vloženo do mezipaměti dynamického vyhledávání	Nepřipojené vyhledávání označuje jeden návratový port a vrací jeden sloupec z každého řádku

18) Vysvětlete, co je zobrazení zdroje dat?

Zobrazení zdroje dat umožňuje definovat relační schéma, které se použije v databázích analytických služeb. Spíše než přímo z objektů zdroje dat se dimenze a krychle vytvářejí z pohledů zdroje dat.

19) Vysvětlete, jaký je rozdíl mezi nástroji OLAP a ETL?

Rozdíl mezi nástrojem ETL a OLAP je v tom

Nástroj ETL je určen pro extrakci dat ze starších systémů a načtení do určené databáze s určitým procesem čištění dat.

Příklad: Datová fáze, Informatica atd.

Zatímco OLAP je určen pro účely hlášení v datech OLAP dostupných ve vícesměrném modelu.

Příklad: Obchodní objekty, Cognos atd.

20) Jak můžete extrahovat data SAP pomocí Informatica?

S možností připojení napájení extrahujete data SAP pomocí informatiky
Nainstalujte a nakonfigurujte nástroj PowerConnect
Importujte zdroj do analyzátoru zdrojů. Mezi Informatica a SAP Powerconnect fungují jako brána. Dalším krokem je vygenerování kódu ABAP pro mapování, pak pouze informatika může vytáhnout data ze systému SAP
Pro připojení a import zdrojů z externích systémů se používá Power Connect

21) Uveďte, jaký je rozdíl mezi Power Mart a Power Center?

Power Center	Power Mart
Předpokládejme, že zpracováváme obrovské množství dat	Předpokládejme, že zpracováváme malý objem dat
Podporuje zdroje ERP jako SAP, people soft atd.	Nepodporuje zdroje ERP
Podporuje místní a globální úložiště	Podporuje místní úložiště
Převádí místní na globální úložiště	Nemá žádnou specifikaci pro převod lokálního do globálního úložiště

22) Vysvětlete, co je pracovní oblast a jaký je účel pracovní oblasti?

Data staging je oblast, kde dočasně držíte data na serveru datového skladu. Data staging zahrnuje následující kroky

Extrakce zdrojových dat a transformace dat (restrukturalizace)
Transformace dat (čištění dat, transformace hodnot)
Náhradní přiřazení kláves

23) Co je Bus Schema?

Pro různé obchodní procesy k identifikaci běžných dimenzí se používá BUS schéma. Dodává se s přizpůsobenými rozměry a se standardizovanou definicí informací

24) Vysvětlete, co je čištění dat?

Vyčištění dat je proces mazání dat z datového skladu. Odstraní nevyžádaná data jako řádky s nulovými hodnotami nebo mezerami navíc.

25) Vysvětlete, co jsou objekty schématu?

Objekty schématu jsou logická struktura, která přímo odkazuje na data databází. Objekty schématu zahrnují tabulky, pohledy, synonyma sekvencí, indexy, klastry, balíčky funkcí a odkazy na databáze

26) Vysvětlete tyto pojmy Session, Worklet, Mapplet a Workflow?

Mapplet: Uspořádá nebo vytvoří sady transformace
Pracovní sešit: Představuje konkrétní sadu zadaných úkolů
Pracovní postup: Jedná se o sadu pokynů, které serveru říkají, jak provádět úkoly
Relace: Jedná se o sadu parametrů, která serveru říká, jak přesouvat data ze zdrojů do cíle

Stažení PDF zdarma: ETL Testing Interview Otázky a odpovědi