Co je to ETL?
ETL je zkratka pro Extract, Transform and Load. V tomto procesu nástroj ETL extrahuje data z různých zdrojových systémů RDBMS, poté transformuje data, jako jsou výpočty, zřetězení atd., A poté načte data do systému Data Warehouse.
V ETL jsou data toky ze zdroje do cíle. V transformačním procesu procesu ETL se stará o jakékoli změny dat.
Co je ELT?
ELT je odlišná metoda pohledu na nástrojový přístup k pohybu dat. Místo transformace dat před jejich zápisem umožňuje ELT cílovému systému provést transformaci. Data se nejprve zkopírovala do cíle a poté se transformovala na místo.
ELT se obvykle používá s databázemi bez Sql, jako je klastr Hadoop, datové zařízení nebo cloudová instalace.
KLÍČOVÝ ROZDÍL
- ETL znamená Extract, Transform and Load, zatímco ELT znamená Extract, Load, Transform.
- ETL načte data nejprve na pracovní server a poté do cílového systému, zatímco ELT načte data přímo do cílového systému.
- Model ETL se používá pro místní, relační a strukturovaná data, zatímco ELT se používá pro škálovatelné cloudové strukturované a nestrukturované zdroje dat.
- ETL se používá hlavně pro malé množství dat, zatímco ELT se používá pro velké množství dat.
- ETL neposkytuje podporu datových jezer, zatímco ELT poskytuje podporu datových jezer.
- ETL se snadno implementuje, zatímco ELT vyžaduje pro implementaci a údržbu specializované dovednosti.
Rozdíl mezi ETL a ELT
Proces ETL a ELT se liší v následujících parametrech:
Parametry | ETL | ELT |
---|---|---|
Proces | Data jsou transformována na pracovní server a poté přenesena do Datawarehouse DB. | Data zůstávají v databázi Datawarehouse. |
Použití kódu | Používá
| Používá se pro velké objemy dat |
Proměna | Transformace se provádějí v ETL serveru / pracovní oblasti. | Transformace se provádějí v cílovém systému |
Časové zatížení | Data nejprve načtena do pracovní fáze a později načtena do cílového systému. Časově náročné. | Data načtená do cílového systému pouze jednou. Rychlejší. |
Časová transformace | Proces ETL musí počkat na dokončení transformace. Jak roste velikost dat, prodlužuje se doba transformace. | V procesu ELT rychlost nikdy nezávisí na velikosti dat. |
Časová údržba | Vyžaduje vysokou údržbu, protože je třeba vybrat data k načtení a transformaci. | Nízká údržba, protože data jsou vždy k dispozici. |
Složitost implementace | V rané fázi je snazší implementovat. | K implementaci procesu ELT by organizace měla mít hluboké znalosti nástrojů a odborné dovednosti. |
Podpora pro datový sklad | Model ETL používaný pro místní, relační a strukturovaná data. | Používá se ve škálovatelné cloudové infrastruktuře, která podporuje strukturované, nestrukturované zdroje dat. |
Podpora Data Lake | Nepodporuje | Umožňuje použití Data Lake s nestrukturovanými daty. |
Složitost | Proces ETL načte pouze důležitá data, která byla identifikována v době návrhu. | Tento proces zahrnuje vývoj od výstupu zpět a načítání pouze relevantních dat. |
Náklady | Vysoké náklady pro malé a střední podniky. | Nízké vstupní náklady pomocí online softwaru jako servisních platforem. |
Vyhledávání | V procesu ETL musí být v pracovní oblasti k dispozici fakta i dimenze. | Všechna data budou k dispozici, protože k extrakci a načtení dojde v jedné akci. |
Agregace | S dalším množstvím dat v datové sadě se zvyšuje složitost. | Síla cílové platformy dokáže rychle zpracovat značné množství dat. |
Výpočty | Přepíše existující sloupec nebo je třeba připojit datovou sadu a odeslat na cílovou platformu. | Snadno přidejte vypočítaný sloupec do existující tabulky. |
Splatnost | Tento proces se používá více než dvě desetiletí. Je dobře zdokumentováno a osvědčené postupy snadno dostupné. | Relativně nový koncept a jeho implementace je složitá. |
Hardware | Většina nástrojů má jedinečné hardwarové požadavky, které jsou drahé. | Náklady na hardware Saas nejsou problém. |
Podpora nestrukturovaných dat | Většinou podporuje relační data | Podpora nestrukturovaných dat snadno dostupná. |