ETL vs ELT: Musí znát rozdíly

Obsah:

Anonim

Co je to ETL?

ETL je zkratka pro Extract, Transform and Load. V tomto procesu nástroj ETL extrahuje data z různých zdrojových systémů RDBMS, poté transformuje data, jako jsou výpočty, zřetězení atd., A poté načte data do systému Data Warehouse.

V ETL jsou data toky ze zdroje do cíle. V transformačním procesu procesu ETL se stará o jakékoli změny dat.

Co je ELT?

ELT je odlišná metoda pohledu na nástrojový přístup k pohybu dat. Místo transformace dat před jejich zápisem umožňuje ELT cílovému systému provést transformaci. Data se nejprve zkopírovala do cíle a poté se transformovala na místo.

ELT se obvykle používá s databázemi bez Sql, jako je klastr Hadoop, datové zařízení nebo cloudová instalace.

KLÍČOVÝ ROZDÍL

  • ETL znamená Extract, Transform and Load, zatímco ELT znamená Extract, Load, Transform.
  • ETL načte data nejprve na pracovní server a poté do cílového systému, zatímco ELT načte data přímo do cílového systému.
  • Model ETL se používá pro místní, relační a strukturovaná data, zatímco ELT se používá pro škálovatelné cloudové strukturované a nestrukturované zdroje dat.
  • ETL se používá hlavně pro malé množství dat, zatímco ELT se používá pro velké množství dat.
  • ETL neposkytuje podporu datových jezer, zatímco ELT poskytuje podporu datových jezer.
  • ETL se snadno implementuje, zatímco ELT vyžaduje pro implementaci a údržbu specializované dovednosti.

Rozdíl mezi ETL a ELT

Proces ETL a ELT se liší v následujících parametrech:

Parametry ETL ELT
Proces Data jsou transformována na pracovní server a poté přenesena do Datawarehouse DB. Data zůstávají v databázi Datawarehouse.
Použití kódu Používá
  • Transformace náročné na výpočet
  • Malé množství dat
Používá se pro velké objemy dat
Proměna Transformace se provádějí v ETL serveru / pracovní oblasti. Transformace se provádějí v cílovém systému
Časové zatížení Data nejprve načtena do pracovní fáze a později načtena do cílového systému. Časově náročné. Data načtená do cílového systému pouze jednou. Rychlejší.
Časová transformace Proces ETL musí počkat na dokončení transformace. Jak roste velikost dat, prodlužuje se doba transformace. V procesu ELT rychlost nikdy nezávisí na velikosti dat.
Časová údržba Vyžaduje vysokou údržbu, protože je třeba vybrat data k načtení a transformaci. Nízká údržba, protože data jsou vždy k dispozici.
Složitost implementace V rané fázi je snazší implementovat. K implementaci procesu ELT by organizace měla mít hluboké znalosti nástrojů a odborné dovednosti.
Podpora pro datový sklad Model ETL používaný pro místní, relační a strukturovaná data. Používá se ve škálovatelné cloudové infrastruktuře, která podporuje strukturované, nestrukturované zdroje dat.
Podpora Data Lake Nepodporuje Umožňuje použití Data Lake s nestrukturovanými daty.
Složitost Proces ETL načte pouze důležitá data, která byla identifikována v době návrhu. Tento proces zahrnuje vývoj od výstupu zpět a načítání pouze relevantních dat.
Náklady Vysoké náklady pro malé a střední podniky. Nízké vstupní náklady pomocí online softwaru jako servisních platforem.
Vyhledávání V procesu ETL musí být v pracovní oblasti k dispozici fakta i dimenze. Všechna data budou k dispozici, protože k extrakci a načtení dojde v jedné akci.
Agregace S dalším množstvím dat v datové sadě se zvyšuje složitost. Síla cílové platformy dokáže rychle zpracovat značné množství dat.
Výpočty Přepíše existující sloupec nebo je třeba připojit datovou sadu a odeslat na cílovou platformu. Snadno přidejte vypočítaný sloupec do existující tabulky.
Splatnost Tento proces se používá více než dvě desetiletí. Je dobře zdokumentováno a osvědčené postupy snadno dostupné. Relativně nový koncept a jeho implementace je složitá.
Hardware Většina nástrojů má jedinečné hardwarové požadavky, které jsou drahé. Náklady na hardware Saas nejsou problém.
Podpora nestrukturovaných dat Většinou podporuje relační data Podpora nestrukturovaných dat snadno dostupná.