V tomto kurzu o rozdílech mezi Data Lake vs. Data Warehouse budeme diskutovat o klíčových rozdílech mezi Data Warehouse a Data Lake. Než však probereme rozdíl, nejprve se naučíme „Co je datový sklad?“.
Co je datový sklad?
Data Warehouse je směsicí technologií a komponent pro strategické využití dat. Shromažďuje a spravuje data z různých zdrojů, aby poskytla smysluplné obchodní informace. Jedná se o elektronické úložiště velkého množství informací určených pro dotazování a analýzu namísto zpracování transakcí. Jedná se o proces transformace dat na informace.
Co je Data Lake?
Dat Lake je storage úložiště, které je možné uložit velké množství strukturovaných, částečně strukturovaných a nestrukturovaných dat. Je to místo pro ukládání všech typů dat v nativním formátu bez pevných omezení velikosti účtu nebo souboru. Nabízí velké množství množství dat pro zvýšení analytického výkonu a nativní integraci.
Datové jezero je jako velký kontejner, který je velmi podobný skutečnému jezeru a řekám. Stejně jako v jezeře přichází i několik přítoků; podobně má datové jezero strukturovaná data, nestrukturovaná data, stroj na stroj, protokoly protékající v reálném čase.
Koncept datového skladu:
Data Warehouse ukládá data do souborů nebo složek, což pomáhá organizovat a používat data k přijímání strategických rozhodnutí. Tento úložný systém také poskytuje vícerozměrný pohled na atomová a souhrnná data. Důležité funkce, které je třeba provést, jsou:
- Extrakce dat
- Čištění dat
- Transformace dat
- Načítání a aktualizace dat
Dále se naučíme klíčový rozdíl mezi Azure Data Lake a datovým skladem.
KLÍČOVÝ ROZDÍL
- Data Lake ukládá všechna data bez ohledu na zdroj a jeho strukturu, zatímco Data Warehouse ukládá data v kvantitativních metrikách s jejich atributy.
- Data Lake je úložiště úložiště, které ukládá obrovská strukturovaná, polostrukturovaná a nestrukturovaná data, zatímco Data Warehouse kombinuje technologie a komponenty, které umožňují strategické využití dat.
- Data Lake definuje schéma po uložení dat, zatímco Data Warehouse definuje schéma před uložením dat.
- Data Lake používá proces ELT (Extract Load Transform), zatímco Data Warehouse používá proces ETL (Extract Load Load).
- Porovnáním Data Lake vs Warehouse je Data Lake ideální pro ty, kteří chtějí hloubkovou analýzu, zatímco Data Warehouse je ideální pro provozní uživatele.
Koncept Data Lake:
Data Lake je úložiště úložiště velké velikosti, které uchovává velké množství nezpracovaných dat v původním formátu až do doby, kdy je potřeba. Každý datový prvek v datovém jezeře dostane jedinečný identifikátor a je označen sadou rozšířených značek metadat. Nabízí širokou škálu analytických schopností.
Klíčový rozdíl mezi Data Lake a Data Warehouse
Zde jsou klíčové rozdíly mezi datovými jezery a datovým skladem:
Parametry | Datové jezero | Datový sklad |
---|---|---|
Úložný prostor | V datovém jezeře jsou všechna data uchovávána bez ohledu na zdroj a jeho strukturu. Data jsou uchovávána v surové podobě. Transformuje se pouze tehdy, když je připraven k použití. | Datový sklad bude sestávat z dat extrahovaných z transakčních systémů nebo dat, která se skládají z kvantitativních metrik s jejich atributy. Data jsou vyčištěna a transformována |
Dějiny | Big data technologie používané v datových jezerech jsou relativně nové. | Koncept datového skladu byl na rozdíl od velkých dat používán po celá desetiletí. |
Zachycování dat | Zachycuje všechny druhy dat a struktur, polostrukturované a nestrukturované v původní podobě ze zdrojových systémů. | Zachytává strukturované informace a organizuje je ve schématech definovaných pro účely datového skladu |
Časová osa dat | Data lakes mohou uchovat všechna data. To zahrnuje nejen data, která se používají, ale také data, která by mohla použít v budoucnu. Data se také uchovávají po celou dobu, aby se vrátila zpět v čase a provedla se analýza. | V procesu vývoje datového skladu se značný čas věnuje analýze různých zdrojů dat. |
Uživatelé | Datové jezero je ideální pro uživatele, kteří se věnují hloubkové analýze. Mezi takové uživatele patří datoví vědci, kteří potřebují pokročilé analytické nástroje s funkcemi, jako je prediktivní modelování a statistická analýza. | Datový sklad je ideální pro provozní uživatele, protože je dobře strukturovaný, snadno použitelný a srozumitelný. |
Náklady na skladování | Ukládání dat ve velkých datových technologiích je relativně levné než ukládání dat v datovém skladu. | Ukládání dat v datovém skladu je nákladnější a časově náročnější. |
Úkol | Data lakes can contain all data and data types; umožňuje uživatelům přístup k datům před transformací, očištěním a strukturováním. | Datové sklady mohou poskytnout přehled o předdefinovaných otázkách pro předdefinované datové typy. |
Doba zpracování | Data lakes zmocňují uživatele k přístupu k datům dříve, než budou transformována, očištěna a strukturována. Umožňuje tak uživatelům rychleji se dostat k jejich výsledku v porovnání s tradičním datovým skladem. | Datové sklady nabízejí náhled na předdefinované otázky pro předdefinované datové typy. Jakékoli změny v datovém skladu tedy vyžadovaly více času. |
Pozice schématu | Schéma je obvykle definováno po uložení dat. To nabízí vysokou agilitu a snadné získávání dat, ale vyžaduje to práci na konci procesu | Obvykle je schéma definováno před uložením dat. Vyžaduje práci na začátku procesu, ale nabízí výkon, zabezpečení a integraci. |
Zpracování dat | Data Lakes využívá proces ELT (Extract Load Transform). | Datový sklad používá tradiční proces ETL (Extract Transform Load). |
Stěžovat si | Data jsou uchovávána v surové podobě. Transformuje se pouze tehdy, když je připraven k použití. | Hlavní stížností na datové sklady je neschopnost nebo problém, kterému čelí při pokusu o změnu v nich. |
Klíčové benefity | Integrují různé typy dat, aby přišli se zcela novými otázkami, protože tito uživatelé pravděpodobně nebudou používat datové sklady, protože možná budou muset jít nad jeho možnosti. | Většina uživatelů v organizaci je v provozu. Tyto typy uživatelů se starají pouze o sestavy a klíčové metriky výkonu. |