Co je Data Lake?
Data Lake je úložiště, do kterého lze ukládat velké množství strukturovaných, polostrukturovaných a nestrukturovaných dat. Je to místo pro ukládání všech typů dat v nativním formátu bez pevných omezení velikosti účtu nebo souboru. Nabízí velké množství dat ke zvýšení analytického výkonu a nativní integrace.
Datové jezero je jako velký kontejner, který je velmi podobný skutečnému jezeru a řekám. Stejně jako v jezeře, do kterého přichází více přítoků, má datové jezero strukturovaná data, nestrukturovaná data, stroj na stroj, protokoly protékající v reálném čase.
Data Lake demokratizuje data a představuje nákladově efektivní způsob ukládání všech dat organizace pro pozdější zpracování. Výzkumný analytik se může soustředit na hledání vzorců významů v datech, nikoli v datech samotných.
Na rozdíl od hierarchického domu Dataware, kde jsou data uložena v souborech a složkách, má Data lake plochou architekturu. Každému datovému prvku v Data Lake je přidělen jedinečný identifikátor a je označen sadou informací o metadatech.
V tomto výukovém programu se naučíte
- Co je Data Lake?
- Proč Data Lake?
- Architektura Data Lake
- Key Data Lake Concepts
- Fáze zralosti Data Lake
- Osvědčené postupy pro implementaci Data Lake:
- Rozdíl mezi datovými jezery a datovým skladem
- Výhody a rizika používání Data Lake:
Proč Data Lake?
Hlavním cílem vybudování datového jezera je nabídnout datovým vědcům nerafinovaný pohled na data.
Důvody pro použití Data Lake jsou:
- S nástupem úložných modulů, jako je Hadoop, bylo ukládání různorodých informací snadné. Není třeba modelovat data do celopodnikového schématu pomocí Data Lake.
- S nárůstem objemu dat, kvality dat a metadat se zvyšuje také kvalita analýz.
- Data Lake nabízí obchodní agilitu
- Strojové učení a umělou inteligenci lze použít k vytváření výnosných předpovědí.
- Poskytuje implementační organizaci konkurenční výhodu.
- Neexistuje žádná struktura datového sila. Data Lake poskytuje 360 ° pohled na zákazníky a činí analýzu robustnější.
Architektura Data Lake
Obrázek ukazuje architekturu Business Data Lake. Dolní úrovně představují data, která jsou většinou v klidu, zatímco horní úrovně zobrazují transakční data v reálném čase. Tato data procházejí systémem s žádnou nebo malou latencí. Níže jsou důležité úrovně v architektuře Data Lake Architecture:
- Úroveň příjmu : Úrovně na levé straně zobrazují zdroje dat. Data mohla být načtena do datového jezera v dávkách nebo v reálném čase
- Úroveň statistik: Úrovně vpravo představují stranu výzkumu, kde se používají přehledy ze systému. Pro analýzu dat lze použít dotazy SQL, NoSQL nebo dokonce Excel.
- HDFS je nákladově efektivní řešení pro strukturovaná i nestrukturovaná data. Je to přistávací zóna pro všechna data, která jsou v systému v klidu.
- Destilační vrstva bere data z pneumatiky pro skladování a převádí je na strukturovaná data pro snadnější analýzu.
- Zpracování analytických algoritmů úrovně a dotazů uživatelů s různým interaktivním dávkovým zpracováním v reálném čase pro generování strukturovaných dat pro snadnější analýzu.
- Správa a monitorování systému se řídí úrovní sjednoceného provozu . Zahrnuje auditování a správu dovedností, správu dat, správu pracovních toků.
Key Data Lake Concepts
Následuje koncept Key Data Lake, kterému je třeba porozumět, abyste zcela porozuměli architektuře Data Lake
Příjem dat
Data Ingestion umožňuje konektorům získat data z různých zdrojů dat a načíst je do Data Lake.
Příjem dat podporuje:
- Všechny typy strukturovaných, polostrukturovaných a nestrukturovaných dat.
- Vícenásobné požití, jako je Batch, Real-Time, One-time load.
- Mnoho typů zdrojů dat, jako jsou databáze, webové servery, e-maily, IoT a FTP.
Datové úložiště
Úložiště dat by mělo být škálovatelné, nabízí nákladově efektivní úložiště a umožňuje rychlý přístup k průzkumu dat. Mělo by podporovat různé datové formáty.
Správa údajů
Správa dat je proces řízení dostupnosti, použitelnosti, zabezpečení a integrity dat používaných v organizaci.
Bezpečnostní
Zabezpečení je třeba implementovat ve všech vrstvách datového jezera. Začíná to skladováním, odkrýváním a spotřebou. Základní potřebou je zastavit přístup neoprávněným uživatelům. Mělo by podporovat různé nástroje pro přístup k datům pomocí snadno ovladatelného grafického uživatelského rozhraní a řídicích panelů.
Ověřování, účtování, autorizace a ochrana dat jsou některé důležité funkce zabezpečení datového jezera.
Kvalita dat:
Kvalita dat je základní součástí architektury Data Lake. Data se používají k přesné obchodní hodnotě. Extrakce statistik z nekvalitních dat povede ke statistikám nekvalitní.
Zjištění dat
Data Discovery je další důležitá fáze, než můžete začít s přípravou dat nebo analýzou. V této fázi se k vyjádření porozumění dat používá technika značkování, a to uspořádáním a interpretací dat přijatých v Data Lake.
Audit dat
Dvěma hlavními úkoly auditu dat jsou sledování změn klíčové datové sady.
- Sledování změn důležitých prvků datové sady
- Zachytává, jak / kdy / a kdo se mění v těchto prvcích.
Audit dat pomáhá vyhodnotit riziko a dodržování předpisů.
Datová linie
Tato součást se zabývá původem dat. Zabývá se hlavně tím, kam se v průběhu času pohybuje a co se s ním stane. Usnadňuje opravy chyb v procesu analýzy dat z místa původu do cíle.
Průzkum dat
Je to počáteční fáze analýzy dat. Před zahájením průzkumu dat pomáhá identifikovat správnou datovou sadu.
Všechny uvedené komponenty musí spolupracovat, aby mohly hrát důležitou roli v budování Data Lake, aby se mohly snadno vyvíjet a zkoumat prostředí.
Fáze zralosti Data Lake
Fáze Definice zralosti Data Lake se liší od učebnice k jiné. Ačkoli jádro zůstává stejné. Po vyspělosti je definice fáze z laického hlediska.
Fáze 1: Zacházení a příjem dat ve velkém
Tato první fáze zralosti dat zahrnuje zlepšení schopnosti transformovat a analyzovat data. Zde musí vlastníci firem najít nástroje podle svých dovedností pro získávání více dat a vytváření analytických aplikací.
Fáze 2: Budování analytického svalu
Toto je druhá fáze, která zahrnuje zlepšení schopnosti transformovat a analyzovat data. V této fázi používají společnosti nástroj, který je nejvhodnější pro jejich dovednosti. Začnou získávat více dat a vytvářet aplikace. Zde se schopnosti podnikového datového skladu a datového jezera používají společně.
Fáze 3: EDW a Data Lake fungují unisono
Tento krok zahrnuje získání dat a analytiky do rukou co nejvíce lidí. V této fázi datové jezero a podnikový datový sklad začínají pracovat v unii. Oba hrají svou roli v analytice
Fáze 4: Podnikové možnosti v jezeře
V této fázi zralosti datového jezera jsou do Data Lake přidány podnikové funkce. Přijetí správy informací, schopností správy životního cyklu informací a správy metadat. Jen velmi málo organizací však může dosáhnout této úrovně vyspělosti, ale tento vývoj se v budoucnu zvýší.
Osvědčené postupy pro implementaci Data Lake:
- Architektonické komponenty, jejich interakce a identifikované produkty by měly podporovat nativní datové typy
- Návrh Data Lake by měl být řízen tím, co je k dispozici, místo toho, co je požadováno. Schéma a požadavek na data nejsou definovány, dokud není dotazován
- Návrh by se měl řídit jednorázovými komponentami integrovanými do servisního API.
- Zjišťování, přijímání, ukládání, správa, kvalita, transformace a vizualizace dat by měly být spravovány samostatně.
- Architektura Data Lake by měla být přizpůsobena konkrétnímu odvětví. Mělo by zajistit, aby schopnosti nezbytné pro danou doménu byly nedílnou součástí návrhu
- Rychlejší zapojení nově objevených zdrojů dat je důležité
- Data Lake pomáhá přizpůsobené správě získat maximální hodnotu
- Data Lake by měl podporovat stávající techniky a metody správy podnikových dat
Výzvy při budování datového jezera:
- V Data Lake je objem dat vyšší, takže proces musí být více závislý na programové správě
- Je obtížné vypořádat se s řídkými, neúplnými a nestálými daty
- Širší rozsah datové sady a zdroje vyžaduje větší správu a podporu dat
Rozdíl mezi datovými jezery a datovým skladem
Parametry | Datová jezera | Datový sklad |
---|---|---|
Data | Datová jezera ukládají všechno. | Data Warehouse se zaměřuje pouze na obchodní procesy. |
zpracovává se | Data jsou převážně nezpracovaná | Vysoce zpracovaná data. |
Typ dat | Může to být nestrukturované, polostrukturované a strukturované. | Je to většinou v tabulkové formě a struktuře. |
Úkol | Sdílejte správu dat | Optimalizováno pro načítání dat |
hbitost | Vysoce agilní, konfigurujte a překonfigurujte podle potřeby. | Ve srovnání s Data Lake je méně agilní a má pevnou konfiguraci. |
Uživatelé | Data Lake je většinou používán Data Scientist | Obchodní profesionálové široce používají datový sklad |
Úložný prostor | Návrh datových jezer pro levné skladování. | Využívá se drahé úložiště, které poskytuje rychlé doby odezvy |
Bezpečnostní | Nabízí menší kontrolu. | Umožňuje lepší kontrolu nad daty. |
Výměna EDW | Datové jezero může být zdrojem pro EDW | Doplňkové k EDW (ne výměna) |
Schéma | Schéma čtení (žádná předdefinovaná schémata) | Schéma při zápisu (předdefinovaná schémata) |
Zpracování dat | Pomáhá rychle přijímat nová data. | Časově náročné zavádění nového obsahu. |
Podrobnost údajů | Data s nízkou úrovní podrobností nebo podrobností. | Údaje na souhrnné nebo agregované úrovni podrobností. |
Nástroje | Může používat open source / nástroje jako Hadoop / Map Reduce | Většinou komerční nástroje. |
Výhody a rizika používání Data Lake:
Tady jsou některé hlavní výhody při používání Data Lake:
- Plně pomáhá s ionizací produktů a pokročilou analýzou
- Nabízí nákladově efektivní škálovatelnost a flexibilitu
- Hodnota nabídky z neomezeného množství datových typů
- Snižuje dlouhodobé náklady na vlastnictví
- Umožňuje ekonomické ukládání souborů
- Rychle se přizpůsobuje změnám
- Hlavní výhodou datového jezera je centralizace různých zdrojů obsahu
- Uživatelé z různých oddělení, kteří mohou být rozptýleni po celém světě, mohou mít flexibilní přístup k datům
Riziko používání Data Lake:
- Po nějaké době může Data Lake ztratit relevanci a dynamiku
- Při navrhování Data Lake existuje větší riziko
- Nestrukturovaná data mohou vést k neřízenému chao, nepoužitelným datům, různorodým a komplexním nástrojům, celopodnikové spolupráci, jednotnému, konzistentnímu a společnému
- Rovněž zvyšuje náklady na úložiště a výpočet
- Neexistuje způsob, jak získat poznatky od ostatních, kteří s daty pracovali, protože neexistuje žádný záznam o linii nálezů předchozích analytiků
- Největším rizikem datových jezer je bezpečnost a kontrola přístupu. Někdy lze data umístit do jezera bez jakéhokoli dohledu, protože některá data mohou vyžadovat soukromí a regulaci
Souhrn:
- Data Lake je úložiště, do kterého lze ukládat velké množství strukturovaných, polostrukturovaných a nestrukturovaných dat.
- Hlavním cílem vybudování datového jezera je nabídnout datovým vědcům nerafinovaný pohled na data.
- Úroveň sjednocených operací, úroveň zpracování, úroveň destilace a HDFS jsou důležité vrstvy architektury Data Lake Architecture
- Data Ingestion, Data storage, Data quality, Data Auditing, Data exploration, Data discover are some important components of Data Lake Architecture
- Návrh Data Lake by měl být řízen tím, co je k dispozici, místo toho, co je požadováno.
- Data Lake snižuje dlouhodobé náklady na vlastnictví a umožňuje ekonomické ukládání souborů
- Největším rizikem datových jezer je bezpečnost a kontrola přístupu. Někdy lze data umístit do jezera bez jakéhokoli dohledu, protože některá data mohou vyžadovat soukromí a regulaci.