Co je Data Lake? Je to architektura

Co je Data Lake?

Data Lake je úložiště, do kterého lze ukládat velké množství strukturovaných, polostrukturovaných a nestrukturovaných dat. Je to místo pro ukládání všech typů dat v nativním formátu bez pevných omezení velikosti účtu nebo souboru. Nabízí velké množství dat ke zvýšení analytického výkonu a nativní integrace.

Datové jezero je jako velký kontejner, který je velmi podobný skutečnému jezeru a řekám. Stejně jako v jezeře, do kterého přichází více přítoků, má datové jezero strukturovaná data, nestrukturovaná data, stroj na stroj, protokoly protékající v reálném čase.

Data Lake demokratizuje data a představuje nákladově efektivní způsob ukládání všech dat organizace pro pozdější zpracování. Výzkumný analytik se může soustředit na hledání vzorců významů v datech, nikoli v datech samotných.

Na rozdíl od hierarchického domu Dataware, kde jsou data uložena v souborech a složkách, má Data lake plochou architekturu. Každému datovému prvku v Data Lake je přidělen jedinečný identifikátor a je označen sadou informací o metadatech.

V tomto výukovém programu se naučíte

Co je Data Lake?
Proč Data Lake?
Architektura Data Lake
Key Data Lake Concepts
Fáze zralosti Data Lake
Osvědčené postupy pro implementaci Data Lake:
Rozdíl mezi datovými jezery a datovým skladem
Výhody a rizika používání Data Lake:

Proč Data Lake?

Hlavním cílem vybudování datového jezera je nabídnout datovým vědcům nerafinovaný pohled na data.

Důvody pro použití Data Lake jsou:

S nástupem úložných modulů, jako je Hadoop, bylo ukládání různorodých informací snadné. Není třeba modelovat data do celopodnikového schématu pomocí Data Lake.
S nárůstem objemu dat, kvality dat a metadat se zvyšuje také kvalita analýz.
Data Lake nabízí obchodní agilitu
Strojové učení a umělou inteligenci lze použít k vytváření výnosných předpovědí.
Poskytuje implementační organizaci konkurenční výhodu.
Neexistuje žádná struktura datového sila. Data Lake poskytuje 360 ° pohled na zákazníky a činí analýzu robustnější.

Architektura Data Lake

Obrázek ukazuje architekturu Business Data Lake. Dolní úrovně představují data, která jsou většinou v klidu, zatímco horní úrovně zobrazují transakční data v reálném čase. Tato data procházejí systémem s žádnou nebo malou latencí. Níže jsou důležité úrovně v architektuře Data Lake Architecture:

Úroveň příjmu : Úrovně na levé straně zobrazují zdroje dat. Data mohla být načtena do datového jezera v dávkách nebo v reálném čase
Úroveň statistik: Úrovně vpravo představují stranu výzkumu, kde se používají přehledy ze systému. Pro analýzu dat lze použít dotazy SQL, NoSQL nebo dokonce Excel.
HDFS je nákladově efektivní řešení pro strukturovaná i nestrukturovaná data. Je to přistávací zóna pro všechna data, která jsou v systému v klidu.
Destilační vrstva bere data z pneumatiky pro skladování a převádí je na strukturovaná data pro snadnější analýzu.
Zpracování analytických algoritmů úrovně a dotazů uživatelů s různým interaktivním dávkovým zpracováním v reálném čase pro generování strukturovaných dat pro snadnější analýzu.
Správa a monitorování systému se řídí úrovní sjednoceného provozu . Zahrnuje auditování a správu dovedností, správu dat, správu pracovních toků.

Key Data Lake Concepts

Následuje koncept Key Data Lake, kterému je třeba porozumět, abyste zcela porozuměli architektuře Data Lake

Příjem dat

Data Ingestion umožňuje konektorům získat data z různých zdrojů dat a načíst je do Data Lake.

Příjem dat podporuje:

Všechny typy strukturovaných, polostrukturovaných a nestrukturovaných dat.
Vícenásobné požití, jako je Batch, Real-Time, One-time load.
Mnoho typů zdrojů dat, jako jsou databáze, webové servery, e-maily, IoT a FTP.

Datové úložiště

Úložiště dat by mělo být škálovatelné, nabízí nákladově efektivní úložiště a umožňuje rychlý přístup k průzkumu dat. Mělo by podporovat různé datové formáty.

Správa údajů

Správa dat je proces řízení dostupnosti, použitelnosti, zabezpečení a integrity dat používaných v organizaci.

Bezpečnostní

Zabezpečení je třeba implementovat ve všech vrstvách datového jezera. Začíná to skladováním, odkrýváním a spotřebou. Základní potřebou je zastavit přístup neoprávněným uživatelům. Mělo by podporovat různé nástroje pro přístup k datům pomocí snadno ovladatelného grafického uživatelského rozhraní a řídicích panelů.

Ověřování, účtování, autorizace a ochrana dat jsou některé důležité funkce zabezpečení datového jezera.

Kvalita dat:

Kvalita dat je základní součástí architektury Data Lake. Data se používají k přesné obchodní hodnotě. Extrakce statistik z nekvalitních dat povede ke statistikám nekvalitní.

Zjištění dat

Data Discovery je další důležitá fáze, než můžete začít s přípravou dat nebo analýzou. V této fázi se k vyjádření porozumění dat používá technika značkování, a to uspořádáním a interpretací dat přijatých v Data Lake.

Audit dat

Dvěma hlavními úkoly auditu dat jsou sledování změn klíčové datové sady.

Sledování změn důležitých prvků datové sady
Zachytává, jak / kdy / a kdo se mění v těchto prvcích.

Audit dat pomáhá vyhodnotit riziko a dodržování předpisů.

Datová linie

Tato součást se zabývá původem dat. Zabývá se hlavně tím, kam se v průběhu času pohybuje a co se s ním stane. Usnadňuje opravy chyb v procesu analýzy dat z místa původu do cíle.

Průzkum dat

Je to počáteční fáze analýzy dat. Před zahájením průzkumu dat pomáhá identifikovat správnou datovou sadu.

Všechny uvedené komponenty musí spolupracovat, aby mohly hrát důležitou roli v budování Data Lake, aby se mohly snadno vyvíjet a zkoumat prostředí.

Fáze zralosti Data Lake

Fáze Definice zralosti Data Lake se liší od učebnice k jiné. Ačkoli jádro zůstává stejné. Po vyspělosti je definice fáze z laického hlediska.

Fáze 1: Zacházení a příjem dat ve velkém

Tato první fáze zralosti dat zahrnuje zlepšení schopnosti transformovat a analyzovat data. Zde musí vlastníci firem najít nástroje podle svých dovedností pro získávání více dat a vytváření analytických aplikací.

Fáze 2: Budování analytického svalu

Toto je druhá fáze, která zahrnuje zlepšení schopnosti transformovat a analyzovat data. V této fázi používají společnosti nástroj, který je nejvhodnější pro jejich dovednosti. Začnou získávat více dat a vytvářet aplikace. Zde se schopnosti podnikového datového skladu a datového jezera používají společně.

Fáze 3: EDW a Data Lake fungují unisono

Tento krok zahrnuje získání dat a analytiky do rukou co nejvíce lidí. V této fázi datové jezero a podnikový datový sklad začínají pracovat v unii. Oba hrají svou roli v analytice

Fáze 4: Podnikové možnosti v jezeře

V této fázi zralosti datového jezera jsou do Data Lake přidány podnikové funkce. Přijetí správy informací, schopností správy životního cyklu informací a správy metadat. Jen velmi málo organizací však může dosáhnout této úrovně vyspělosti, ale tento vývoj se v budoucnu zvýší.

Osvědčené postupy pro implementaci Data Lake:

Architektonické komponenty, jejich interakce a identifikované produkty by měly podporovat nativní datové typy
Návrh Data Lake by měl být řízen tím, co je k dispozici, místo toho, co je požadováno. Schéma a požadavek na data nejsou definovány, dokud není dotazován
Návrh by se měl řídit jednorázovými komponentami integrovanými do servisního API.
Zjišťování, přijímání, ukládání, správa, kvalita, transformace a vizualizace dat by měly být spravovány samostatně.
Architektura Data Lake by měla být přizpůsobena konkrétnímu odvětví. Mělo by zajistit, aby schopnosti nezbytné pro danou doménu byly nedílnou součástí návrhu
Rychlejší zapojení nově objevených zdrojů dat je důležité
Data Lake pomáhá přizpůsobené správě získat maximální hodnotu
Data Lake by měl podporovat stávající techniky a metody správy podnikových dat

Výzvy při budování datového jezera:

V Data Lake je objem dat vyšší, takže proces musí být více závislý na programové správě
Je obtížné vypořádat se s řídkými, neúplnými a nestálými daty
Širší rozsah datové sady a zdroje vyžaduje větší správu a podporu dat

Rozdíl mezi datovými jezery a datovým skladem

Parametry	Datová jezera	Datový sklad
Data	Datová jezera ukládají všechno.	Data Warehouse se zaměřuje pouze na obchodní procesy.
zpracovává se	Data jsou převážně nezpracovaná	Vysoce zpracovaná data.
Typ dat	Může to být nestrukturované, polostrukturované a strukturované.	Je to většinou v tabulkové formě a struktuře.
Úkol	Sdílejte správu dat	Optimalizováno pro načítání dat
hbitost	Vysoce agilní, konfigurujte a překonfigurujte podle potřeby.	Ve srovnání s Data Lake je méně agilní a má pevnou konfiguraci.
Uživatelé	Data Lake je většinou používán Data Scientist	Obchodní profesionálové široce používají datový sklad
Úložný prostor	Návrh datových jezer pro levné skladování.	Využívá se drahé úložiště, které poskytuje rychlé doby odezvy
Bezpečnostní	Nabízí menší kontrolu.	Umožňuje lepší kontrolu nad daty.
Výměna EDW	Datové jezero může být zdrojem pro EDW	Doplňkové k EDW (ne výměna)
Schéma	Schéma čtení (žádná předdefinovaná schémata)	Schéma při zápisu (předdefinovaná schémata)
Zpracování dat	Pomáhá rychle přijímat nová data.	Časově náročné zavádění nového obsahu.
Podrobnost údajů	Data s nízkou úrovní podrobností nebo podrobností.	Údaje na souhrnné nebo agregované úrovni podrobností.
Nástroje	Může používat open source / nástroje jako Hadoop / Map Reduce	Většinou komerční nástroje.

Výhody a rizika používání Data Lake:

Tady jsou některé hlavní výhody při používání Data Lake:

Plně pomáhá s ionizací produktů a pokročilou analýzou
Nabízí nákladově efektivní škálovatelnost a flexibilitu
Hodnota nabídky z neomezeného množství datových typů
Snižuje dlouhodobé náklady na vlastnictví
Umožňuje ekonomické ukládání souborů
Rychle se přizpůsobuje změnám
Hlavní výhodou datového jezera je centralizace různých zdrojů obsahu
Uživatelé z různých oddělení, kteří mohou být rozptýleni po celém světě, mohou mít flexibilní přístup k datům

Riziko používání Data Lake:

Po nějaké době může Data Lake ztratit relevanci a dynamiku
Při navrhování Data Lake existuje větší riziko
Nestrukturovaná data mohou vést k neřízenému chao, nepoužitelným datům, různorodým a komplexním nástrojům, celopodnikové spolupráci, jednotnému, konzistentnímu a společnému
Rovněž zvyšuje náklady na úložiště a výpočet
Neexistuje způsob, jak získat poznatky od ostatních, kteří s daty pracovali, protože neexistuje žádný záznam o linii nálezů předchozích analytiků
Největším rizikem datových jezer je bezpečnost a kontrola přístupu. Někdy lze data umístit do jezera bez jakéhokoli dohledu, protože některá data mohou vyžadovat soukromí a regulaci

Souhrn:

Data Lake je úložiště, do kterého lze ukládat velké množství strukturovaných, polostrukturovaných a nestrukturovaných dat.
Hlavním cílem vybudování datového jezera je nabídnout datovým vědcům nerafinovaný pohled na data.
Úroveň sjednocených operací, úroveň zpracování, úroveň destilace a HDFS jsou důležité vrstvy architektury Data Lake Architecture
Data Ingestion, Data storage, Data quality, Data Auditing, Data exploration, Data discover are some important components of Data Lake Architecture
Návrh Data Lake by měl být řízen tím, co je k dispozici, místo toho, co je požadováno.
Data Lake snižuje dlouhodobé náklady na vlastnictví a umožňuje ekonomické ukládání souborů
Největším rizikem datových jezer je bezpečnost a kontrola přístupu. Někdy lze data umístit do jezera bez jakéhokoli dohledu, protože některá data mohou vyžadovat soukromí a regulaci.

Co je Data Lake? Je to architektura

Obsah:

Co je Data Lake?

Proč Data Lake?

Architektura Data Lake

Key Data Lake Concepts

Příjem dat

Datové úložiště

Správa údajů

Bezpečnostní

Kvalita dat:

Zjištění dat

Audit dat

Datová linie

Průzkum dat

Fáze zralosti Data Lake

Fáze 1: Zacházení a příjem dat ve velkém

Fáze 2: Budování analytického svalu

Fáze 3: EDW a Data Lake fungují unisono

Fáze 4: Podnikové možnosti v jezeře

Osvědčené postupy pro implementaci Data Lake:

Rozdíl mezi datovými jezery a datovým skladem

Výhody a rizika používání Data Lake:

Souhrn:

Metoda Java String compareTo (): Jak používat příklady

Řetězec ends Metoda () v Javě s příkladem

Řetězec Java obsahuje metodu () - Zkontrolujte podřetězec s příkladem

Java String replace (), replaceFirst () & replaceAll () s Příklady

Metody Java String toLowercase () a toUpperCase ()

Zvyšte maximální velikost nahrávání PHP - Triky CSS

Zobrazit stylizovaný obsah adresáře Triky CSS

Přihlašovací funkce - Triky CSS

Vytvořit náhodné číslo - Triky CSS

MySQL Backup Class - Triky CSS

7 Zásad testování softwaru: Naučte se s příklady

Příklad skriptu VuGen (Virtual User Generator) v LoadRunneru

V-model v testování softwaru

Fáze STLC (Software Testing Life Cycle), kritéria vstupu, výstupu

Výukový program pro ruční testování: Co je, koncepty, typy & Nástroj