Architektura, koncepty a komponenty datového skladu

Obsah:

Anonim

Koncepty datového skladu

Základním konceptem datového skladu je usnadnit společnosti jednu verzi pravdy pro rozhodování a předpovídání. Datový sklad je informační systém, který obsahuje historická a komutativní data z jednoho nebo více zdrojů. Koncepty datového skladu zjednodušují proces hlášení a analýzy organizací.

Charakteristika datového skladu

Koncepty datového skladu mají následující vlastnosti:

  • Předmětově orientovaný
  • Integrovaný
  • Časová varianta
  • Energeticky nezávislé

Předmětově orientovaný

Datový sklad je předmětově orientovaný, protože namísto probíhajících operací společností nabízí informace týkající se tématu. Těmito subjekty mohou být prodej, marketing, distribuce atd.

Datový sklad se nikdy nezaměřuje na probíhající operace. Místo toho klade důraz na modelování a analýzu dat pro rozhodování . Poskytuje také jednoduchý a výstižný pohled na konkrétní subjekt tím, že vylučuje údaje, které nejsou užitečné pro podporu rozhodovacího procesu.

Integrovaný

V Data Warehouse znamená integrace vytvoření společné měrné jednotky pro všechna podobná data z odlišné databáze. Data musí být také uložena v Datawarehouse běžným a všeobecně přijatelným způsobem.

Datový sklad je vyvíjen integrací dat z různých zdrojů, jako je mainframe, relační databáze, ploché soubory atd. Kromě toho musí dodržovat konzistentní konvence pojmenování, formát a kódování.

Tato integrace pomáhá při efektivní analýze dat. Musí být zajištěna konzistence v konvencích pojmenování, mírách atributů, struktuře kódování atd. Zvažte následující příklad:

Ve výše uvedeném příkladu existují tři různé aplikace označené A, B a C. Informace uložené v těchto aplikacích jsou Pohlaví, Datum a Zůstatek. Data každé aplikace se však ukládají jiným způsobem.

  • V poli Aplikace A gender ukládejte logické hodnoty jako M nebo F.
  • V poli aplikace B pohlaví je číselná hodnota,
  • V aplikaci C aplikace je pole pohlaví uloženo ve formě znakové hodnoty.
  • Totéž platí pro datum a zůstatek

Po procesu transformace a čištění jsou však všechna tato data uložena v běžném formátu v datovém skladu.

Časová varianta

Časový horizont pro datový sklad je ve srovnání s operačními systémy poměrně rozsáhlý. Data shromážděná v datovém skladu jsou rozpoznána s určitým obdobím a nabízejí informace z historického hlediska. Obsahuje prvek času, explicitně nebo implicitně.

Jedno takové místo, kde se datová odchylka zobrazení dat Datawarehouse nachází ve struktuře klíče záznamu. Každý primární klíč obsažený v DW by měl mít implicitně nebo explicitně prvek času. Jako den, týden, měsíc atd.

Dalším aspektem časové odchylky je, že jakmile jsou data vložena do skladu, nelze je aktualizovat ani změnit.

Energeticky nezávislé

Datový sklad je také energeticky nezávislý, což znamená, že předchozí data se nevymažou, když se do něj zadají nová data.

Data jsou jen pro čtení a pravidelně se obnovují. To také pomáhá analyzovat historická data a porozumět tomu, co a kdy se stalo. Nevyžaduje mechanismy transakčního procesu, zotavení a řízení souběžnosti.

Činnosti jako mazání, aktualizace a vkládání, které se provádějí v prostředí provozní aplikace, jsou v prostředí datového skladu vynechány. Pouze dva typy datových operací prováděných v datovém skladu jsou

  1. Načítání dat
  2. Přístup k datům

Zde jsou některé hlavní rozdíly mezi aplikací a datovým skladem

Provozní aplikace Datový sklad
Složitý program musí být kódován, aby se zajistilo, že procesy aktualizace dat zachovají vysokou integritu konečného produktu. K tomuto problému nedochází, protože se neprovádí aktualizace dat.
Data jsou umístěna v normalizované formě, aby byla zajištěna minimální redundance. Data se neukládají v normalizované podobě.
Technologie potřebná k podpoře problémů s transakcemi, obnovou dat, vrácením zpět a řešením, protože zablokování je poměrně složité. Nabízí relativní jednoduchost technologie.

Architektura datového skladu

Architektura datového skladu je složitá, protože se jedná o informační systém, který obsahuje historická a komutativní data z více zdrojů. Existují 3 přístupy ke konstrukci vrstev Data Warehouse: Single Tier, Two Tier a Three Tier. Tato třívrstvá architektura Data Warehouse je vysvětlena níže.

Jednovrstvá architektura

Cílem jedné vrstvy je minimalizovat množství uložených dat. Cílem je odstranit nadbytečnost dat. Tato architektura se v praxi často nepoužívá.

Dvoustupňová architektura

Dvouvrstvá architektura je jednou z vrstev Data Warehouse, která odděluje fyzicky dostupné zdroje a datový sklad. Tato architektura není rozšiřitelná a také nepodporuje velké množství koncových uživatelů. Má také problémy s připojením z důvodu síťových omezení.

Třívrstvá architektura datových skladů

Toto je nejpoužívanější architektura datového skladu.

Skládá se z horní, střední a spodní vrstvy.

  1. Dolní vrstva: Databáze serverů Datawarehouse jako spodní vrstva. Obvykle se jedná o relační databázový systém. Data jsou vyčištěna, transformována a načtena do této vrstvy pomocí back-endových nástrojů.
  2. Middle Tier: Middle tier in Data warehouse is an OLAP server which is implemented using either ROLAP or MOLAP model. Pro uživatele představuje tato aplikační vrstva abstraktní pohled na databázi. Tato vrstva funguje také jako prostředník mezi koncovým uživatelem a databází.
  3. Nejvyšší úroveň: Nejvyšší úroveň je klientská vrstva front-end. Špičková úroveň jsou nástroje a rozhraní API, které připojujete a získáváte data z datového skladu. Může to být Dotazovací nástroje, nástroje pro vytváření sestav, nástroje pro spravované dotazy, nástroje pro analýzu a nástroje pro dolování dat.

Komponenty Datawarehouse

Dozvíme se o komponentách Datawarehouse a architektuře datového skladu s diagramem, jak je uvedeno níže:

Architektura datového skladu

Data Warehouse je založen na serveru RDBMS, který je centrálním úložištěm informací obklopeným některými klíčovými komponentami Data Warehousing, aby celé prostředí bylo funkční, spravovatelné a přístupné.

Existuje hlavně pět komponent Data Warehouse:

Databáze datového skladu

Centrální databáze je základem prostředí datových skladů. Tato databáze je implementována na technologii RDBMS. I když je tento druh implementace omezen skutečností, že tradiční systém RDBMS je optimalizován pro zpracování transakční databáze a nikoli pro datové sklady. Například dotaz ad-hoc, připojení více tabulek, agregace jsou náročné na zdroje a zpomalují výkon.

Proto se používají alternativní přístupy k databázi, jak je uvedeno níže -

  • V datovém skladu jsou relační databáze nasazeny paralelně, aby byla zajištěna škálovatelnost. Paralelní relační databáze také umožňují sdílenou paměť nebo model sdíleného nic na různých konfiguracích více procesorů nebo masivně paralelních procesorech.
  • Nové struktury indexů se používají k obejití skenování relační tabulky a ke zvýšení rychlosti.
  • Použití vícerozměrné databáze (MDDB) k překonání jakýchkoli omezení, která jsou kladena z důvodu modelů relačních datových skladů. Příklad: Essbase od společnosti Oracle.

Sourcing, akvizice, vyčištění a transformační nástroje (ETL)

Nástroje pro získávání, transformaci a migraci dat se používají k provádění všech převodů, shrnutí a všech změn potřebných k transformaci dat do jednotného formátu v datovém skladu. Nazývají se také nástroje pro extrakci, transformaci a načtení (ETL).

Mezi jejich funkce patří:

  • Anonymizujte údaje podle regulačních ustanovení.
  • Eliminace nežádoucích dat v provozních databázích z načítání do datového skladu.
  • Vyhledejte a nahraďte běžné názvy a definice dat pocházejících z různých zdrojů.
  • Výpočet shrnutí a odvozených údajů
  • V případě chybějících údajů je vyplňte výchozími hodnotami.
  • Duplikovaná opakovaná data přicházející z více zdrojů dat.

Tyto nástroje pro extrakci, transformaci a načtení mohou generovat úlohy cron, úlohy na pozadí, programy Cobol, skripty prostředí atd., Které pravidelně aktualizují data v datovém skladu. Tyto nástroje jsou také užitečné při údržbě metadat.

Tyto nástroje ETL se musí vypořádat s výzvami heterogenity databází a dat.

Metadata

Název Meta Data naznačuje některé technologické koncepty datového skladu na vysoké úrovni. Je to však celkem jednoduché. Metadata jsou data o datech, která definují datový sklad. Používá se pro budování, údržbu a správu datového skladu.

V architektuře Data Warehouse Architecture hrají metadata důležitou roli, protože určují zdroj, využití, hodnoty a funkce datového skladu. Rovněž definuje, jak lze data měnit a zpracovávat. Je úzce propojen s datovým skladem.

Řádek v prodejní databázi může například obsahovat:

4030 KJ732 299.90

Toto jsou nesmyslná data, dokud nebudeme konzultovat metu, které nám řeknou, že to bylo

  • Číslo modelu: 4030
  • ID obchodního agenta: KJ732
  • Celková částka prodeje 299,90 USD

Proto jsou metadata důležitými složkami při transformaci dat na znalosti.

Metadata pomáhají zodpovědět následující otázky

  • Jaké tabulky, atributy a klíče obsahuje Data Warehouse?
  • Odkud pochází data?
  • Kolikrát se znovu načtou data?
  • Jaké transformace byly použity při čištění?

Metadata lze rozdělit do následujících kategorií:

  1. Technická metadata : Tento druh metadat obsahuje informace o skladu, který používají návrháři a správci datového skladu.
  2. Obchodní metadata: Tento druh metadat obsahuje podrobnosti, které koncovým uživatelům poskytují snadno srozumitelné informace uložené v datovém skladu.

Dotazovací nástroje

Jedním z hlavních objektů datových skladů je poskytovat informace podnikům, aby mohly činit strategická rozhodnutí. Dotazovací nástroje umožňují uživatelům interakci se systémem datového skladu.

Tyto nástroje spadají do čtyř různých kategorií:

  1. Dotazovací a reportovací nástroje
  2. Nástroje pro vývoj aplikací
  3. Nástroje pro dolování dat
  4. Nástroje OLAP

1. Dotazovací a reportovací nástroje:

Dotazovací a reportovací nástroje lze dále rozdělit na

  • Nástroje pro podávání zpráv
  • Nástroje spravovaného dotazu

Nástroje pro podávání zpráv:

Reportovací nástroje lze dále rozdělit na produkční reportovací nástroje a desktopové reportéry.

  1. Tvůrci reportů: Tento druh reportovacích nástrojů jsou nástroje určené pro koncové uživatele pro jejich analýzu.
  2. Hlášení výroby: Tento druh nástrojů umožňuje organizacím generovat pravidelné provozní zprávy. Podporuje také velkoobjemové dávkové úlohy, jako je tisk a výpočet. Mezi oblíbené nástroje pro vytváření sestav patří Brio, Business Objects, Oracle, PowerSoft, SAS Institute.

Nástroje pro spravované dotazy:

Tento druh přístupových nástrojů pomáhá koncovým uživatelům vyřešit problémy v databázi a SQL a struktuře databáze vložením metavrstvy mezi uživatele a databázi.

2. Nástroje pro vývoj aplikací:

Někdy integrované grafické a analytické nástroje neuspokojují analytické potřeby organizace. V takových případech se vytvářejí vlastní sestavy pomocí nástrojů pro vývoj aplikací.

3. Nástroje pro dolování dat:

Dolování dat je proces objevování smysluplné nové korelace, pattenů a trendů těžbou velkého množství dat. K automatizaci tohoto procesu se používají nástroje pro dolování dat.

4. Nástroje OLAP:

Tyto nástroje jsou založeny na koncepcích vícerozměrné databáze. Umožňuje uživatelům analyzovat data pomocí komplikovaných a komplexních vícerozměrných pohledů.

Architektura sběrnice datového skladu

Datový sklad Bus určuje tok dat ve vašem skladu. Tok dat v datovém skladu lze kategorizovat jako přítok, upflow, downflow, outflow a meta tok.

Při navrhování datové sběrnice je třeba vzít v úvahu sdílené dimenze, fakta napříč datovými trhy.

Data Marts

Datový trh je přístupová vrstva, která se používá k získávání dat k uživatelům. Představuje se jako možnost pro datový sklad velkých rozměrů, protože jeho sestavení zabere méně času a peněz. Neexistuje však žádná standardní definice datového trhu, která se liší od člověka k člověku.

Jednoduše řečeno, datový trh je dceřinou společností datového skladu. Datový trh se používá pro rozdělení dat, které se vytváří pro konkrétní skupinu uživatelů.

Datové trhy mohou být vytvořeny ve stejné databázi jako Datawarehouse nebo fyzicky oddělené databázi.

Osvědčené postupy pro architekturu datového skladu

Chcete-li navrhnout architekturu Data Warehouse, je třeba postupovat podle níže uvedených osvědčených postupů:

  • Použijte modely datového skladu, které jsou optimalizovány pro získávání informací, což může být dimenzionální režim, denormalizovaný nebo hybridní přístup.
  • Vyberte vhodný přístup k navrhování jako přístup shora dolů a zdola nahoru v Data Warehouse
  • Je třeba zajistit, aby byla data zpracována rychle a přesně. Zároveň byste měli zaujmout přístup, který konsoliduje data do jediné verze pravdy.
  • Pečlivě navrhněte proces získávání a čištění dat pro datový sklad.
  • Navrhněte architekturu MetaData, která umožňuje sdílení metadat mezi komponenty Data Warehouse
  • Zvažte implementaci modelu ODS, když je potřeba získávání informací blízko spodní části pyramidy abstrakce dat nebo když je k přístupu potřeba více provozních zdrojů.
  • Jeden by se měl ujistit, že je datový model integrovaný a nejen konsolidovaný. V takovém případě byste měli zvážit datový model 3NF. Je také ideální pro získávání nástrojů ETL a čištění dat

Souhrn:

  • Datový sklad je informační systém, který obsahuje historická a komutativní data z jednoho nebo více zdrojů. Těmito zdroji mohou být tradiční Data Warehouse, Cloud Data Warehouse nebo Virtual Data Warehouse.
  • Datový sklad je zaměřen na předmět, protože namísto probíhajících operací organizace nabízí informace o předmětu.
  • V Data Warehouse znamená integrace vytvoření společné měrné jednotky pro všechna podobná data z různých databází
  • Datový sklad je také energeticky nezávislý, což znamená, že předchozí data se nevymažou, když se do něj zadají nová data.
  • Datawarehouse je časová varianta, protože data v DW mají vysokou trvanlivost.
  • Existuje hlavně 5 komponent architektury Data Warehouse: 1) Databáze 2) Nástroje ETL 3) Meta data 4) Dotazovací nástroje 5) DataMarts
  • Jedná se o čtyři hlavní kategorie dotazovacích nástrojů 1. Dotaz a reporting, nástroje 2. Nástroje pro vývoj aplikací, 3. Nástroje pro dolování dat 4. Nástroje OLAP
  • Nástroje pro získávání, transformaci a migraci dat se používají k provádění všech převodů a shrnutí.
  • V architektuře Data Warehouse Architecture hrají metadata důležitou roli, protože určují zdroj, využití, hodnoty a funkce datového skladu.