Co je smíření dat? Definice, proces, nástroje

Obsah:

Anonim

Co je smíření dat?

Sladění dat (DR) je definováno jako proces ověřování dat během migrace dat. V tomto procesu se cílová data porovnávají se zdrojovými daty, aby se zajistilo, že migrační architektura přenáší data. Ověření dat a odsouhlasení (DVR) znamená technologii, která ke zpracování informací využívá matematické modely.

V tomto výukovém programu se naučíte,

  • Co je smíření dat?
  • Proč je sladění dat důležité?
  • Terminologie spojená s odsouhlasením údajů
  • Historie smíření dat
  • Proces sladění dat
  • Osvědčené postupy pro použití sladění dat
  • Nástroje pro sladění dat

Proč je sladění dat důležité?

V procesu migrace dat je možné, že dojde k chybám v logice mapování a transformace. Problémy jako selhání běhu, jako jsou výpadky sítě nebo nefunkční transakce, mohou data poškodit.

Tento druh chyb může vést k tomu, že data zůstanou v neplatném stavu. Mohou vytvářet řadu problémů, jako jsou:

  • Chybějící záznamy
  • Chybějící hodnoty
  • Nesprávné hodnoty
  • Duplikované záznamy
  • Špatně formátované hodnoty
  • Přerušené vztahy mezi tabulkami nebo systémy

Tady jsou důležité důvody pro použití procesu vyrovnání dat:

  • Použití nástroje Data Reconciliation vám pomůže získat přesné a spolehlivé informace o stavu průmyslového procesu ze surových dat měření.
  • Také vám pomůže vytvořit jednu konzistentní sadu dat představujících nejpravděpodobnější operaci procesu.
  • Vede také k nepřesnému přehledu a problémům se zákaznickým servisem.
  • Sladění dat je také důležité pro integraci řízení podniku.

Kromě výše uvedeného existuje mnoho výhod / výhod sladění dat.

Terminologie spojená s odsouhlasením údajů

Hrubá chyba Hrubé chyby v měření. Odráží pouze chyby zkreslení, poruchy nástroje nebo abnormální špičky hluku, pokud používáte pouze průměrnou dobu s krátkou dobou průměrování.
Pozorovatelnost Analýza pozorovatelnosti vám může poskytnout podrobnosti o tom, jaké proměnné lze určit pro danou sadu omezení a sadu měření.
Rozptyl Variance je měřítkem variability senzoru.
Nadbytek Pomůže vám určit, která měření by měla být odhadnuta z jiných proměnných pomocí rovnic omezení.

Historie smíření dat

Zde jsou důležité body z historie smíření dat.

  • DVR (Data Validation and Reconciliation) začal na počátku 60. let. Bylo zaměřeno na uzavření materiálových bilancí ve výrobě, kde byla k dispozici surová měření pro všechny proměnné.
  • Na konci šedesátých let byly v procesu odsouhlasení dat brány v úvahu všechny neměřené proměnné.
  • Dynamika kvazi-ustáleného stavu pro filtrování a paralelní odhad parametrů v průběhu času byla zavedena v roce 1977 Stanleyem a Mah.
  • Dynamic DVR byl vyvinut jako nelineární optimalizační model, který vydal Liebman v roce 1992

Proces sladění dat

Typy metod sladění dat jsou:

Odsouhlasení kmenových dat

Sladění kmenových dat je technika sladění pouze kmenových dat mezi zdrojem a cílem. Kmenová data se většinou nemění nebo se pomalu mění a v datové sadě se neprovádí žádná agregační operace.

Několik běžných příkladů odsouhlasení kmenových dat je:

  • Celkový počet řádků
  • Celkový zákazník ve zdroji a cíli
  • Celkový počet položek ve zdroji a cíli
  • Celkový počet řádků na základě dané podmínky
  • Počet aktivních uživatelů
  • Počet neaktivních uživatelů atd.

Přesnost činnosti

  • Musíte se ujistit, že transakce jsou platné a mají správný účel.
  • Je třeba zkontrolovat, zda byly transakce řádně autorizovány.

Transakční smíření dat

Transakční data tvoří základ BI sestav. Proto může jakýkoli nesoulad v transakčních datech přímo ovlivnit spolehlivost sestavy a celého systému BI obecně.

Metoda odsouhlasení transakčních dat se používá z hlediska celkového součtu, který zabraňuje jakémukoli nesouladu způsobenému změnou granularity kvalifikačních dimenzí.

Příklady opatření použitých pro odsouhlasení transakčních údajů by měly být:

  1. Součet celkového příjmu vypočítaného ze zdroje a cíle
  2. Součet celé prodané položky, vypočítaný ze zdroje a cíle atd.

Automatické sladění dat:

Ve velkém systému správy datových skladů je vhodné automatizovat proces odsouhlasení dat tím, že se stane nedílnou součástí načítání dat. Umožňuje vám udržovat samostatné načítání tabulek metadat. Automatizované odsouhlasení navíc bude všechny zúčastněné strany informovat o platnosti zpráv.

Osvědčené postupy pro použití sladění dat

  • Proces sladění dat by měl být zaměřen na správné chyby měření.
  • Hrubé chyby by měly být nulové, aby byl proces sladění dat efektivní.
  • Standardní přístup k slučování dat se spoléhal na jednoduché počty záznamů, aby bylo možné sledovat, zda cílový počet záznamů migroval nebo ne.
  • Řešení migrace dat poskytuje podobné možnosti sladění a funkčnost prototypování dat, které nabízejí testování hromadného porovnávání dat.

Nástroje pro sladění dat

1) OpenRefine

OpenRefine, který je dříve známý jako Google Refine, je užitečný rámec pro sladění databáze. Umožňuje vám vyčistit a přenést špinavá data.

Odkaz ke stažení: https://openrefine.org/

2) TIBCO Clarity

Tento nástroj pro sladění dat nabízí softwarové služby na vyžádání z webu ve formě softwaru jako služby. Umožňuje uživatelům ověřit data a vyčistit data. Poskytuje kompletní funkce testování smíření. Široce se používá v procesu ETL.

Odkaz ke stažení: https://clarity.cloud.tibco.com/landing/index.html

3) Winpure

Winpure je cenově dostupný a přesný software pro čištění dat. Umožňuje vám vyčistit velké množství dat, odstranit duplikáty, opravit a standardizovat a navrhnout konečnou sadu dat.

Odkaz ke stažení: https://winpure.com/

souhrn

  • Ověření dat a odsouhlasení (DVR) je technologie, která ke zpracování informací využívá matematické modely.
  • Použití odsouhlasení dat vám pomůže získat přesné a spolehlivé informace o stavu průmyslového procesu ze surových dat měření.
  • Hrubá chyba, pozorovatelnost, odchylka, redundance jsou důležité pojmy používané v procesu sladění dat
  • Ověření dat a usmíření začalo na počátku 60. let.
  • Tři typy metod sladění dat jsou 1) Vyrovnání kmenových dat 2) Vyrovnání transakčních dat 3) Automatické vyrovnání dat
  • Hrubé chyby by měly být nulové, aby byl proces sladění dat efektivní.
  • Některé důležité nástroje pro sladění dat jsou: 1) OpenRefine 2) TIBCO 3) Winpure
  • Tato metoda je široce používána při sledování výkonu a procesů v ropném rafinérském / jaderném / chemickém průmyslu