Než se pustíme do úvodu k Big Data, musíte nejprve vědět
Co jsou data?
Množství, znaky nebo symboly, na nichž jsou operace prováděny počítačem, které mohou být ukládány a přenášeny ve formě elektrických signálů a zaznamenávány na magnetická, optická nebo mechanická záznamová média.
Nyní se naučíme úvod do Big Data
Co jsou to velká data?
Big Data je soubor dat, který má obrovský objem, a přesto s časem exponenciálně roste. Jedná se o data s tak velkou velikostí a složitostí, že žádný z tradičních nástrojů pro správu dat je nedokáže uložit ani efektivně zpracovat. Big data jsou také data, ale s obrovskou velikostí.
V tomto výukovém programu se naučíte,
- Co jsou data?
- Co jsou to velká data?
- Příklady velkých dat
- Druhy velkých dat
- Charakteristika velkých dat
- Výhody zpracování velkých dat
Příklady velkých dat
Následuje několik příkladů Big Data -
New York Stock Exchange generuje asi jeden terabajt nových obchodních dat za den.
Sociální média
Statistika ukazuje, že 500 + terabajtů nových dat je každý den přijímáno do databází sociálních médií na Facebooku . Tato data se generují hlavně z hlediska nahrávání fotografií a videa, výměny zpráv, vkládání komentářů atd.
Jediný stroj Jet dokáže vygenerovat 10 + terabajtů dat za 30 minut doby letu. S mnoha tisíci lety denně dosahuje generování dat až mnoha petabajtů.
Druhy velkých dat
Následují typy velkých dat:
- Strukturované
- Nestrukturovaný
- Polostrukturovaný
Strukturované
Jakákoli data, která lze ukládat, přistupovat k nim a zpracovávat je ve pevném formátu, se nazývají „strukturovaná“ data. V průběhu času dosáhl talent v počítačové vědě většího úspěchu při vývoji technik pro práci s takovými daty (kde je formát předem dobře znám) a také z toho odvozuje hodnotu. V dnešní době však předvídáme problémy, kdy velikost takových dat naroste do obrovské míry, typické velikosti jsou v běhu několika zettabytů.
Víš? 10 21 bajtů rovnajících se 1 zettabyte nebo jedné miliardě terabajtů tvoří zettabyte .
Při pohledu na tato čísla lze snadno pochopit, proč je název Big Data uveden, a představit si výzvy spojené s jejich ukládáním a zpracováním.
Víš? Data uložená v systému správy relačních databází jsou jedním příkladem „strukturovaných“ dat.
Příklady strukturovaných dat
Příkladem strukturovaných dat je tabulka „Zaměstnanec“ v databázi
Employee_ID | Jméno zaměstnance | Rod | oddělení | Plat_In_lacs |
---|---|---|---|---|
2365 | Rajesh Kulkarni | mužský | Finance | 650000 |
3398 | Pratibha Joshi | ženský | Správce | 650000 |
7465 | Shushil Roy | mužský | Správce | 500 000 |
7500 | Shubhojit Das | mužský | Finance | 500 000 |
7699 | Priya Sane | ženský | Finance | 550000 |
Nestrukturovaný
Jakákoli data s neznámou formou nebo strukturou jsou klasifikována jako nestrukturovaná data. Kromě obrovské velikosti představují nestrukturovaná data několik výzev, pokud jde o jejich zpracování, aby z nich byla odvozena hodnota. Typickým příkladem nestrukturovaných dat je heterogenní zdroj dat obsahující kombinaci jednoduchých textových souborů, obrázků, videí atd. Nyní mají organizace k dispozici velké množství dat, ale bohužel nevědí, jak z toho odvodit hodnotu, protože tato data jsou v nezpracované podobě nebo nestrukturovaném formátu.
Příklady nestrukturovaných dat
Výstup vrácený „Vyhledáváním Google“
Polostrukturovaný
Polostrukturovaná data mohou obsahovat obě formy dat. Můžeme vidět polostrukturovaná data jako strukturovaná ve formě, ale ve skutečnosti nejsou definována např. Definicí tabulky v relačním DBMS. Příkladem polostrukturovaných dat jsou data reprezentovaná v souboru XML.
Příklady polostrukturovaných dat
Osobní údaje uložené v souboru XML -
Prashant Rao Male 35 Seema R. Female 41 Satish Mane Male 29 Subrato Roy Male 26 Jeremiah J. Male 35
Růst dat v průběhu let
Vezměte prosím na vědomí, že data webových aplikací, která jsou nestrukturovaná, sestávají ze souborů protokolu, souborů historie transakcí atd. Systémy OLTP jsou vytvořeny pro práci se strukturovanými daty, přičemž data jsou uložena ve vztazích (tabulkách).
Charakteristika velkých dat
Big data lze popsat pomocí následujících charakteristik:
- Hlasitost
- Odrůda
- Rychlost
- Variabilita
(i) Volume - Samotný název Big Data souvisí s velikostí, která je obrovská. Velikost dat hraje velmi důležitou roli při určování hodnoty z dat. Také to, zda konkrétní data lze skutečně považovat za velká data, či nikoli, závisí na objemu dat. Proto je „objem“ jednou z charakteristik, kterou je třeba při práci s velkými daty vzít v úvahu.
(ii) Rozmanitost - Dalším aspektem Big Data je jeho rozmanitost .
Odrůda odkazuje na heterogenní zdroje a povahu dat, strukturovaných i nestrukturovaných. Během dřívějších dnů byly tabulky a databáze jediným zdrojem dat, který většina aplikací zvažovala. V dnešní době jsou v analytických aplikacích zohledňována také data ve formě e-mailů, fotografií, videí, monitorovacích zařízení, souborů PDF, zvuku atd. Tato rozmanitost nestrukturovaných dat představuje určité problémy pro ukládání, těžbu a analýzu dat.
(iii) Rychlost - Termín „rychlost“ se vztahuje k rychlosti generování dat. Skutečný potenciál v datech určuje, jak rychle se data generují a zpracovávají, aby splňovaly požadavky.
Big Data Velocity se zabývá rychlostí, jakou data proudí ze zdrojů, jako jsou obchodní procesy, protokoly aplikací, sítě a stránky sociálních médií, senzory, mobilní zařízení atd. Tok dat je masivní a nepřetržitý.
(iv) Variabilita - Týká se nekonzistence, kterou mohou data občas ukázat, což ztěžuje proces efektivní správy a správy dat.
Výhody zpracování velkých dat
Schopnost zpracovávat velká data přináší řadu výhod, například -
- Podniky mohou při rozhodování využívat vnější inteligenci
Přístup k sociálním datům z vyhledávačů a webů, jako je facebook, twitter, umožňuje organizacím doladit své obchodní strategie.
- Vylepšený zákaznický servis
Tradiční systémy zpětné vazby od zákazníků jsou nahrazovány novými systémy navrženými pomocí technologií Big Data. V těchto nových systémech se Big Data a technologie zpracování přirozeného jazyka používají ke čtení a hodnocení reakcí spotřebitelů.
- Včasná identifikace rizika pro produkt / služby, pokud existují
- Lepší provozní efektivita
Big Data technologies can be used for creating a staging area or landing zone for new data before identifying what data should be moved to the data warehouse. Kromě toho taková integrace technologií Big Data a datového skladu pomáhá organizaci uvolnit zřídka přístupná data.
souhrn
- Definice velkých dat: Big Data jsou definována jako data, která mají obrovskou velikost. Bigdata je termín používaný k popisu souboru dat, který má obrovskou velikost a přesto s časem exponenciálně roste.
- Mezi příklady analýzy velkých dat patří burzy, weby sociálních médií, tryskové motory atd.
- Big Data mohou být 1) strukturované, 2) nestrukturované, 3) polostrukturované
- Objem, rozmanitost, rychlost a variabilita je několik charakteristik velkých dat
- Vylepšené služby zákazníkům, lepší provozní efektivita, lepší rozhodování jsou jen některé výhody Bigdata