Top 62 Data Engineer Interview Questions & Odpovědi

Zde jsou často kladené otázky pohovorů s datovými inženýry pro nováčky i zkušené kandidáty, aby získali správné zaměstnání.

1) Vysvětlete datové inženýrství.

Datové inženýrství je termín používaný ve velkých datech. Zaměřuje se na aplikaci sběru dat a výzkumu. Data generovaná z různých zdrojů jsou pouze nezpracovaná data. Datové inženýrství pomáhá převádět tato nezpracovaná data na užitečné informace.

2) Co je to datové modelování?

Datové modelování je metoda dokumentování složitého návrhu softwaru jako diagramu, aby kdokoli mohl snadno porozumět. Jedná se o koncepční znázornění datových objektů, které jsou spojeny mezi různými datovými objekty a pravidly.

3) Seznam různých typů návrhových schémat v datovém modelování

V datovém modelování existují hlavně dva typy schémat: 1) Hvězdné schéma a 2) Sněhové vločky.

4) Rozlišujte mezi strukturovanými a nestrukturovanými daty

Následuje rozdíl mezi strukturovanými a nestrukturovanými daty:

Parametr	Strukturovaná data	Nestrukturovaná data
Úložný prostor	DBMS	Nespravované struktury souborů
Standard	ADO.net, ODBC a SQL	STMP, XML, CSV a SMS
Integrační nástroj	ELT (extrahovat, transformovat, načíst)	Ruční zadávání dat nebo dávkové zpracování, které zahrnuje kódy
škálování	Změna měřítka schématu je obtížná	Škálování je velmi snadné.

5) Vysvětlete všechny součásti aplikace Hadoop

Následují komponenty aplikace Hadoop:

Hadoop Common: Jedná se o běžnou sadu nástrojů a knihoven, které Hadoop využívá.
HDFS: Tato aplikace Hadoop se týká systému souborů, ve kterém jsou uložena data Hadoop. Jedná se o distribuovaný souborový systém s vysokou šířkou pásma.
Hadoop MapReduce: Je založen na algoritmu pro poskytování zpracování dat ve velkém měřítku.
Hadoop YARN: Používá se pro správu prostředků v klastru Hadoop. Lze jej také použít pro plánování úkolů pro uživatele.

6) Co je to NameNode?

Je středobodem HDFS. Ukládá data HDFS a sleduje různé soubory napříč klastry. Zde se skutečná data neukládají. Data jsou uložena v DataNodes.

7) Definujte streamování Hadoop

Jedná se o nástroj, který umožňuje vytváření mapy a omezuje úlohy a odesílá je do konkrétního klastru.

8) Jaká je plná forma HDFS?

HDFS znamená Hadoop Distributed File System.

9) Definujte Block and Block Scanner v HDFS

Bloky jsou nejmenší jednotkou datového souboru. Hadoop automaticky rozděluje obrovské soubory na malé kousky.

Block Scanner ověří seznam bloků, které jsou prezentovány na DataNode.

10) Jaké jsou kroky, které nastanou, když Block Scanner zjistí poškozený datový blok?

Následují kroky, které nastanou, když Block Scanner najde poškozený datový blok:

1) Nejprve ze všeho, když Block Scanner najde poškozený datový blok, DataNode nahlásí NameNode

2) NameNode zahájí proces vytváření nové repliky pomocí repliky poškozeného bloku.

3) Počet replikací správných replik se pokusí shodovat s faktorem replikace. Pokud bude nalezena shoda, poškozený blok dat nebude smazán.

11) Pojmenujte dvě zprávy, které NameNode dostane od DataNode?

Existují dvě zprávy, které NameNode získá z DataNode. Jsou to 1) Blokovat hlášení a 2) Heartbeat.

12) Seznam různých konfiguračních souborů XML v Hadoopu?

V Hadoopu je pět konfiguračních souborů XML:

Mapovaný web
Základní web
Stránka HDFS
Místo příze

13) Co jsou čtyři V velkých dat?

Čtyři V velkých dat jsou:

Rychlost
Odrůda
Hlasitost
Pravdivost

14) Vysvětlete funkce Hadoop

Důležité vlastnosti Hadoop jsou:

Jedná se o open-source framework, který je k dispozici freeware.
Hadoop je kompatibilní s mnoha typy hardwaru a snadno přístupný k novému hardwaru v konkrétním uzlu.
Hadoop podporuje rychlejší distribuované zpracování dat.
Ukládá data v klastru, který je nezávislý na zbytku operací.
Hadoop umožňuje vytvořit 3 repliky pro každý blok s různými uzly.

15) Vysvětlete hlavní metody reduktoru

setup (): Používá se ke konfiguraci parametrů, jako je velikost vstupních dat a distribuovaná mezipaměť.
cleanup (): Tato metoda se používá k čištění dočasných souborů.
redukovat (): Jedná se o srdce reduktoru, které je voláno jednou na klíč s přidruženou redukovanou úlohou

16) Jaká je zkratka COSHH?

Zkratka COSHH je Plán založený na klasifikaci a optimalizaci pro systémy Heterogeneous Hadoop.

17) Vysvětlete schéma hvězd

Schéma Hvězda nebo Schéma připojení hvězd je nejjednodušší typ schématu Data Warehouse. Je známé jako hvězdné schéma, protože jeho struktura je jako hvězda. Ve schématu hvězdy může mít střed hvězdy jednu tabulku faktů a více asociovaných dimenzí. Toto schéma se používá pro dotazování velkých datových sad.

18) Jak nasadit řešení pro velká data?

Chcete-li nasadit řešení pro velká data, postupujte podle následujících kroků.

1) Integrujte data pomocí zdrojů dat, jako jsou RDBMS, SAP, MySQL, Salesforce

2) Ukládejte data extrahovaná do databáze NoSQL nebo HDFS.

3) Nasazení řešení velkých dat pomocí rámců zpracování, jako jsou Pig, Spark a MapReduce.

19) Vysvětlete FSCK

Kontrola systému souborů nebo FSCK je příkaz používaný HDFS. Příkaz FSCK se používá ke kontrole nekonzistence a problému v souboru.

20) Vysvětlete schéma sněhové vločky

Schéma sněhové vločky je rozšířením hvězdného schématu a přidává další dimenze. Nazývá se to jako sněhová vločka, protože její schéma vypadá jako sněhová vločka. Tabulky dimenzí jsou normalizovány, což rozděluje data do dalších tabulek.

21) Rozlišujte mezi schématem Hvězda a Sněhová vločka

Hvězda	Schéma SnowFlake
Hierarchie dimenzí jsou uloženy v dimenzionální tabulce.	Každá hierarchie je uložena do samostatných tabulek.
Šance na nadbytečnost dat jsou vysoké	Šance na redundanci dat jsou nízké.
Má velmi jednoduchý design DB	Má složitý design DB
Poskytují rychlejší způsob zpracování krychle	Zpracování krychle je kvůli složitému spojení pomalé.

22) Vysvětlete distribuovaný souborový systém Hadoop

Hadoop pracuje s škálovatelnými distribuovanými systémy souborů, jako jsou S3, HFTP FS, FS a HDFS. Distribuovaný systém souborů Hadoop je vytvořen v systému souborů Google. Tento souborový systém je navržen tak, aby jej bylo možné snadno spustit na velkém klastru počítačového systému.

23) Vysvětlete hlavní povinnosti datového inženýra

Datoví inženýři mají mnoho odpovědností. Spravují zdrojový systém dat. Datoví inženýři zjednodušují složitou datovou strukturu a zabraňují duplikaci dat. Mnohokrát také poskytují ELT a transformaci dat.

24) Jaká je plná forma PŘÍZE?

Plná forma YARN je Yet Another Resource Negotiator.

25) Seznam různých režimů v Hadoopu

Režimy v Hadoop jsou 1) Samostatný režim 2) Pseudo distribuovaný režim 3) Plně distribuovaný režim.

26) Jak dosáhnout bezpečnosti v Hadoopu?

K dosažení zabezpečení v Hadoopu proveďte následující kroky:

1) Prvním krokem je zabezpečení ověřovacího kanálu klienta na serveru. Poskytněte klientovi časové razítko.

2) Ve druhém kroku klient použije přijaté časové razítko k vyžádání TGS pro servisní lístek.

3) V posledním kroku klient použije lístek služby pro vlastní autentizaci na konkrétní server.

27) Co je Heartbeat v Hadoopu?

V Hadoopu NameNode a DataNode spolu komunikují. Heartbeat je signál odeslaný DataNode do NameNode pravidelně, aby se ukázala jeho přítomnost.

28) Rozlišujte mezi NAS a DAS v Hadoopu

NAS	DAS
Úložná kapacita je 10 ⁹ až 10 ¹² v bajtech.	Kapacita úložiště je 10 ⁹ v bajtu.
Náklady na správu na GB jsou mírné.	Náklady na správu na GB jsou vysoké.
Přenášejte data pomocí Ethernetu nebo TCP / IP.	Přenášejte data pomocí IDE / SCSI

29) Seznam důležitých polí nebo jazyků používaných datovým inženýrem

Zde je několik polí nebo jazyků používaných datovým inženýrem:

Pravděpodobnost i lineární algebra
Strojové učení
Analýza trendů a regrese
Úlu databáze QL a SQL

30) Co jsou to velká data?

Jedná se o velké množství strukturovaných a nestrukturovaných dat, která nelze snadno zpracovat tradičními metodami ukládání dat. Datoví inženýři používají Hadoop ke správě velkých dat.

31) Co je plánování FIFO?

Jedná se o algoritmus plánování úloh Hadoop. V tomto plánování FIFO reportér vybírá úlohy z pracovní fronty, nejstarší úlohy jako první.

32) Uveďte výchozí čísla portů, na kterých běží sledovač úloh, NameNode a sledovač úloh v Hadoopu

Výchozí čísla portů, na kterých běží sledovač úloh, NameNode a sledovač úloh v Hadoop, jsou následující:

Sledovač úloh běží na portu 50060
NameNode běží na portu 50070
Sledovač úloh běží na portu 50030

33) Jak zakázat Block Scanner na datovém uzlu HDFS

Chcete-li blokovat skener bloků na datovém uzlu HDFS, nastavte dfs.datanode.scan.period.hours na 0.

34) Jak definovat vzdálenost mezi dvěma uzly v Hadoopu?

Vzdálenost se rovná součtu vzdálenosti k nejbližším uzlům. Metoda getDistance () se používá k výpočtu vzdálenosti mezi dvěma uzly.

35) Proč používat komoditní hardware v Hadoopu?

Komoditní hardware je snadno získatelný a cenově dostupný. Je to systém kompatibilní s Windows, MS-DOS nebo Linux.

36) Definujte faktor replikace v HDFS

Replikační faktor je celkový počet replik souboru v systému.

37) Jaká data jsou uložena v NameNode?

Namenode ukládá metadata pro HDFS jako informace o bloku a informace o oboru jmen.

38) Co myslíte pod pojmem Rack Awareness?

V klastru Haddop používá Namenode Datanode ke zlepšení síťového provozu při čtení nebo zápisu jakéhokoli souboru, který je blíže k blízkému stojanu, na požadavek čtení nebo zápisu. Namenode udržuje ID stojanu každého DataNode, aby dosáhl informací o stojanu. Tento koncept se v Hadoopu nazývá Rack Awareness.

39) Jaké jsou funkce sekundárního NameNode?

Následují funkce sekundárního NameNode:

FsImage, který ukládá kopii souboru EditLog a FsImage.
Selhání NameNode: Pokud dojde k chybě NameNode, lze k opětovnému vytvoření NameNode použít FsImage sekundárního NameNode.
Kontrolní bod: Sekundární NameNode jej používá k potvrzení, že data nejsou v HDFS poškozena.
Aktualizace: Automaticky aktualizuje soubor EditLog a FsImage. Pomáhá udržovat soubor FsImage na sekundárním NameNode aktualizovaný.

40) Co se stane, když je NameNode nefunkční a uživatel odešle novou úlohu?

NameNode je jediný bod selhání v Hadoopu, takže uživatel nemůže odeslat novou úlohu, kterou nemůže provést. Pokud je NameNode nefunkční, pak úloha může selhat, protože tento uživatel musí před spuštěním jakékoli úlohy počkat na restartování NameNode.

41) Jaké jsou základní fáze reduktoru v Hadoopu?

V Hadoopu existují tři základní fáze reduktoru:

1. Náhodné přehrávání: Reducer zde zkopíruje výstup z Mapperu.

2. Třídit: Při třídění Hadoop třídí vstup do Reduceru pomocí stejné klávesy.

3. Zmenšit: V této fázi se výstupní hodnoty spojené s klíčem sníží, aby se data konsolidovala do konečného výstupu.

42) Proč Hadoop používá kontextový objekt?

Rámec Hadoop používá kontextový objekt s třídou Mapper za účelem interakce se zbývajícím systémem. Kontextový objekt získá podrobnosti o konfiguraci systému a úlohu ve svém konstruktoru.

Kontextový objekt používáme k předávání informací metodami setup (), cleanup () a map (). Tento objekt zpřístupňuje důležité informace během mapových operací.

43) Definujte Combiner v Hadoopu

Je to volitelný krok mezi Mapou a Zmenšit. Combiner převezme výstup z funkce Map, vytvoří páry klíč-hodnota a odešle do Hadoop Reducer. Úkolem Combineru je shrnout konečný výsledek z Map do souhrnných záznamů se stejným klíčem.

44) Jaký je výchozí faktor replikace dostupný v HDFS Co označuje?

Výchozí faktor replikace v HDFS je tři. Výchozí faktor replikace označuje, že z každého data budou tři repliky.

45) Co máte na mysli Data Locality v Hadoopu?

V systému Big Data je velikost dat obrovská, a proto nemá smysl přesouvat data po síti. Nyní se Hadoop snaží přesunout výpočet blíže k datům. Tímto způsobem zůstávají data lokální k uloženému umístění.

46) Definujte Balancer v HDFS

V HDFS je balancer administrativa, kterou používají zaměstnanci administrátorů k opětovnému vyvážení dat napříč DataNodes a přesouvá bloky z nadměrně využívaných do nedostatečně využívaných uzlů.

47) Vysvětlete bezpečný režim v HDFS

Je to režim pouze pro čtení NameNode v klastru. Zpočátku je NameNode v Safemode. Zabraňuje zápisu do souborového systému v Safemode. V tuto chvíli shromažďuje data a statistiky ze všech DataNodes.

48) Jaký je význam distribuované mezipaměti v Apache Hadoop?

Hadoop má užitečnou užitečnou funkci, tzv. Distribuovanou mezipaměť, která zlepšuje výkon úloh ukládáním do mezipaměti soubory využívané aplikacemi. Aplikace může určit soubor pro mezipaměť pomocí konfigurace JobConf.

Hadoop framework vytváří repliku těchto souborů do uzlů, které musí být provedeny. To se provádí před spuštěním úkolu. Distribuovaná mezipaměť podporuje distribuci souborů pouze pro čtení, stejně jako souborů zipů a sklenic.

49) Co je Metastore v Hive?

Ukládá schéma i umístění tabulky Hive.

Definuje tabulka úlu, mapování a metadata, která jsou uložena v Metastore. To lze uložit v RDBMS podporovaném JPOX.

50) Co znamená SerDe v Hive?

SerDe je zkrácený název pro Serializer nebo Deserializer. V Hive umožňuje SerDe číst data z tabulky do a zapisovat do konkrétního pole v libovolném formátu, který chcete.

51) Seznam komponent dostupných v datovém modelu Hive

V datovém modelu Hive jsou následující komponenty:

Tabulky
Příčky
Kbelíky

52) Vysvětlete použití úlu v ekosystému Hadoop.

Hive poskytuje rozhraní pro správu dat uložených v ekosystému Hadoop. Hive se používá pro mapování a práci s tabulkami HBase. Dotazy podregistru se převádějí na úlohy MapReduce, aby se skryla složitost spojená s vytvářením a spuštěním úloh MapReduce.

53) Seznam různých komplexních datových typů / shromažďování podporuje Hive

Hive podporuje následující komplexní datové typy:

Mapa
Struct
Pole
unie

54) Vysvětlete, jak se používá soubor .hiverc v Hive?

V Hive je .hiverc inicializační soubor. Tento soubor se zpočátku načte, když spustíme rozhraní příkazového řádku (CLI) pro podregistr. Můžeme nastavit počáteční hodnoty parametrů v souboru .hiverc.

55) Je možné vytvořit více než jednu tabulku v Hive pro jeden datový soubor?

Ano, pro datový soubor můžeme vytvořit více než jedno schéma tabulky. Hive uloží schéma v Hive Metastore. Na základě tohoto schématu můžeme načíst odlišné výsledky ze stejných dat.

56) Vysvětlete různé implementace SerDe dostupné v Hive

V Hive je k dispozici mnoho implementací SerDe. Můžete také napsat vlastní vlastní implementaci SerDe. Následuje několik slavných implementací SerDe:

OpenCSVSerde
RegexSerDe
DelimitedJSONSerDe
ByteStreamTypedSerDe

57) Seznam funkcí generování tabulek dostupných v Hive

Následuje seznam funkcí generujících tabulku:

Explodovat (pole)
JSON_tuple ()
Zásobník()
Explode (mapa)

58) Co je Šikmý stůl v Úlu?

Šikmá tabulka je tabulka, která obsahuje hodnoty sloupců častěji. Když v Hive zadáme tabulku jako SKEWED během vytváření, zkosené hodnoty se zapíší do samostatných souborů a zbývající hodnoty přejdou do jiného souboru.

59) Seznam objektů vytvořených příkazem create v MySQL.

Objekty vytvořené příkazem create v MySQL jsou následující:

Databáze
Index
Stůl
Uživatel
Postup
Spoušť
událost
Pohled
Funkce

60) Jak zobrazit strukturu databáze v MySQL?

Chcete-li zobrazit strukturu databáze v MySQL, můžete použít

Příkaz DESCRIBE. Syntaxe tohoto příkazu je POPISOVAT název tabulky ;.

61) Jak vyhledat konkrétní řetězec ve sloupci tabulky MySQL?

Pomocí operátoru regex vyhledejte řetězec ve sloupci MySQL. Zde můžeme také definovat různé typy regulárních výrazů a hledat použití regulárního výrazu.

62) Vysvětlete, jak může analýza dat a velká data zvýšit příjmy společnosti?

Následují způsoby, jak může analýza dat a velká data zvýšit tržby společnosti:

Efektivně využívejte data, abyste zajistili, že obchodní růst.
Zvyšte hodnotu pro zákazníka.
Analytické vylepšení pro zlepšení prognóz úrovní zaměstnanců.
Snižování výrobních nákladů organizací.