Nejlépe 88 dotazů a odpovědí na otázky datového modelování

Anonim

Zde jsou otázky týkající se rozhovorů s modelováním dat pro čerstvější i zkušené kandidáty.

1) Co je datové modelování?

Datové modelování je proces vytváření modelu pro ukládání dat do databáze. Jedná se o koncepční znázornění datových objektů, přidružení mezi různými datovými objekty a pravidla.

2) Vysvětlete různé typy datových modelů

Existují hlavně tři různé typy datových modelů:

Konceptuální: Konceptuální datový model definuje, co by měl systém obsahovat. Tento model obvykle vytvářejí obchodní partneři a architekti dat. Účelem je organizace, rozsah a definování obchodních konceptů a pravidel.

Logické: Definuje, jak by měl být systém implementován bez ohledu na DBMS. Tento model obvykle vytvářejí datoví architekti a obchodní analytici. Účelem je vytvořit technickou mapu pravidel a datových struktur.

Fyzický: Tento datový model popisuje, jak bude systém implementován pomocí konkrétního systému DBMS. Tento model obvykle vytvářejí DBA a vývojáři. Účelem je skutečná implementace databáze.

3) Vysvětlete tabulku faktů a faktů

Fakt představuje kvantitativní data. Například čistá splatná částka. Tabulka faktů obsahuje numerická data i cizí klíče z dimenzionálních tabulek.

4) Seznam různých návrhových schémat v modelování dat

Existují dva různé typy schémat modelování datových schémat: 1) Hvězdné schéma a 2) Schéma sněhové vločky

5) Kdy byste měli uvažovat o denormalizaci?

Denormalizace se používá, když je tabulka při načítání dat hodně zapojena. Používá se ke konstrukci datového skladu.

6) Vysvětlete dimenzi a atribut

Dimenze představují kvalitativní data. Například produkt, třída, plán atd. Tabulka dimenzí má textové nebo popisné atributy. Například kategorie produktu a název produktu jsou dva atributy tabulky dimenzí produktu.

7) Jaká je skutečnost menší skutečnost?

Fakt menší fakt je tabulka bez měření faktů. Obsahuje pouze klíče dimenze.

8) Co je to analytika v paměti?

Analýza v paměti je proces ukládání do mezipaměti databáze v paměti RAM.

9) Jaký je rozdíl mezi OLTP a OLAP?

OLTP OLAP
OLTP je online transakční systém. OLAP je proces online analýzy a načítání dat.
Vyznačuje se velkým počtem krátkých online transakcí. Vyznačuje se velkým objemem dat.
OLTP používá tradiční DBMS. OLAP používá datový sklad.
Tabulky v databázi OLTP jsou normalizovány. Tabulky v OLAP nejsou normalizovány.
Jeho doba odezvy je v milisekundě. Jeho doba odezvy je v řádu sekund až minut.
OLTP je určen pro obchodní operace v reálném čase. OLAP je určen pro analýzu obchodních opatření podle kategorie a atributů.

10) Co je to stůl?

Kolekce řádků a sloupců se nazývá tabulka. Každý sloupec má datový typ. Tabulka obsahuje související data v tabulkovém formátu.

11) Co je sloupec?

Sloupec nebo pole je vertikální uspořádání dat, která obsahují související informace.

12) Definujte datovou sparitu

Data sparsity je termín používaný pro množství dat, které máte pro entitu / dimenzi modelu.

13) Co je složený primární klíč?

Složený primární klíč se označuje v případě, že se jako součást primárního klíče používá více než jeden sloupec tabulky.

14) Co je primární klíč?

Primární klíč je sloupec nebo skupina sloupců, které nerovnoměrně identifikují každý řádek v tabulce. Hodnota primárního klíče nesmí být null. Každá tabulka musí obsahovat jeden primární klíč.

15) Vysvětlete cizí klíč

Cizí klíč je skupina atributů, která se používá k propojení nadřazené a podřízené tabulky. Hodnota sloupce cizího klíče, který je k dispozici v podřízené tabulce, se odkazuje na hodnotu primárního klíče v nadřazené tabulce.

16) Co jsou metadata?

Metadata popisují data o datech. Ukazuje, jaký typ dat je ve skutečnosti uložen v databázovém systému.

17) Co je datový trh?

Datový trh je zhuštěná verze datového skladu a je navržen pro použití konkrétním oddělením, jednotkou nebo sadou uživatelů v organizaci. Např. Marketingový prodej, HR nebo finance.

18) Co je OLTP?

Online zpracování transakcí, zkráceně OLTP, podporuje transakčně orientovanou aplikaci ve třívrstvé architektuře. OLTP spravuje každodenní transakce společnosti nebo organizace.

19) Jaké jsou příklady systému OLTP?

Příkladem systému OLTP jsou:

  • Odeslání textové zprávy
  • Přidejte knihu do nákupního košíku
  • Online rezervace letenek
  • Internetové bankovnictví
  • Zadání objednávky

20) Co je kontrolní omezení?

Omezení kontroly se používá k ověření rozsahu hodnot ve sloupci.

21) Seznam typů normalizace?

Typy normalizace jsou: 1) první normální forma, 2) druhá normální forma, 3) třetí normální forma, 4) boyce-codd čtvrtá a 5) pátá normální forma.

22) Co je to dopředné datové inženýrství?

Forward engineering je technický termín používaný k automatickému popisu procesu převodu logického modelu do fyzického nástroje.

23) Co je to PDAP?

Jedná se o datovou kostku, která ukládá data jako souhrn. Pomáhá uživateli rychle analyzovat data. Data v PDAP jsou uložena způsobem, který umožňuje snadné vytváření sestav.

24) Vysvětlete návrh databáze schématu sněhových vloček

Schéma sněhové vločky je uspořádání tabulky dimenzí a tabulky faktů. Obecně jsou obě tabulky dále rozděleny do více dimenzionálních tabulek.

25) Vysvětlete analytickou službu

Služba analýzy poskytuje kombinovaný pohled na data, která se používají při dolování dat nebo OLAP.

26) Co je to algoritmus sekvenčního shlukování?

Algoritmus shlukování sekvencí shromažďuje cesty, které jsou podobné nebo navzájem související, a sekvence dat majících události.

27) Co jsou to diskrétní a spojitá data?

Diskrétní data jsou konečná data nebo definovaná data. Např. Pohlaví, telefonní čísla. Kontinuální data jsou data, která se mění kontinuálním a uspořádaným způsobem. Např. Věk.

28) Co je to algoritmus časové řady?

Algoritmus časové řady je metoda pro predikci spojitých hodnot dat v tabulce. Např. Výkon jednoho zaměstnance může předpovědět zisk nebo vliv.

29) Co je Business Intelligence?

BI (Business Intelligence) je sada procesů, architektur a technologií, které převádějí nezpracovaná data na smysluplné informace, které řídí ziskové obchodní akce. Jedná se o sadu softwaru a služeb pro transformaci dat na použitelnou inteligenci a znalosti.

30) Co je to bit mapovaný index?

Bitmapové indexy jsou speciální typ indexu databáze, který používá bitmapy (bitová pole) k odpovídání na dotazy prováděním bitových operací.

31) Podrobně vysvětlete datové sklady

Skladování dat je proces shromažďování a správy dat z různých zdrojů. Poskytuje smysluplné obchodní informace. Datové sklady se obvykle používají k připojení a analýze dat z heterogenních zdrojů. Jedná se o jádro systému BI, který je vytvořen pro analýzu a vykazování dat.

32) Co je to nevyžádaná dimenze?

Nevyžádaná dimenze kombinuje dvě nebo více souvisejících mohutností do jedné dimenze. Obvykle jde o logické hodnoty nebo hodnoty příznaku.

33) Vysvětlete datové schéma

Datové schéma je schematické znázornění, které ilustruje datové vztahy a struktury.

34) Vysvětlete frekvenci sběru dat

Frekvence sběru dat je rychlost sběru dat. Rovněž prochází různými fázemi. Jedná se o tyto fáze: 1) extrakce z různých zdrojů, 3) transformace, 4) očištění a 5) skladování.

35) Co je mohutnost databáze?

Mohutnost je číselný atribut vztahu mezi dvěma entitami nebo sadami entit.

36) Jaké jsou různé typy hlavních vztahů?

Různé typy klíčových hlavních vztahů jsou:

  • Individuální vztahy
  • Osobní vztahy
  • Vztahy mnoho ku jednomu
  • Vztahy mnoho k mnoha

37) Definujte kritický faktor úspěchu a uveďte jeho čtyři typy

Kritický faktor úspěchu je příznivým výsledkem jakékoli činnosti potřebné k tomu, aby organizace dosáhla svého cíle.

Čtyři typy kritických faktorů úspěchu jsou:

  • Průmyslové CSF
  • Strategické CSF
  • Environmentální CSF
  • Časové CSF

38) Co je dolování dat?

Data mining je multidisciplinární dovednost, která využívá strojové učení, statistiky, AI a databázovou technologii. Jde o objevení netušených / dříve neznámých vztahů mezi daty.

39) Jaký je rozdíl mezi hvězdným schématem a schématem sněhové vločky?

Hvězdné schéma Schéma sněhové vločky
Hierarchie dimenzí jsou uloženy v dimenzionální tabulce. Hierarchie jsou rozděleny do samostatných tabulek.
Obsahuje tabulku faktů obklopenou tabulkami dimenzí. Jedna tabulka faktů obklopená tabulkou dimenzí, která je zase obklopena tabulkou dimenzí
Ve hvězdicovém schématu vytvoří vztah mezi tabulkou faktů a libovolnými tabulkami dimenzí pouze jediné spojení. Schéma sněhové vločky vyžaduje k načtení dat mnoho spojení.
Má jednoduchý návrh databáze Má komplexní návrh databáze
Denormalizovaná datová struktura a dotaz také běží rychleji. Normalizovaná datová struktura.
Vysoká úroveň redundance dat Redundance dat na velmi nízké úrovni
Nabízí výkonnější dotazy pomocí optimalizace dotazů Star join. Tabulky mohou být spojeny s více rozměry. Schéma sněhových vloček je reprezentováno centralizovanou tabulkou faktů, která je nepravděpodobná v souvislosti s více dimenzemi.

40) Co je identifikační vztah?

Identifikace vztahů entit v DBMS se používá k identifikaci vztahu mezi dvěma entitami: 1) silná entita a 2) slabá entita.

41) Co je to rekurzivní vztah?

Rekurzivní vztah je samostatný sloupec v tabulce, který je připojen k primárnímu klíči stejné tabulky.

42) Vysvětlete modelování relačních dat

Relační datové modelování je reprezentace objektů v relační databázi, která je obvykle normalizována.

43) Co je analytika prediktivního modelování?

Proces ověřování nebo testování modelu, který by se používal k předpovědi testování a ověřování výsledků. Lze jej použít pro strojové učení, umělou inteligenci i pro statistiky.

44) Jaký je rozdíl mezi logickým datovým modelem a fyzickým datovým modelem?

Logický datový model Fyzický datový model
Logický datový model může logicky navrhnout požadavek podnikání. Fyzický datový model poskytuje informace o zdroji cílové databáze a jeho vlastnostech.
Je odpovědný za skutečnou implementaci dat, která jsou uložena v databázi. Fyzický datový model vám pomůže vytvořit nový databázový model z existujícího a použít omezení referenční integrity.
Obsahuje entitu, atributy primárního klíče, inverzní klíče, alternativní klíč, pravidlo, obchodní vztah, definici atd. Fyzický datový model obsahuje tabulku, klíčová omezení, jedinečný klíč, sloupce, cizí klíč, indexy, výchozí hodnoty atd.

45) Jaké jsou různé typy omezení?

Jiný typ omezení může být jedinečný, nulové hodnoty, cizí klíče, složený klíč nebo kontrolní omezení atd.

46) Co je to nástroj pro modelování dat?

Nástroj pro modelování dat je software, který pomáhá při konstrukci toku dat a vztahu mezi daty. Příklady takových nástrojů jsou Borland Together, Altova Database Spy, casewise, Case Studio 2 atd.

47) Co je hierarchický DBMS?

V hierarchické databázi jsou data modelu organizována ve stromové struktuře. Data jsou uložena v hierarchickém formátu. Data jsou reprezentována pomocí vztahu rodič-dítě. V hierarchickém DBMS rodič může mít mnoho dětí, děti mají pouze jednoho rodiče.

48) Jaké jsou nevýhody hierarchického datového modelu?

Nevýhody hierarchického datového modelu jsou:

  • Není flexibilní, protože přizpůsobení se měnícím se potřebám podniku vyžaduje čas.
  • Struktura představuje problém v meziresortní komunikaci, vertikální komunikaci i meziagenturní komunikaci.
  • Hierarchický datový model může způsobit problémy nejednotnosti.

49) Vysvětlete procesně založený přístup k modelování dat

Procesně řízený přístup používaný při modelování dat sleduje postupnou metodu vztahu mezi modelem vztahu mezi entitami a organizačním procesem.

50) Jaké jsou výhody používání datového modelování?

Výhody použití datového modelování v datovém skladu jsou:

  • Pomůže vám spravovat obchodní data tím, že je normalizuje a definuje jejich atributy.
  • Datové modelování integruje data různých systémů, aby se snížila redundance dat.
  • Umožňuje vytvořit efektivní návrh databáze.
  • Datové modelování pomáhá organizačnímu oddělení fungovat jako tým.
  • Usnadňuje snadný přístup k datům.

51) Jaké jsou nevýhody používání datového modelování?

Nevýhody použití datového modelování jsou:

  • Má menší strukturální nezávislost
  • To může udělat systém složitým.

52) Co je index?

Index se používá pro sloupec nebo skupinu sloupců k rychlému načtení dat.

53) Jaké jsou vlastnosti logického datového modelu?

Charakteristiky logického datového modelu jsou:

  • Popisuje datové potřeby pro jeden projekt, ale lze jej integrovat s jinými logickými datovými modely založenými na rozsahu projektu.
  • Navrženo a vyvinuto nezávisle na DBMS.
  • Atributy dat budou mít datové typy s přesnou přesností a délkou.
  • Normalizační procesy na model, který se obecně používá, se obvykle používají do 3NF.

54) Jaké jsou vlastnosti fyzického datového modelu?

Charakteristiky fyzického datového modelu jsou:

  • Fyzický datový model popisuje potřebu dat pro jeden projekt nebo aplikaci. Může být integrován s jinými fyzickými datovými modely na základě rozsahu projektu.
  • Datový model obsahuje vztahy mezi tabulkami, které řeší mohutnost a možnou hodnotu null vztahů.
  • Vyvinuto pro konkrétní verzi DBMS, umístění, datového úložiště nebo technologie, která má být v projektu použita.
  • Sloupce by měly mít přesné datové typy, přiřazené délky a výchozí hodnoty.
  • Jsou definovány primární a cizí klíče, pohledy, indexy, přístupové profily a autorizace atd.

55) Jaké jsou dva typy technik modelování dat?

Dva typy technik modelování dat jsou: 1) model entity-relationship (ER) a 2) UML (Unified Modeling Language).

56) Co je UML?

UML (Unified Modeling Language) je univerzální, databázový vývojový, modelovací jazyk v oblasti softwarového inženýrství. Hlavním záměrem je poskytnout zobecněný způsob vizualizace návrhu systému.

57) Vysvětlete objektově orientovaný databázový model

Objektově orientovaný databázový model je kolekce objektů. Tyto objekty mohou mít přidružené funkce i metody.

58) Co je síťový model?

Jedná se o model, který je postaven na hierarchickém modelu. Umožňuje propojení záznamů více než jeden, což znamená, že má více záznamů. Je možné sestavit sadu nadřazených záznamů a podřízených záznamů. Každý záznam může patřit do několika sad, které umožňují provádět složité relace tabulky.

59) Co je to hashování?

Hashing je technika, která se používá k prohledání všech hodnot indexu a načtení požadovaných dat. Pomáhá vypočítat přímé umístění dat, která jsou zaznamenána na disk bez použití struktury indexu.

60) Co jsou obchodní nebo přirozené klíče?

obchodní nebo přirozené klíče je pole, které jednoznačně identifikuje entitu. Například ID klienta, číslo zaměstnance, e-mail atd.

61) Co je složený klíč?

Pokud se k reprezentaci klíče používá více než jedno pole, označuje se jako složený klíč.

62) Co je první normální forma?

První normální forma nebo 1NF je vlastnost relace dostupná v systému správy relační databáze. Libovolný vztah se nazývá první normální forma, pokud doména každého atributu obsahuje atomické hodnoty. Obsahuje jednu hodnotu z této domény.

63) Jaký je rozdíl mezi primárním klíčem a cizím klíčem?

Primární klíč Cizí klíč
Primární klíč vám pomůže jednoznačně identifikovat záznam v tabulce. Cizí klíč je pole v tabulce, které je primárním klíčem jiné tabulky.
Primární klíč nikdy nepřijímá hodnoty null. Cizí klíč může přijímat více hodnot null.
Primárním klíčem je seskupený index a data v tabulce DBMS jsou fyzicky uspořádána v pořadí seskupeného indexu. Cizí klíč nemůže automaticky vytvořit index, seskupený nebo neseskupený. Můžete však ručně vytvořit index pro cizí klíč.
Jediný primární klíč můžete mít v tabulce. V tabulce můžete mít více cizích klíčů.

64) Jaké jsou požadavky druhé normální formy?

Požadavky druhé normální formy jsou:

  • Mělo by to být v první normální formě.
  • Neobsahuje žádný non-prime atribut, který je funkčně závislý na jakékoli podmnožině kandidátského klíče relace tabulky.

65) Jaká jsou pravidla pro třetí normální formu?

Pravidla pro třetí normální formuláře jsou:

  • Mělo by to být ve druhé normální formě
  • Nemá žádné přechodné funkční závislosti.

66) Jak důležité je používání klíčů?

  • Klávesy vám pomohou identifikovat jakýkoli řádek dat v tabulce. V aplikaci v reálném světě by tabulka mohla obsahovat tisíce záznamů.
  • Klávesy zajišťují, že i přes tyto výzvy můžete jednoznačně identifikovat záznam tabulky.
  • Umožňuje navázat vztah mezi a identifikovat vztah mezi tabulkami
  • Pomůže vám prosadit identitu a integritu ve vztahu.

67) Co je náhradní klíč?

Umělý klíč, jehož cílem je jednoznačně identifikovat každý záznam, se nazývá náhradní klíč. Tyto druhy klíčů jsou jedinečné, protože jsou vytvořeny, když nemáte žádný přirozený primární klíč. Neposkytují údajům v tabulce žádný význam. Náhradní klíč je obvykle celé číslo.

68) Podrobně vysvětlete alternativní klíč

Alternativní klíč je sloupec nebo skupina sloupců v tabulce, která jednoznačně identifikuje každý řádek v této tabulce. Tabulka může mít více možností pro primární klíč, ale jako primární klíč lze nastavit pouze jednu. Všechny klíče, které nejsou primárním klíčem, se nazývají Alternativní klíč.

69) Co je čtvrtá normální forma v DBMS?

Čtvrtá normální forma je úroveň normalizace databáze, kde nesmí existovat jiná než triviální závislost kromě kandidátského klíče.

70) Co je to systém správy databáze?

Systém správy databáze nebo DBMS je software pro ukládání a načítání uživatelských dat. Skládá se ze skupiny programů, které manipulují s databází.

71) Jaké je pravidlo páté normální formy?

Tabulka je v 5 th normální forma pouze v případě, že je v 4 th normální tvar, a nemůže být rozložen do libovolný počet menších stolů bez ztráty dat.

72) Co je normalizace?

Normalizace je technika návrhu databáze, která organizuje tabulky způsobem, který snižuje nadbytečnost a závislost dat. Rozdělí větší tabulky na menší tabulky a propojí je pomocí vztahů.

73) Vysvětlete vlastnosti systému pro správu databáze

  • Poskytuje zabezpečení a odstraňuje nadbytečnost
  • Vlastní popis databázového systému
  • Izolace mezi programy a abstrakce dat
  • Podpora více pohledů na data.
  • Sdílení dat a zpracování víceuživatelských transakcí
  • DBMS umožňuje entitám a vztahům mezi nimi vytvářet tabulky.
  • Vychází z konceptu ACID (Atomicity, Consistency, Isolation, and Durability).
  • DBMS podporuje víceuživatelské prostředí, které uživatelům umožňuje paralelní přístup a přístup k datům a manipulaci s nimi.

74) Seznam populárního softwaru DBMS

Populární software DBMS je:

  • MySQL
  • Microsoft Access
  • Věštec
  • PostgreSQL
  • databáze
  • FoxPro
  • SQLite
  • IBM DB2
  • Microsoft SQL Server.

75) Vysvětlete koncept RDBMS

Relational Database Management System je software, který se používá k ukládání dat ve formě tabulek. V tomto druhu systému jsou data spravována a ukládána do řádků a sloupců, které se označují jako n-tice a atributy. RDBMS je výkonný systém pro správu dat a je široce používán po celém světě.

76) Jaké jsou výhody datového modelu?

Výhody datového modelu jsou:

  • Hlavním cílem navrhování datového modelu je zajistit, aby datové objekty nabízené funkčním týmem byly reprezentovány přesně.
  • Datový model by měl být dostatečně podrobný, aby mohl být použit pro sestavení fyzické databáze.
  • Informace v datovém modelu lze použít k definování vztahu mezi tabulkami, primárním a cizím klíčem a uloženými procedurami.
  • Datový model pomáhá podnikům komunikovat v organizacích i mezi nimi.
  • Datový model pomáhá dokumentovat mapování dat v procesu ETL
  • Pomozte rozpoznat správné zdroje dat k naplnění modelu

77) Jaké jsou nevýhody datového modelu?

Nevýhody datového modelu jsou:

  • Při vývoji datového modelu je třeba znát vlastnosti uložených fyzických dat.
  • Jedná se o navigační systém, který produkuje komplexní vývoj aplikací, správu. Vyžaduje tedy znalost biografické pravdy.
  • I menší změny provedené ve struktuře vyžadují úpravy v celé aplikaci.
  • V DBMS neexistuje žádná sada jazyka pro manipulaci s daty.

78) Vysvětlete různé typy tabulek faktů

Existují tři typy tabulek faktů:

  • Aditivní: Je to míra, která se přidává do jakékoli dimenze.
  • Neaditivní: Je to míra, kterou nelze přidat do žádné dimenze.
  • Semiaditivum: Jedná se o míru, kterou lze přidat do několika dimenzí.

79) Co je agregační tabulka?

Souhrnná tabulka obsahuje agregovaná data, která lze vypočítat pomocí funkcí, jako jsou: 1) Průměr 2) MAX, 3) Počet, 4) SUM, 5) SUM a 6) MIN.

80) Co je Potvrzená dimenze?

Vyhovující dimenze je dimenze, která je navržena způsobem, který lze použít v mnoha tabulkách faktů v různých oblastech datového skladu.

81) Seznam typů hierarchií v datovém modelování

Existují dva typy hierarchií: 1) Hierarchie založené na úrovni a 2) Hierarchie rodičů a podřízených.

82) Jaký je rozdíl mezi datovým trhem a datovým skladem?

Datový trh Datový sklad
Data mart se zaměřuje na jeden předmět podnikání. Datový sklad se zaměřuje na více oblastí podnikání.
Používá se k přijímání taktických rozhodnutí pro růst podnikání. Pomáhá majitelům firem se strategickým rozhodnutím
Data mart se řídí modelem zdola nahoru Datový sklad se řídí modelem shora dolů
Zdroj dat pochází z jednoho zdroje dat Zdroj dat pochází z více než jednoho heterogenního zdroje dat.

83) Co je XMLA?

XMLA je analýza XML, která je považována za standardní pro přístup k datům v online analytickém zpracování (OLAP).

84) Vysvětlete rozměr nevyžádané pošty

Nevyžádaná dimenze pomáhá ukládat data. Používá se, když data nejsou vhodná k uložení ve schématu.

85) Vysvětlete řetězovou replikaci dat

Situace, kdy sekundární uzel vybere cíl pomocí času ping, nebo když je nejbližší uzel sekundární, nazývá se to jako řetězová replikace dat.

86) Vysvětlete virtuální datové sklady

Virtuální datový sklad poskytuje kolektivní pohled na vyplněná data. Virtuální datový sklad nemá historická data. Považuje se to za logický datový model s metadaty.

87) Vysvětlete snímek datového skladu

Snapshot je kompletní vizualizace dat v době, kdy začíná proces extrakce dat.

88) Co je to obousměrný extrakt?

Schopnost systému extrahovat, čistit a přenášet data ve dvou směrech se nazývá směrový extrakt.