Níže jsou uvedeny často kladené otázky na pracovních pohovorech pro nováčky i zkušené Data Scientist.
1. Co je datová věda?
Data Science je kombinace algoritmů, nástrojů a techniky strojového učení, která vám pomůže najít běžné skryté vzory z daných nezpracovaných dat.
2. Co je logistická regrese v Data Science?
Logistická regrese se také nazývá jako model logitu. Jedná se o metodu pro predikci binárního výsledku z lineární kombinace predikčních proměnných.
3. Pojmenujte tři typy předpětí, ke kterým může dojít během vzorkování
V procesu vzorkování existují tři typy předpětí, které jsou:
- Předpětí výběru
- Předpětí zkreslení
- Předpojatost o pozůstalost
4. Diskutujte o algoritmu rozhodovacího stromu
Rozhodovací strom je populární algoritmus strojového učení pod dohledem. Používá se hlavně pro regresi a klasifikaci. Umožňuje rozdělit datovou sadu na menší podmnožiny. Rozhodovací strom dokáže zpracovat jak kategorická, tak numerická data.
5. Co je předchozí pravděpodobnost a pravděpodobnost?
Předchozí pravděpodobnost je podíl závislé proměnné v souboru dat, zatímco pravděpodobnost je pravděpodobnost klasifikace daného pozorovatele v přítomnosti nějaké jiné proměnné.
6. Vysvětlete doporučující systémy?
Je to podtřída technik filtrování informací. Pomůže vám předpovědět preference nebo hodnocení, která uživatelé pravděpodobně dají produktu.
7. Vyjmenujte tři nevýhody použití lineárního modelu
Tři nevýhody lineárního modelu jsou:
- Předpoklad linearity chyb.
- Tento model nemůžete použít pro binární nebo počet výsledků
- Existuje spousta nadměrných problémů, které nedokáže vyřešit
8. Proč musíte provádět převzorkování?
Převzorkování se provádí v níže uvedených případech:
- Odhad přesnosti statistik vzorků náhodným kreslením s nahrazením ze sady datového bodu nebo použitím jako podmnožiny přístupných dat
- Nahrazení štítků v datových bodech při provádění nezbytných testů
- Ověřování modelů pomocí náhodných podmnožin
9. Seznamte knihovny v Pythonu používané pro analýzu dat a vědecké výpočty.
- SciPy
- Pandy
- Matplotlib
- NumPy
- SciKit
- Seaborn
10. Co je analýza výkonu?
Analýza výkonu je nedílnou součástí experimentálního návrhu. Pomůže vám určit velikost vzorku, která vyžaduje zjistit účinek dané velikosti z příčiny se specifickou úrovní jistoty. Umožňuje také nasadit konkrétní pravděpodobnost v omezení velikosti vzorku.
11. Vysvětlete společné filtrování
Kolaborativní filtrování slouží k hledání správných vzorů pomocí spolupracujících hledisek, více zdrojů dat a různých agentů.
12. Co je zaujatost?
Bias je chyba zavedená ve vašem modelu kvůli přílišnému zjednodušení algoritmu strojového učení. “Může to vést k nedostatečnému vybavení.
13. Diskutujte o algoritmu „Naivní“ v algoritmu Naive Bayes?
Model Naive Bayes Algorithm je založen na Bayesově větě. Popisuje pravděpodobnost události. Je založen na předchozí znalosti podmínek, které by mohly souviset s danou konkrétní událostí.
14. Co je lineární regrese?
Lineární regrese je statistická programovací metoda, kde se skóre proměnné „A“ predikuje ze skóre druhé proměnné „B“. B se označuje jako predikční proměnná a A jako proměnná kritéria.
15. Uveďte rozdíl mezi očekávanou a střední hodnotou
Není jich mnoho, ale oba tyto termíny se používají v různých kontextech. Střední hodnota se obecně označuje, když diskutujete o rozdělení pravděpodobnosti, zatímco očekávaná hodnota se označuje v kontextu náhodné proměnné.
16. Jaký je cíl provádění A / B testování?
Testování AB se používá k provádění náhodných experimentů se dvěma proměnnými, A a B. Cílem této testovací metody je zjistit změny na webové stránce, aby se maximalizoval nebo zvýšil výsledek strategie.
17. Co je to Ensemble Learning?
Soubor představuje metodu kombinování různorodé skupiny studentů, kteří společně improvizují o stabilitě a prediktivní síle modelu. Dva typy učebních metod Ensemble jsou:
Pytlování
Metoda pytlování vám pomůže implementovat podobné studenty na malé populace vzorků. Pomůže vám dělat bližší předpovědi.
Posilování
Posílení je iterační metoda, která umožňuje upravit váhu pozorování v závislosti na poslední klasifikaci. Posílení snižuje chybu zkreslení a pomáhá vám vytvářet silné prediktivní modely.
18. Vysvětlete vlastní hodnotu a vlastní vektor
Vlastní vektory slouží k pochopení lineárních transformací. Datový vědec potřebuje vypočítat vlastní vektory pro kovarianční matici nebo korelaci. Vlastní čísla jsou směry podél pomocí konkrétních aktů lineární transformace komprimací, převrácením nebo roztažením.
19. Definujte pojem křížová validace
Křížová validace je technika validace pro vyhodnocení toho, jak se výsledky statistické analýzy zobecní pro nezávislou datovou sadu. Tato metoda se používá v pozadí, kde se předpovídá cíl, a je třeba odhadnout, jak přesně model dosáhne.
20. Vysvětlete kroky projektu Data Analytics
V analytickém projektu jsou důležité důležité kroky:
- Pochopte obchodní problém
- Prozkoumejte data a pečlivě je prostudujte.
- Připravte data pro modelování vyhledáním chybějících hodnot a transformací proměnných.
- Spusťte model a analyzujte výsledek Big Data.
- Ověřte model pomocí nové sady dat.
- Implementujte model a sledujte výsledek, abyste mohli analyzovat výkon modelu za určité období.
21. Diskutujte o umělých neuronových sítích
Umělé neuronové sítě (ANN) jsou speciální sadou algoritmů, které způsobily revoluci v strojovém učení. Pomůže vám přizpůsobit se měnícím se vstupům. Síť tedy generuje nejlepší možný výsledek bez redesignu výstupních kritérií.
22. Co je zpětná propagace?
Zpětná propagace je podstatou tréninku neurální sítě. Jedná se o metodu ladění vah neurální sítě, která závisí na chybovosti získané v předchozí epochě. Správné vyladění pomáhá snížit chybovost a zvýšit spolehlivost modelu zvýšením jeho zobecnění.
23. Co je to náhodný les?
Náhodný les je metoda strojového učení, která vám pomůže provádět všechny typy regresních a klasifikačních úkolů. Používá se také k léčbě chybějících hodnot a hodnot odlehlých hodnot.
24. Jaký význam má zaujatost výběru?
K výběru zkreslení dochází, když při výběru jednotlivců nebo skupin nebo dat, která mají být analyzována, nebylo dosaženo žádné konkrétní randomizace. Naznačuje, že daný vzorek přesně nepředstavuje populaci, která měla být analyzována.
25. Co je metoda shlukování K-means?
Shlukování K-means je důležitá metoda učení bez dozoru. Jedná se o techniku klasifikace dat pomocí určité sady shluků, která se nazývá K shluky. Je nasazen pro seskupení, aby se zjistila podobnost v datech.
26. Vysvětlete rozdíl mezi Data Science a Data Analytics
Vědci v oblasti dat potřebují rozdělit data, aby získali cenné poznatky, které může analytik dat aplikovat na obchodní scénáře v reálném světě. Hlavní rozdíl mezi nimi spočívá v tom, že datoví vědci mají více technických znalostí než obchodní analytik. Navíc nepotřebují porozumět podnikání vyžadovanému pro vizualizaci dat.
27. Vysvětlete hodnotu p?
Když provádíte test hypotézy ve statistice, p-hodnota vám umožní určit sílu vašich výsledků. Jedná se o číselné číslo mezi 0 a 1. Na základě hodnoty vám pomůže označit sílu konkrétního výsledku.
28. Definujte pojem hluboké učení
Hluboké učení je podtyp strojového učení. Zabývá se algoritmy inspirovanými strukturou zvanou umělé neuronové sítě (ANN).
29. Vysvětlete metodu shromažďování a analýzy dat za účelem použití sociálních médií k předpovědi povětrnostních podmínek.
Data sociálních médií můžete sbírat pomocí rozhraní Facebook, Twitter, rozhraní API Instagramu. Například pro výškový reproduktor můžeme z každého tweetu vytvořit prvek, jako je datum tweetu, retweety, seznam následovníků atd. Potom můžete k předpovědi povětrnostních podmínek použít model s více proměnnými časových řad.
30. Kdy potřebujete aktualizovat algoritmus v Data science?
Algoritmus musíte aktualizovat v následující situaci:
- Chcete, aby se váš datový model vyvíjel jako datové toky pomocí infrastruktury
- Základní zdroj dat se mění
Pokud to není nestacionární
31. Co je normální rozdělení
Normální rozdělení je sada spojité proměnné rozprostřená po normální křivce nebo ve tvaru zvonové křivky. Můžete to považovat za průběžné rozdělení pravděpodobnosti, které je užitečné ve statistikách. Je užitečné analyzovat proměnné a jejich vztahy, když používáme křivku normálního rozdělení.
32. Který jazyk je nejlepší pro textovou analýzu? R nebo Python?
Python bude vhodnější pro textovou analýzu, protože se skládá z bohaté knihovny známé jako pandy. Umožňuje vám používat nástroje pro analýzu dat a datové struktury na vysoké úrovni, zatímco R tuto funkci nenabízí.
33. Vysvětlete výhody používání statistik datovými vědci
Statistiky pomáhají datovým vědcům získat lepší představu o očekávání zákazníků. Pomocí statistické metody Data Scientists mohou získat znalosti týkající se zájmu spotřebitelů, chování, zapojení, retence atd. Pomůže vám také vytvořit výkonné datové modely pro ověření určitých závěrů a předpovědí.
34. Pojmenujte různé typy rámců hlubokého učení
- Pytorch
- Microsoft Cognitive Toolkit
- TensorFlow
- Caffe
- Chainer
- Keras
35. Vysvětlete Auto-Encoder
Autoencoders se učí sítě. Pomůže vám transformovat vstupy na výstupy s menším počtem chyb. To znamená, že výstup bude co nejblíže vstupu.
36. Definujte Boltzmannův stroj
Boltzmann machines je jednoduchý algoritmus učení. Pomůže vám objevit ty funkce, které představují složité zákonitosti v tréninkových datech. Tento algoritmus umožňuje optimalizovat váhy a množství pro daný problém.
37. Vysvětlete, proč je čištění dat zásadní a jakou metodu používáte k udržování čistých dat
Špinavá data často vedou k nesprávnému vnitřku, což může poškodit vyhlídky jakékoli organizace. Například pokud chcete spustit cílenou marketingovou kampaň. Naše data vám však nesprávně říkají, že konkrétní produkt bude vyžadován u vašeho cílového publika; kampaň selže.
38. Co je zkosená distribuce a jednotná distribuce?
K zkosené distribuci dochází, pokud jsou data distribuována na kterékoli straně grafu, zatímco rovnoměrná distribuce je identifikována, když jsou data v rozsahu stejná.
39. Když dojde k nedostatečnému vybavení ve statickém modelu?
K nedostatečnému vybavení dochází, když statistický model nebo algoritmus strojového učení není schopen zachytit základní trend dat.
40. Co je posilovací učení?
Reinforcement Learning je učební mechanismus, jak mapovat situace na činy. Konečný výsledek by vám měl pomoci zvýšit signál binární odměny. U této metody studentovi není řečeno, kterou akci má podniknout, ale musí zjistit, která akce nabízí maximální odměnu. Protože tato metoda vychází z mechanismu odměny / pokuty.
41. Vyjmenujte běžně používané algoritmy.
Čtyři nejčastěji používané algoritmy Data Scientist jsou:
- Lineární regrese
- Logistická regrese
- Náhodný les
- KNN
42. Co je to přesnost?
Přesnost je nejčastěji používanou metrikou chybových klasifikačních mechanismů. Jeho rozsah je od 0 do 1, kde 1 představuje 100%
43. Co je to jednorozměrná analýza?
Analýza, která se aplikuje na žádný atribut najednou, se nazývá jednorozměrná analýza. Boxplot je široce používaný univariantní model.
44. Jak překonáváte výzvy ve svých zjištěních?
Aby bylo možné překonat výzvy mého zjištění, je třeba povzbudit diskusi, prokázat vedení a respektovat různé možnosti.
45. Vysvětlete techniku vzorkování klastrů ve vědě o datech
Metoda klastrového vzorkování se používá, když je náročné studovat rozložení cílové populace napříč a nelze použít jednoduchý náhodný výběr.
46. Uveďte rozdíl mezi ověřovací sadou a testovací sadou
Validační sada se většinou považuje za součást tréninkové sady, protože se používá k výběru parametrů, což vám pomůže vyhnout se nadměrnému vybavení vytvářeného modelu.
Zatímco testovací sada se používá pro testování nebo hodnocení výkonu trénovaného modelu strojového učení.
47. Vysvětlete pojem Binomiální pravděpodobnostní vzorec?
„Binomické rozdělení obsahuje pravděpodobnosti každého možného úspěchu na N pokusech o nezávislé události, u nichž je pravděpodobnost výskytu π.“
48. Co je stažení z oběhu?
Odvolání je poměr skutečné kladné sazby ke skutečné kladné sazbě. Pohybuje se od 0 do 1.
49. Diskutujte o normálním rozdělení
Normální rozdělení rovnoměrně rozložené jako takový průměr, medián a režim jsou stejné.
50. Jak můžete při práci na souboru dat vybrat důležité proměnné? Vysvětlit
Můžete použít následující metody výběru proměnných:
- Před výběrem důležitých proměnných odeberte korelované proměnné
- Použijte lineární regrese a vyberte proměnné, které závisí na těchto hodnotách p.
- Použijte zpětný, dopředný výběr a krokový výběr
- Použijte Xgboost, Random Forest a graf důležitosti proměnných.
- Změřte zisk informací pro danou sadu funkcí a podle toho vyberte nejlepších n funkcí.
51. Je možné zachytit korelaci mezi spojitou a kategorickou proměnnou?
Ano, můžeme použít analýzu kovarianční techniky k zachycení asociace mezi spojitými a kategorickými proměnnými.
52. Zacházení s kategorickou proměnnou jako spojitou proměnnou by vedlo k lepšímu prediktivnímu modelu?
Ano, kategorická hodnota by měla být považována za spojitou proměnnou, pouze pokud má proměnná ordinální povahu. Jde tedy o lepší prediktivní model.