Kontrolované strojové učení: Co je, Algoritmy, Příklad

Obsah:

Anonim

Co je supervizované strojové učení?

Při supervizním učení trénujete stroj pomocí dat, která jsou dobře „označena “. To znamená, že některá data jsou již označena správnou odpovědí. Lze to přirovnat k učení, které probíhá za přítomnosti školitele nebo učitele.

Algoritmus supervizovaného učení se učí z označených tréninkových dat, pomáhá vám předvídat výsledky pro nepředvídaná data.

Úspěšné vytváření, škálování a nasazování přesných modelů strojového učení pod dohledem vyžaduje čas a technické znalosti týmu vysoce kvalifikovaných datových vědců. Kromě toho musí datový vědec znovu sestavit modely, aby zajistil, že poskytnuté poznatky zůstanou pravdivé, dokud se data nezmění.

V tomto výukovém programu se naučíte:

  • Co je supervizované strojové učení?
  • Jak supervidované učení funguje
  • Typy algoritmů strojového učení pod dohledem
  • Techniky strojového učení pod dohledem vs.
  • Výzvy v supervizovaném strojovém učení
  • Výhody učení pod dohledem:
  • Nevýhody kontrolovaného učení
  • Osvědčené postupy pro supervidované učení

Jak supervidované učení funguje

Například chcete trénovat stroj, který vám pomůže předpovědět, jak dlouho vám bude trvat cesta domů z vašeho pracoviště. Zde začnete vytvořením sady označených dat. Tato data zahrnují

  • Povětrnostní podmínky
  • Denní čas
  • Dovolená

Všechny tyto podrobnosti jsou vaše vstupy. Výstupem je doba, kterou trvalo v daný den odjet domů.

Instinktivně víte, že pokud venku prší, cesta domů vám bude trvat déle. Ale stroj potřebuje data a statistiky.

Podívejme se nyní, jak můžete v tomto příkladu vyvinout supervizovaný model učení, který uživateli pomůže určit čas dojíždění. První věc, kterou musíte vytvořit, je tréninková sada. Tato tréninková sada bude obsahovat celkový čas dojíždění a odpovídající faktory, jako je počasí, čas atd. Na základě této tréninkové sady může váš stroj vidět, že existuje přímý vztah mezi množstvím deště a časem, který vám zabere cesta domů.

Zjistí tedy, že čím více prší, tím déle budete jezdit, abyste se vrátili domů. Může také vidět souvislost mezi časem, kdy odcházíte z práce, a časem, kdy budete na silnici.

Čím blíže jste k 18:00, tím déle trvá, než se dostanete domů. Vaše zařízení může najít některé vztahy s vašimi označenými daty.

Toto je začátek vašeho datového modelu. Začíná to mít vliv na to, jak déšť ovlivňuje způsob, jakým lidé řídí. Začíná to také vidět, že více lidí cestuje během určité denní doby.

Typy algoritmů strojového učení pod dohledem

Regrese:

Regresní technika předpovídá jednu výstupní hodnotu pomocí tréninkových dat.

Příklad : Pomocí regrese můžete předpovědět cenu domu z tréninkových dat. Vstupními proměnnými budou lokalita, velikost domu atd.

Silné stránky : Výstupy mají vždy pravděpodobnostní interpretaci a algoritmus lze regulovat, aby nedocházelo k přeplňování.

Slabé stránky : Logistická regrese může mít nižší výkon, když existuje několik nebo nelineární hranice rozhodování. Tato metoda není flexibilní, takže nezachycuje složitější vztahy.

Logistická regrese:

Metoda logistické regrese použitá k odhadu diskrétních hodnot na základě dané sady nezávislých proměnných. Pomůže vám předvídat pravděpodobnost výskytu události přizpůsobením dat funkci logit. Proto je také známá jako logistická regrese. Protože předpovídá pravděpodobnost, jeho výstupní hodnota leží mezi 0 a 1.

Zde je několik typů regresních algoritmů

Klasifikace:

Klasifikace znamená seskupit výstup uvnitř třídy. Pokud se algoritmus pokusí označit vstup do dvou odlišných tříd, nazývá se to binární klasifikace. Výběr mezi více než dvěma třídami se označuje jako klasifikace více tříd.

Příklad : Zjištění, zda někdo bude či nebude neplatičem úvěru.

Silné stránky : Klasifikační strom funguje v praxi velmi dobře

Slabé stránky : Neomezené jednotlivé stromy jsou náchylné k nadměrnému vybavení.

Zde je několik typů klasifikačních algoritmů

Naivní Bayesovi klasifikátoři

Naivní Bayesiánský model (NBN) se snadno vytváří a je velmi užitečný pro velké datové sady. Tato metoda se skládá z přímých acyklických grafů s jedním rodičem a několika dětmi. Předpokládá nezávislost mezi podřízenými uzly oddělenými od jejich rodičů.

Rozhodovací stromy

Stromy rozhodnutí klasifikují instanci seřazením podle hodnoty funkce. V této metodě je každý režim funkcí instance. Mělo by to být klasifikováno a každá větev představuje hodnotu, kterou může uzel převzít. Jedná se o široce používanou techniku ​​klasifikace. V této metodě je klasifikace strom, který je známý jako rozhodovací strom.

Pomůže vám odhadnout skutečné hodnoty (náklady na nákup automobilu, počet hovorů, celkový měsíční prodej atd.).

Podporujte vektorový stroj

Support vector machine (SVM) je typ algoritmu učení vyvinutého v roce 1990. Tato metoda je založena na výsledcích statistické teorie učení zavedené Vap Nikem.

Stroje SVM jsou také úzce spojeny s funkcemi jádra, což je centrální koncept pro většinu učebních úkolů. Rámec jádra a SVM se používají v různých oblastech. Zahrnuje vyhledávání multimediálních informací, bioinformatiku a rozpoznávání vzorů.

Techniky strojového učení pod dohledem vs.

Na základě Technika strojového učení pod dohledem Technika strojového učení bez dozoru
Vstupní data Algoritmy jsou trénovány pomocí označených dat. Algoritmy se používají proti datům, která nejsou označena
Výpočetní složitost Kontrolované učení je jednodušší metoda. Neřízené učení je výpočetně složité
Přesnost Vysoce přesná a důvěryhodná metoda. Méně přesná a důvěryhodná metoda.

Výzvy v supervizovaném strojovém učení

Zde jsou výzvy, kterým čelí supervizované strojové učení:

  • Irelevantní vstupní funkce přítomná tréninková data by mohla poskytnout nepřesné výsledky
  • Příprava a předběžné zpracování dat je vždy výzvou.
  • Přesnost trpí, když je nemožné, nepravděpodobné a jako tréninková data byly zadány neúplné hodnoty
  • Pokud dotyčný odborník není k dispozici, pak je dalším přístupem „hrubá síla“. To znamená, že si musíte myslet, že správné funkce (vstupní proměnné) pro trénování stroje. Může to být nepřesné.

Výhody učení pod dohledem:

  • Kontrolované učení vám umožňuje sbírat data nebo vytvářet datový výstup z předchozí zkušenosti
  • Pomůže vám optimalizovat výkonnostní kritéria pomocí zkušeností
  • Kontrolované strojové učení vám pomůže vyřešit různé typy problémů s výpočty v reálném světě.

Nevýhody kontrolovaného učení

  • Hranice rozhodování může být přetrénována, pokud vaše tréninková sada neobsahuje příklady, které chcete mít ve třídě
  • Během výcviku klasifikátoru musíte z každé třídy vybrat spoustu dobrých příkladů.
  • Klasifikace velkých dat může být skutečnou výzvou.
  • Výcvik pro učení pod dohledem vyžaduje spoustu výpočetního času.

Osvědčené postupy pro supervidované učení

  • Než uděláte cokoli jiného, ​​musíte se rozhodnout, jaký druh dat se má použít jako cvičná sada
  • Musíte se rozhodnout o struktuře naučené funkce a algoritmu učení.
  • Gathere odpovídající výstupy buď od lidských odborníků, nebo z měření

souhrn

  • Při supervizním učení trénujete stroj pomocí dat, která jsou dobře „označena“.
  • Chcete trénovat stroj, který vám pomůže předpovědět, jak dlouho vám bude trvat cesta z vašeho pracoviště domů, je příkladem učení pod dohledem
  • Regrese a klasifikace jsou dva typy technik strojového učení pod dohledem.
  • Kontrolované učení je jednodušší metoda, zatímco bezobslužné učení je složitá metoda.
  • Největší výzvou v učení pod dohledem je, že irelevantní vstupní funkce přítomná tréninková data by mohla poskytnout nepřesné výsledky.
  • Hlavní výhodou supervidovaného učení je, že vám umožňuje sbírat data nebo vytvářet datový výstup z předchozí zkušenosti.
  • Nevýhodou tohoto modelu je, že hranice rozhodnutí může být přetížená, pokud vaše tréninková sada nemá příklady, které chcete mít ve třídě.
  • Jako osvědčený postup supervizního učení musíte nejprve rozhodnout, jaký druh dat by měl být použit jako tréninkový soubor.