Strojové učení bez dozoru: Co je, Algoritmy, Příklad

Obsah:

Anonim

Učení bez dozoru

Unsupervised Learning je technika strojového učení, při které uživatelé nemusí dohlížet na model. Místo toho umožňuje modelu samostatně pracovat na objevování vzorů a informací, které dříve nebyly detekovány. Zabývá se hlavně neoznačenými daty.

Algoritmy učení bez dozoru

Neupravené výukové algoritmy umožňují uživatelům provádět složitější úlohy zpracování ve srovnání s dohledem pod dohledem. Přestože učení bez supervize může být nepředvídatelnější ve srovnání s jinými metodami přirozeného učení. Mezi supervizní algoritmy učení patří shlukování, detekce anomálií, neuronové sítě atd.

V tomto výukovém programu se naučíte:

  • Příklad strojového učení bez dozoru
  • Proč nekontrolované učení?
  • Druhy nekontrolovaného učení
  • Shlukování
  • Typy shlukování
  • Sdružení
  • Kontrolované vs. nekontrolované strojové učení
  • Aplikace strojového učení bez dozoru
  • Nevýhody nekontrolovaného učení

Příklad strojového učení bez dozoru

Pojďme si vzít případ dítěte a jeho rodinného psa.

Zná a identifikuje tohoto psa. O několik týdnů později si rodinný přítel přivedl psa a pokusil se hrát s dítětem.

Dítě tohoto psa dříve nevidělo. Uznává však, že mnoho funkcí (2 uši, oči, chůze po 4 nohách) je jako její pes. Identifikuje nové zvíře jako psa. Toto je učení bez dozoru, kde se neučíte, ale učíte se z údajů (v tomto případě údajů o psu). Kdyby to bylo učení pod dohledem, rodinný přítel by řekl dítěti, že je to pes.

Proč nekontrolované učení?

Zde jsou hlavní důvody pro používání nekontrolovaného učení:

  • Strojové učení bez dozoru najde v datech všechny druhy neznámých vzorů.
  • Metody bez dozoru vám pomohou najít funkce, které mohou být užitečné pro kategorizaci.
  • Probíhá v reálném čase, takže všechna vstupní data musí být analyzována a označena za přítomnosti studentů.
  • Je jednodušší získat neoznačená data z počítače než označená data, která vyžadují ruční zásah.

Druhy nekontrolovaného učení

Problémy s učením bez dohledu se dále seskupily do problémů s klastrováním a přidružením.

Shlukování

Shlukování je důležitým konceptem, pokud jde o učení bez dozoru. Zabývá se hlavně hledáním struktury nebo vzoru ve sbírce nekategorizovaných dat. Algoritmy klastru zpracují vaše data a najdou přirozené klastry (skupiny), pokud v datech existují. Můžete také upravit, kolik klastrů by měly vaše algoritmy identifikovat. Umožňuje vám upravit členitost těchto skupin.

Existují různé typy shlukování, které můžete využít:

Exkluzivní (rozdělení)

V této metodě vytváření klastrů jsou data seskupena tak, že jedna data mohou patřit pouze jednomu klastru.

Příklad: K-means

Aglomerativní

V této technice klastrování jsou všechna data klastrem. Iterativní spojení mezi dvěma nejbližšími klastry snižují počet klastrů.

Příklad: Hierarchické shlukování

Překrývající se

V této technice se fuzzy sady používají ke shlukování dat. Každý bod může patřit dvěma nebo více klastrům se samostatnými stupni členství.

Zde budou data spojena s příslušnou hodnotou členství. Příklad: Fuzzy C-prostředky

Pravděpodobnostní

Tato technika používá k vytvoření klastrů rozdělení pravděpodobnosti

Příklad: Následující klíčová slova

  • „pánská bota.“
  • „dámská bota.“
  • „dámské rukavice.“
  • „mužská rukavice.“

lze rozdělit do dvou kategorií „boty“ a „rukavice“ nebo „muž“ a „ženy“.

Typy shlukování

  • Hierarchické shlukování
  • K znamená shlukování
  • K-NN (k nejbližším sousedům)
  • Analýza hlavních komponent
  • Dekompozice singulární hodnoty
  • Analýza nezávislých komponent

Hierarchické shlukování:

Hierarchické shlukování je algoritmus, který vytváří hierarchii klastrů. Začíná to všemi daty, která jsou přiřazena jejich vlastnímu klastru. Tady dva blízké klastry budou ve stejném klastru. Tento algoritmus končí, když zbývá jen jeden klastr.

K-znamená shlukování

K znamená, že se jedná o iterativní shlukovací algoritmus, který vám pomůže najít nejvyšší hodnotu pro každou iteraci. Zpočátku je vybrán požadovaný počet klastrů. V této metodě shlukování musíte datové body seskupit do k skupin. Větší k znamená stejným způsobem menší skupiny s větší granularitou. Nižší k znamená větší skupiny s menší zrnitostí.

Výstupem algoritmu je skupina „popisků“. Přiřadí datový bod jedné ze k skupin. V k-means shlukování je každá skupina definována vytvořením těžiště pro každou skupinu. Centroidy jsou jako srdce klastru, které zachycuje nejbližší body a přidává je do klastru.

K-střední shlukování dále definuje dvě podskupiny:

  • Aglomerativní shlukování
  • Dendrogram

Aglomerativní shlukování:

Tento typ shlukování K znamená, že začíná pevným počtem klastrů. Alokuje všechna data do přesného počtu klastrů. Tato metoda shlukování nevyžaduje jako vstup počet shluků K. Proces aglomerace začíná vytvořením jednotlivých dat jako jednoho klastru.

Tato metoda používá určitou míru vzdálenosti, snižuje počet klastrů (jeden v každé iteraci) sloučením. Konečně máme jeden velký shluk, který obsahuje všechny objekty.

Dendrogram:

V klastrové metodě Dendrogram bude každá úroveň představovat možný klastr. Výška dendrogramu ukazuje úroveň podobnosti mezi dvěma spojenými klastry. Čím blíže ke spodní části procesu jsou si více podobné shluky, což je nález skupiny z dendrogramu, který není přirozený a většinou subjektivní.

K- Nejbližší sousedé

K- nejbližší soused je nejjednodušší ze všech klasifikátorů strojového učení. Liší se od ostatních technik strojového učení tím, že neprodukuje model. Jedná se o jednoduchý algoritmus, který ukládá všechny dostupné případy a klasifikuje nové instance na základě míry podobnosti.

Funguje to velmi dobře, když existuje vzdálenost mezi příklady. Rychlost učení je pomalá, pokud je tréninková sada velká a výpočet vzdálenosti není jednoduchý.

Analýza hlavních komponent:

V případě, že chcete prostor vyšší dimenze. Musíte vybrat základ pro tento prostor a pouze 200 nejdůležitějších skóre tohoto základu. Tato základna je známá jako hlavní součást. Podmnožina, kterou vyberete, je nový prostor, který je ve srovnání s původním prostorem malý. Zachovává co největší část složitosti dat.

Sdružení

Pravidla přidružení umožňují navázat přidružení mezi datovými objekty uvnitř velkých databází. Tato technika bez dozoru je o objevování zajímavých vztahů mezi proměnnými ve velkých databázích. Například lidé, kteří kupují nový domov, s největší pravděpodobností kupují nový nábytek.

Další příklady:

  • Podskupina pacientů s rakovinou seskupených podle jejich měření genové exprese
  • Skupiny nakupujících na základě jejich historie procházení a nákupu
  • Skupina filmů podle hodnocení uděleného diváky filmů

Kontrolované vs. nekontrolované strojové učení

Parametry Technika strojového učení pod dohledem Technika strojového učení bez dozoru
Vstupní data Algoritmy jsou trénovány pomocí označených dat. Algoritmy se používají proti datům, která nejsou označena
Výpočetní složitost Kontrolované učení je jednodušší metoda. Neřízené učení je výpočetně složité
Přesnost Vysoce přesná a důvěryhodná metoda. Méně přesná a důvěryhodná metoda.

Aplikace strojového učení bez dozoru

Některé aplikace technik strojového učení bez dozoru jsou:

  • Clustering automaticky rozděluje datovou sadu do skupin na základě jejich podobností
  • Detekce anomálií může ve vaší datové sadě objevit neobvyklé datové body. Je to užitečné pro hledání podvodných transakcí
  • Asociační těžba identifikuje sady položek, které se ve vaší datové sadě často vyskytují společně
  • Latentní proměnné modely jsou široce používány pro předzpracování dat. Stejně jako snížení počtu funkcí v datové sadě nebo rozložení datové sady na více komponent

Nevýhody nekontrolovaného učení

  • Nemůžete získat přesné informace týkající se třídění dat a výstup jako data použitá v učení bez dozoru je označen a není znám
  • Menší přesnost výsledků je, protože vstupní data nejsou známa a nejsou předem označena lidmi. To znamená, že stroj to musí udělat sám.
  • Spektrální třídy ne vždy odpovídají informačním třídám.
  • Uživatel musí věnovat čas interpretaci a označení tříd, které po této klasifikaci následují.
  • Spektrální vlastnosti tříd se mohou také časem měnit, takže při přechodu z jednoho obrázku na druhý nemůžete mít stejné informace o třídách.

souhrn

  • Neřízené učení je technika strojového učení, při které nemusíte dohlížet na model.
  • Strojové učení bez dozoru vám pomůže najít v datech všechny druhy neznámých vzorů.
  • Klastrování a přidružení jsou dva typy učení bez kontroly.
  • Čtyři typy shlukovacích metod jsou 1) Exkluzivní 2) Aglomerativní 3) Překrývající se 4) Pravděpodobnostní.
  • Důležité typy shlukování jsou: 1) Hierarchické shlukování 2) Shlukování K-prostředků 3) K-NN 4) Analýza hlavních komponent 5) Rozklad singulární hodnoty 6) Analýza nezávislých komponent.
  • Pravidla přidružení umožňují navázat přidružení mezi datovými objekty uvnitř velkých databází.
  • V supervizovaném učení se algoritmy trénují pomocí označených dat, zatímco v supervizovaném učení se algoritmy používají proti datům, která nejsou označena.
  • Detekce anomálií může objevit důležité datové body ve vaší datové sadě, což je užitečné pro hledání podvodných transakcí.
  • Největší nevýhodou učení bez dozoru je, že nemůžete získat přesné informace týkající se třídění dat.