Co je Matice zmatku?
Matice zmatku je technika měření výkonu pro klasifikaci strojového učení. Je to druh tabulky, která vám pomůže poznat výkon klasifikačního modelu na sadě testovacích dat, aby byly známy skutečné hodnoty. Samotný termín matice zmatku je velmi jednoduchý, ale související terminologie může být trochu matoucí. Zde je uvedeno několik jednoduchých vysvětlení pro tuto techniku.
V tomto výukovém programu se naučíte,
- Co je matice zmatku?
- Čtyři výsledky matice zmatku
- Příklad matice zmatku:
- Jak vypočítat matici zmatku
- Další důležité pojmy využívající matici zmatku
- Proč potřebujete Matici zmatku?
Čtyři výsledky matice zmatku
Matice zmatku vizualizuje přesnost klasifikátoru porovnáním skutečných a předpovězených tříd. Matice binárního zmatku se skládá ze čtverců:
- TP: True Positive: Předpovězené hodnoty správně předpovídané jako skutečné kladné hodnoty
- FP: Předpokládané hodnoty nesprávně předpovídaly skutečné kladné hodnoty. tj. záporné hodnoty předpovídané jako pozitivní
- FN: False Negative: Kladné hodnoty předpovídané jako negativní
- TN: True Negative: Předpovězené hodnoty správně předpovězené jako skutečný zápor
Test přesnosti můžete vypočítat z matice záměny:
Příklad matice zmatku:
Confusion Matrix je užitečná metoda strojového učení, která vám umožňuje měřit křivku Recall, Precision, Accuracy a AUC-ROC. Níže je uveden příklad, jak znát pojmy True Positive, True Negative, False Negative a True Negative.
Opravdu pozitivní:
Promítali jste kladně a ukázalo se, že je to pravda. Například jste předpovídali, že Francie vyhraje světový pohár, a to zvítězilo.
True Negative:
Když jste předpovídali záporné, je to pravda. Předpovídali jste, že Anglie nevyhraje a ona prohrála.
Falešně pozitivní:
Vaše předpověď je pozitivní a je falešná.
Předpovídali jste, že Anglie vyhraje, ale prohrála.
Falešně negativní:
Vaše předpověď je negativní a výsledek je také nepravdivá.
Předpovídali jste, že Francie nevyhraje, ale zvítězila.
Měli byste si pamatovat, že predikované hodnoty popisujeme jako True nebo False nebo Positive and Negative.
Jak vypočítat matici zmatku
Zde je krok za krokem proces výpočtu matice zmatku v dolování dat
- Krok 1) Nejprve musíte otestovat datovou sadu s jejími očekávanými hodnotami výsledků.
- Krok 2) Předvídejte všechny řádky v testovací datové sadě.
- Krok 3) Vypočítejte očekávané předpovědi a výsledky:
- Součet správných předpovědí každé třídy.
- Celkový počet nesprávných předpovědí každé třídy.
Poté jsou tato čísla uspořádána do níže uvedených metod:
- Každý řádek matice odkazuje na předpovězenou třídu.
- Každý sloupec matice odpovídá skutečné třídě.
- Celkový počet správných a nesprávných klasifikací se zadává do tabulky.
- Součet správných předpovědí pro třídu jde do předpovězeného sloupce a očekávaného řádku pro danou hodnotu třídy.
- Součet nesprávných předpovědí pro třídu jde do očekávaného řádku pro tuto hodnotu třídy a do předpokládaného sloupce pro tuto konkrétní hodnotu třídy.
Další důležité pojmy využívající matici zmatku
- Pozitivní prediktivní hodnota (PVV): To je velmi blízko k přesnosti. Jeden významný rozdíl mezi dvěma termíny je ten, že PVV považuje prevalenci. V situaci, kdy jsou třídy dokonale vyvážené, je pozitivní prediktivní hodnota stejná jako přesnost.
- Míra nulové chyby: Tento termín se používá k definování toho, kolikrát by byla vaše předpověď chybná, pokud můžete předpovědět třídu většiny. Můžete to považovat za základní metriku k porovnání vašeho klasifikátoru.
- Skóre F: Skóre F1 je vážené průměrné skóre skutečné pozitivity (odvolání) a přesnosti.
- Rocova křivka: Rocova křivka ukazuje skutečné pozitivní sazby proti falešně pozitivním hodnotám v různých bodech řezu. Rovněž prokazuje kompromis mezi citlivostí (odvolání a specifičnost nebo skutečná záporná sazba).
- Přesnost: Přesná metrika ukazuje přesnost kladné třídy. Měří, jak pravděpodobná je předpověď pozitivní třídy správná.
Maximální skóre je 1, když klasifikátor dokonale klasifikuje všechny kladné hodnoty. Samotná přesnost není příliš užitečná, protože ignoruje negativní třídu. Metrika je obvykle spárována s metrikou Recall. Vyvolání se také nazývá citlivost nebo skutečná kladná rychlost.
- Citlivost : Citlivost vypočítá poměr správně detekovaných pozitivních tříd. Tato metrika udává, jak dobrý je model pro rozpoznání pozitivní třídy.
Proč potřebujete Matici zmatku?
Zde jsou výhody / výhody používání matice záměny.
- Ukazuje, jak je jakýkoli klasifikační model zmatený, když vytváří předpovědi.
- Matice zmatků vám nejen poskytuje přehled o chybách, které provádí váš klasifikátor, ale také o typech chyb, které se dělají.
- Toto rozdělení vám pomůže překonat omezení používání samotné přesnosti klasifikace.
- Každý sloupec matice záměny představuje instance této předpovězené třídy.
- Každý řádek matice záměny představuje instance skutečné třídy.
- Poskytuje přehled nejen o chybách, které provádí klasifikátor, ale také o chybách, které jsou vytvářeny.