V tomto výukovém programu se naučíte
- Jednoduchá lineární regrese
- Vícenásobná lineární regrese
- Spojité proměnné
- Regrese faktorů
- Postupná regrese
- Strojové učení
- Kontrolované učení
- Učení bez dozoru
Jednoduchá lineární regrese
Lineární regrese odpovídá na jednoduchou otázku: Dokážete změřit přesný vztah mezi jednou cílovou proměnnou a množinou prediktorů?
Nejjednodušší z pravděpodobnostních modelů je přímkový model:
kde
- y = závislá proměnná
- x = Nezávislá proměnná
- = náhodná chybová složka
- = zachytit
- = Koeficient x
Zvažte následující graf:
Rovnice je úsečka. Pokud x se rovná 0, y se bude rovnat s interceptem, 4,77. je sklon přímky. Říká, v jakém poměru se y mění, když se mění x.
Chcete-li odhadnout optimální hodnoty , použijete metodu nazvanou Ordinary Least Squares (OLS) . Tato metoda se pokusí najít parametry, které minimalizují součet čtvercových chyb, tj. Vertikální vzdálenost mezi předpovězenými hodnotami y a skutečnými hodnotami y. Rozdíl se nazývá chybový termín .
Před odhadem modelu můžete určit, zda je lineární vztah mezi y a x věrohodný, vynesením bodového grafu.
Bodový diagram
K vysvětlení konceptu jednoduché lineární regrese použijeme velmi jednoduchý datový soubor. Budeme importovat průměrné výšky a váhy pro americké ženy. Soubor dat obsahuje 15 pozorování. Chcete měřit, zda výšky pozitivně korelují s váhami.
library(ggplot2)path <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/women.csv'df <-read.csv(path)ggplot(df,aes(x=height, y = weight))+geom_point()
Výstup:
Bodový graf naznačuje obecnou tendenci k tomu, aby y rostlo s rostoucím x. V dalším kroku změříte, o kolik se zvýší každý další.
Odhady nejmenších čtverců
V jednoduché regrese OLS je výpočet přímý. Cílem není ukázat odvození v tomto kurzu. Budete psát pouze vzorec.
Chcete odhadnout:
Cílem regrese OLS je minimalizovat následující rovnici:
kde
je předpokládaná hodnota.
Řešení pro
To znamená průměrnou hodnotu x
Řešení pro
V R můžete k odhadu použít funkci cov () a var () a k odhadu
beta <- cov(df$height, df$weight) / var (df$height)beta
Výstup:
##[1] 3.45
alpha <- mean(df$weight) - beta * mean(df$height)alpha
Výstup:
## [1] -87.51667
Koeficient beta znamená, že pro každou další výšku se váha zvýší o 3,45.
Ruční odhad jednoduché lineární rovnice není ideální. R poskytuje vhodnou funkci pro odhad těchto parametrů. Tuto funkci brzy uvidíte. Před tím si představíme, jak ručně vypočítat jednoduchý lineární regresní model. Na vaší cestě datového vědce sotva nebo nikdy neodhadnete jednoduchý lineární model. Ve většině situací se regresní úkoly provádějí na mnoha odhadech.
Vícenásobná lineární regrese
Praktičtější aplikace regresní analýzy využívají modely, které jsou složitější než jednoduchý lineární model. Pravděpodobnostní model, který zahrnuje více než jednu nezávislou proměnnou, se nazývá více regresních modelů . Obecná forma tohoto modelu je:
V maticovém zápisu můžete model přepsat:
Závislá proměnná y je nyní funkcí k nezávislých proměnných. Hodnota koeficientu .
Stručně představíme předpoklad, který jsme učinili o náhodné chybě OLS:
- Průměr se rovná 0
- Odchylka rovna
- Normální distribuce
- Náhodné chyby jsou nezávislé (v pravděpodobnostním smyslu)
Musíte vyřešit vektor regresních koeficientů, který minimalizuje součet čtvercových chyb mezi předpovězenou a skutečnou hodnotou y.
Řešení v uzavřené formě je:
s:
- označuje transpozici matice X
- označuje invertibilní matici
Používáme datovou sadu mtcars. Datovou sadu už znáte. Naším cílem je předpovědět míli na galon přes sadu funkcí.
Spojité proměnné
Prozatím použijete pouze spojité proměnné a odložíte kategorické funkce. Proměnná am je binární proměnná, jejíž hodnota je 1, pokud je převodovka manuální a 0 pro automatické vozy; vs je také binární proměnná.
library(dplyr)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))glimpse(df)
Výstup:
## Observations: 32## Variables: 6## $ mpg21.0, 21.0, 22.8, 21.4, 18.7, 18.1, 14.3, 24.4, 22.8, 19… .## $ disp 160.0, 160.0, 108.0, 258.0, 360.0, 225.0, 360.0, 146.7, 1… ## $ hp 110, 110, 93, 110, 175, 105, 245, 62, 95, 123, 123, 180,… ## $ drat 3.90, 3.90, 3.85, 3.08, 3.15, 2.76, 3.21, 3.69, 3.92, 3.9… ## $ wt 2.620, 2.875, 2.320, 3.215, 3.440, 3.460, 3.570, 3.190, 3… ## $ qsec 16.46, 17.02, 18.61, 19.44, 17.02, 20.22, 15.84, 20.00, 2…
K výpočtu parametrů můžete použít funkci lm (). Základní syntaxe této funkce je:
lm(formula, data, subset)Arguments:-formula: The equation you want to estimate-data: The dataset used-subset: Estimate the model on a subset of the dataset
Pamatujte, že rovnice má následující tvar
v R.
- Symbol = je nahrazen ~
- Každé x je nahrazeno názvem proměnné
- Pokud chcete konstantu zrušit, přidejte na konec vzorce -1
Příklad:
Chcete odhadnout váhu jednotlivců na základě jejich výšky a příjmů. Rovnice je
Rovnice v R je napsána následovně:
y ~ X1 + X2 +… + Xn # S odposlechem
Takže pro náš příklad:
- Vážit ~ výška + výnosy
Vaším cílem je odhadnout míli na galon na základě sady proměnných. Rovnice k odhadu je:
Odhadnete svou první lineární regresi a výsledek uložíte do přizpůsobeného objektu.
model <- mpg~.disp + hp + drat + wtfit <- lm(model, df)fit
Vysvětlení kódu
- model <- mpg ~ . disp + hp + drat + wt: Uložení modelu pro odhad
- lm (model, df): Odhad modelu s datovým rámcem df
#### Call:## lm(formula = model, data = df)#### Coefficients:## (Intercept) disp hp drat wt## 16.53357 0.00872 -0.02060 2.01577 -4.38546## qsec## 0.64015
Výstup neposkytuje dostatek informací o kvalitě uložení. Pomocí funkce Summary () můžete přistupovat k dalším podrobnostem, jako je význam koeficientů, stupeň volnosti a tvar zbytků.
summary(fit)
Výstup:
## return the p-value and coefficient#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5404 -1.6701 -0.4264 1.1320 5.4996#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 16.53357 10.96423 1.508 0.14362## disp 0.00872 0.01119 0.779 0.44281## hp -0.02060 0.01528 -1.348 0.18936## drat 2.01578 1.30946 1.539 0.13579## wt -4.38546 1.24343 -3.527 0.00158 **## qsec 0.64015 0.45934 1.394 0.17523## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.558 on 26 degrees of freedom## Multiple R-squared: 0.8489, Adjusted R-squared: 0.8199## F-statistic: 29.22 on 5 and 26 DF, p-value: 6.892e-10
Odvození z výstupu tabulky výše
- Výše uvedená tabulka dokazuje, že existuje silný negativní vztah mezi hmotností a počtem ujetých kilometrů a pozitivní vztah s draci.
- Pouze proměnná wt má statistický dopad na mpg. Nezapomeňte, že k testování hypotézy ve statistice používáme:
- H0: Žádný statistický dopad
- H3: Prediktor má významný dopad na y
- Pokud je hodnota p nižší než 0,05, znamená to, že proměnná je statisticky významná
- Upravený R na druhou: Rozptyl vysvětlený modelem. Ve vašem modelu model vysvětlil 82 procent rozptylu y. R na druhou je vždy mezi 0 a 1. Čím vyšší, tím lépe
Můžete spustit test ANOVA a odhadnout účinek každé funkce na odchylky pomocí funkce anova ().
anova(fit)
Výstup:
## Analysis of Variance Table#### Response: mpg## Df Sum Sq Mean Sq F value Pr(>F)## disp 1 808.89 808.89 123.6185 2.23e-11 ***## hp 1 33.67 33.67 5.1449 0.031854 *## drat 1 30.15 30.15 4.6073 0.041340 *## wt 1 70.51 70.51 10.7754 0.002933 **## qsec 1 12.71 12.71 1.9422 0.175233## Residuals 26 170.13 6.54## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Konvenčnějším způsobem, jak odhadnout výkon modelu, je zobrazení zbytku proti různým měřítkům.
Pomocí funkce plot () můžete zobrazit čtyři grafy:
- Reziduální vs vsazené hodnoty
- Normální QQ graf: Teoretický kvartil vs Standardizované rezidua
- Scale-Location: Přizpůsobené hodnoty vs. odmocniny standardizovaných zbytků
- Residuals vs Leverage: Leverage vs Standardized residuals
Přidáte kód par (mfrow = c (2,2)) před plot (fit). Pokud tento řádek kódu nepřidáte, R vás vyzve k stisknutí klávesy enter pro zobrazení dalšího grafu.
par(mfrow=(2,2))
Vysvětlení kódu
- (mfrow = c (2,2)): vrací okno se čtyřmi grafy vedle sebe.
- První 2 přidává počet řádků
- Druhá 2 přidává počet sloupců.
- Pokud píšete (mfrow = c (3,2)): vytvoříte okno se 3 řádky a 2 sloupci
plot(fit)
Výstup:
Vzorec lm () vrací seznam obsahující mnoho užitečných informací. Můžete k nim přistupovat pomocí přizpůsobeného objektu, který jste vytvořili, za kterým následuje znak $ a informace, které chcete extrahovat.
- coefficients: `fit $ coefficients`
- residuals: `fit $ residuals`
- přizpůsobená hodnota: `fit $ přizpůsobené.hodnoty`
Regrese faktorů
V posledním odhadu modelu regresujete mpg pouze na spojité proměnné. Je snadné přidat do modelu proměnné faktoru. Do svého modelu přidáte proměnnou am. Je důležité se ujistit, že proměnná je na úrovni faktoru a není spojitá.
df <- mtcars % > %mutate(cyl = factor(cyl),vs = factor(vs),am = factor(am),gear = factor(gear),carb = factor(carb))summary(lm(model, df))
Výstup:
#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5087 -1.3584 -0.0948 0.7745 4.6251#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 23.87913 20.06582 1.190 0.2525## cyl6 -2.64870 3.04089 -0.871 0.3975## cyl8 -0.33616 7.15954 -0.047 0.9632## disp 0.03555 0.03190 1.114 0.2827## hp -0.07051 0.03943 -1.788 0.0939 .## drat 1.18283 2.48348 0.476 0.6407## wt -4.52978 2.53875 -1.784 0.0946 .## qsec 0.36784 0.93540 0.393 0.6997## vs1 1.93085 2.87126 0.672 0.5115## am1 1.21212 3.21355 0.377 0.7113## gear4 1.11435 3.79952 0.293 0.7733## gear5 2.52840 3.73636 0.677 0.5089## carb2 -0.97935 2.31797 -0.423 0.6787## carb3 2.99964 4.29355 0.699 0.4955## carb4 1.09142 4.44962 0.245 0.8096## carb6 4.47757 6.38406 0.701 0.4938## carb8 7.25041 8.36057 0.867 0.3995## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.833 on 15 degrees of freedom## Multiple R-squared: 0.8931, Adjusted R-squared: 0.779## F-statistic: 7.83 on 16 and 15 DF, p-value: 0.000124
R používá první úroveň faktoru jako základní skupinu. Musíte porovnat koeficienty druhé skupiny se základní skupinou.
Postupná regrese
Poslední část tohoto kurzu se zabývá algoritmem postupné regrese . Účelem tohoto algoritmu je přidat a odebrat potenciální kandidáty v modelech a udržet ty, kteří mají významný vliv na závislou proměnnou. Tento algoritmus má smysl, když datová sada obsahuje velký seznam prediktorů. Nezávislé proměnné nemusíte ručně přidávat a odebírat. Postupná regrese je postavena tak, aby vybírala nejlepší kandidáty, aby se vešly do modelu.
Podívejme se v akci, jak to funguje. Datovou sadu mtcars s kontinuálními proměnnými používáte pouze pro pedagogickou ilustraci. Než začnete s analýzou, je dobré stanovit rozdíly mezi daty pomocí korelační matice. Knihovna GGally je příponou ggplot2.
Knihovna obsahuje různé funkce pro zobrazení souhrnných statistik, jako je korelace a distribuce všech proměnných v matici. Použijeme funkci ggscatmat, ale další informace o knihovně GGally najdete na vinětě.
Základní syntaxe pro ggscatmat () je:
ggscatmat(df, columns = 1:ncol(df), corMethod = "pearson")arguments:-df: A matrix of continuous variables-columns: Pick up the columns to use in the function. By default, all columns are used-corMethod: Define the function to compute the correlation between variable. By default, the algorithm uses the Pearson formula
Zobrazíte korelaci pro všechny své proměnné a rozhodnete, který z nich bude nejlepším kandidátem pro první krok postupné regrese. Mezi vašimi proměnnými a závislou proměnnou mpg existuje silná korelace.
library(GGally)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))ggscatmat(df, columns = 1: ncol(df))
Výstup:
Postupná regrese
Výběr proměnných je důležitou součástí přizpůsobení modelu. Postupná regrese provede proces vyhledávání automaticky. Chcete-li odhadnout, kolik možných možností je v datové sadě, vypočítáte pomocí k je počet prediktorů. Množství možností roste s počtem nezávislých proměnných. Proto musíte mít automatické vyhledávání.
Musíte si nainstalovat balíček olsrr z CRAN. Balíček zatím není v Anacondě k dispozici. Proto jej instalujete přímo z příkazového řádku:
install.packages("olsrr")
Pomocí podmíněných kritérií můžete vykreslit všechny podmnožiny možností (tj. Čtverec R, upravený čtverec R, Bayesiánská kritéria). Konečným modelem bude model s nejnižšími kritérii AIC.
library(olsrr)model <- mpg~.fit <- lm(model, df)test <- ols_all_subset(fit)plot(test)
Vysvětlení kódu
- mpg ~ .: Sestavte model pro odhad
- lm (model, df): Spustit model OLS
- ols_all_subset (fit): Sestavte grafy s příslušnými statistickými informacemi
- plot (test): Vynese grafy
Výstup:
Modely lineární regrese používají t-test k odhadu statistického dopadu nezávislé proměnné na závislou proměnnou. Vědci stanovili maximální prahovou hodnotu na 10 procent, přičemž nižší hodnoty znamenají silnější statistickou vazbu. Strategie postupné regrese je postavena na tomto testu, aby přidala a odstranila potenciální kandidáty. Algoritmus funguje následovně:
- Krok 1: Regresní každý prediktor na y samostatně. Jmenovitě, regrese x_1 na y, x_2 na y na x_n. Uložte hodnotu p a udržujte regresor s hodnotou p nižší než definovaná prahová hodnota (ve výchozím nastavení 0,1). Prediktory s významností nižší než prahová hodnota budou přidány do finálního modelu. Pokud žádná proměnná nemá p-hodnotu nižší než zadaná prahová hodnota, pak se algoritmus zastaví a vy máte konečný model pouze s konstantou.
- Krok 2: Použijte prediktor s nejnižší hodnotou p a přidejte samostatně jednu proměnnou. Regresujete konstantu, nejlepší prediktor kroku jedna a třetí proměnné. Do krokového modelu přidáte nové prediktory s hodnotou nižší než zadaná prahová hodnota. Pokud žádná proměnná nemá hodnotu p nižší než 0,1, pak se algoritmus zastaví a vy máte konečný model pouze s jedním prediktorem. Postupujete krokovým modelem, abyste zkontrolovali význam nejlepších prediktorů kroku 1. Pokud je vyšší než prahová hodnota pro odstranění, ponecháte ji v krokovém modelu. Jinak to vylučujete.
- Krok 3: Replikujete krok 2 na novém nejlepším stupňovitém modelu. Algoritmus přidává prediktory do krokového modelu na základě vstupních hodnot a vylučuje prediktor z krokového modelu, pokud nesplňuje prahovou hodnotu pro vyloučení.
- Algoritmus pokračuje, dokud nelze přidat nebo vyloučit žádnou proměnnou.
Algoritmus můžete provést pomocí funkce ols_stepwise () z balíčku olsrr.
ols_stepwise(fit, pent = 0.1, prem = 0.3, details = FALSE)arguments:
-fit: Model to fit. Need to use `lm()`before to run `ols_stepwise()-pent: Threshold of the p-value used to enter a variable into the stepwise model. By default, 0.1-prem: Threshold of the p-value used to exclude a variable into the stepwise model. By default, 0.3-details: Print the details of each step
Před tím vám ukážeme kroky algoritmu. Níže je tabulka se závislými a nezávislými proměnnými:
Závislá proměnná |
Nezávislé proměnné |
---|---|
mpg |
disp |
hp |
|
Drat |
|
hm |
|
qsec |
Start
Nejprve algoritmus začíná spuštěním modelu na každé nezávislé proměnné samostatně. Tabulka ukazuje hodnotu p pro každý model.
## [[1]]## (Intercept) disp## 3.576586e-21 9.380327e-10#### [[2]]## (Intercept) hp## 6.642736e-18 1.787835e-07#### [[3]]## (Intercept) drat## 0.1796390847 0.0000177624#### [[4]]## (Intercept) wt## 8.241799e-19 1.293959e-10#### [[5]## (Intercept) qsec## 0.61385436 0.01708199
Pro vstup do modelu udržuje algoritmus proměnnou s nejnižší hodnotou p. Z výše uvedeného výstupu je to hm
Krok 1
V prvním kroku algoritmus spouští mpg na wt a ostatních proměnných samostatně.
## [[1]]## (Intercept) wt disp## 4.910746e-16 7.430725e-03 6.361981e-02#### [[2]]## (Intercept) wt hp## 2.565459e-20 1.119647e-06 1.451229e-03#### [[3]]## (Intercept) wt drat## 2.737824e-04 1.589075e-06 3.308544e-01#### [[4]]## (Intercept) wt qsec## 7.650466e-04 2.518948e-11 1.499883e-03
Každá proměnná je potenciálním kandidátem pro vstup do finálního modelu. Algoritmus však zachovává pouze proměnnou s nižší hodnotou p. Ukázalo se, že hp má o něco nižší hodnotu p než qsec. Proto společnost hp vstupuje do finálního modelu
Krok 2
Algoritmus opakuje první krok, ale tentokrát se dvěma nezávislými proměnnými ve finálním modelu.
## [[1]]## (Intercept) wt hp disp## 1.161936e-16 1.330991e-03 1.097103e-02 9.285070e-01#### [[2]]## (Intercept) wt hp drat## 5.133678e-05 3.642961e-04 1.178415e-03 1.987554e-01#### [[3]]## (Intercept) wt hp qsec## 2.784556e-03 3.217222e-06 2.441762e-01 2.546284e-01
Žádná z proměnných, které vstoupily do konečného modelu, nemá dostatečně nízkou hodnotu p. Algoritmus se zastaví; máme finální model:
#### Call:## lm(formula = mpg ~ wt + hp, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.941 -1.600 -0.182 1.050 5.854#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 37.22727 1.59879 23.285 < 2e-16 ***## wt -3.87783 0.63273 -6.129 1.12e-06 ***## hp -0.03177 0.00903 -3.519 0.00145 **## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.593 on 29 degrees of freedom## Multiple R-squared: 0.8268, Adjusted R-squared: 0.8148## F-statistic: 69.21 on 2 and 29 DF, p-value: 9.109e-12
K porovnání výsledků můžete použít funkci ols_stepwise ().
stp_s <-ols_stepwise(fit, details=TRUE)
Výstup:
Algoritmus po 2 krocích najde řešení a vrátí stejný výstup, jaký jsme měli dříve.
Na konci můžete říci, že modely jsou vysvětleny dvěma proměnnými a interceptem. Míle na galon negativně koreluje s hrubým výkonem a hmotností
## You are selecting variables based on p value… ## 1 variable(s) added… .## Variable Selection Procedure## Dependent Variable: mpg#### Stepwise Selection: Step 1#### Variable wt Entered#### Model Summary## --------------------------------------------------------------## R 0.868 RMSE 3.046## R-Squared 0.753 Coef. Var 15.161## Adj. R-Squared 0.745 MSE 9.277## Pred R-Squared 0.709 MAE 2.341## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 847.725 1 847.725 91.375 0.0000## Residual 278.322 30 9.277## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.285 1.878 19.858 0.000 33.450 41.120## wt -5.344 0.559 -0.868 -9.559 0.000 -6.486 -4.203## ----------------------------------------------------------------------------------------## 1 variable(s) added… ## Stepwise Selection: Step 2#### Variable hp Entered#### Model Summary## --------------------------------------------------------------## R 0.909 RMSE 2.593## R-Squared 0.827 Coef. Var 12.909## Adj. R-Squared 0.815 MSE 6.726## Pred R-Squared 0.781 MAE 1.901## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 930.999 2 465.500 69.211 0.0000## Residual 195.048 29 6.726## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.227 1.599 23.285 0.000 33.957 40.497## wt -3.878 0.633 -0.630 -6.129 0.000 -5.172 -2.584## hp -0.032 0.009 -0.361 -3.519 0.001 -0.050 -0.013## ----------------------------------------------------------------------------------------## No more variables to be added or removed.
Strojové učení
Strojové učení se mezi datovými vědci stává velmi rozšířeným a je nasazeno ve stovkách produktů, které denně používáte. Jednou z prvních ML aplikací byl spamový filtr .
Následuje další aplikace Machine Learning-
- Identifikace nežádoucích spamových zpráv v e-mailu
- Segmentace chování zákazníků pro cílenou reklamu
- Omezení podvodných transakcí kreditní kartou
- Optimalizace využití energie v domácnosti a kancelářské budově
- Rozpoznávání obličeje
Kontrolované učení
V supervizovaném učení obsahují tréninková data, která vkládáte do algoritmu, štítek.
Klasifikace je pravděpodobně nejpoužívanější technikou učení pod dohledem. Jedním z prvních úkolů klasifikace, které vědci řešili, byl filtr nevyžádané pošty. Cílem výuky je předpovědět, zda je e-mail klasifikován jako spam nebo ham (dobrý e-mail). Stroj po tréninkovém kroku dokáže detekovat třídu e-mailů.
Regrese se v oblasti strojového učení běžně používají k predikci nepřetržité hodnoty. Regresní úloha může předpovědět hodnotu závislé proměnné na základě sady nezávislých proměnných (nazývaných také prediktory nebo regresory). Například lineární regrese mohou předpovídat cenu akcií, předpověď počasí, prodej atd.
Zde je seznam některých základních algoritmů učení pod dohledem.
- Lineární regrese
- Logistická regrese
- Nejbližší sousedé
- Support Vector Machine (SVM)
- Rozhodovací stromy a náhodný les
- Neuronové sítě
Učení bez dozoru
U učení bez dozoru jsou tréninková data neoznačená. Systém se pokouší učit bez odkazu. Níže je uveden seznam algoritmů pro učení bez kontroly.
- K-střední
- Hierarchická shluková analýza
- Maximalizace očekávání
- Vizualizace a redukce rozměrů
- Analýza hlavních komponent
- PCA jádra
- Lokálně lineární vkládání
souhrn
Obyčejně nejmenší čtvercovou regresi lze shrnout v následující tabulce:
Knihovna |
Objektivní |
Funkce |
Argumenty |
---|---|---|---|
základna |
Vypočítejte lineární regrese |
lm () |
vzorec, data |
základna |
Shrňte model |
shrnout() |
vejít se |
základna |
Extrahujte koeficienty |
lm () $ koeficient | |
základna |
Extrahujte zbytky |
lm () $ zbytky | |
základna |
Extrahujte přizpůsobenou hodnotu |
lm () $ přizpůsobené hodnoty | |
olsrr |
Spusťte postupnou regresi |
ols_stepwise () |
fit, pent = 0,1, prem = 0,3, podrobnosti = FALSE |
Poznámka : Nezapomeňte transformovat kategorickou proměnnou faktorem, než se vejde do modelu.