Co je to R Software?
R je programovací jazyk a svobodný software vyvinutý Rossem Ihakou a Robertem Gentlemanem v roce 1993. R má rozsáhlý katalog statistických a grafických metod. Zahrnuje algoritmy strojového učení, lineární regrese, časové řady, statistické odvození, abychom jmenovali alespoň některé. Většina knihoven R je napsána v jazyce R, ale pro těžké výpočetní úlohy jsou preferovány kódy C, C ++ a Fortran.
R není svěřeno pouze akademikům, ale mnoho velkých společností také používá programovací jazyk R. Mezi ně patří Uber, Google, Airbnb, Facebook atd.
Analýza dat pomocí R se provádí v řadě kroků; programování, transformace, objevování, modelování a sdělování výsledků
- Program : R je jasný a přístupný programovací nástroj
- Transformace : R je tvořena sbírkou knihoven určených speciálně pro datovou vědu
- Objevte : Prozkoumejte data, zdokonalte svou hypotézu a analyzujte je
- Model : R poskytuje širokou škálu nástrojů k zachycení správného modelu pro vaše data
- Komunikujte : Integrujte kódy, grafy a výstupy do sestavy pomocí aplikace R Markdown nebo vytvářejte lesklé aplikace, které chcete sdílet se světem
V tomto úvodním kurzu se naučíte R.
- Na co se R používá?
- R podle odvětví
- Balíček R.
- Komunikujte s R.
- Proč používat R?
- Měli byste zvolit R?
- Je R obtížné?
Na co se R používá?
- Statistická inference
- Analýza dat
- Algoritmus strojového učení
R podle odvětví
Pokud rozložíme využití R průmyslem, vidíme, že na prvním místě jsou akademici. R je jazyk pro statistiku. R je první volbou ve zdravotnickém průmyslu, následuje vláda a poradenství.
Balíček R.
Primární použití R je a vždy bude, statistika, vizualizace a strojové učení. Obrázek níže ukazuje, který balíček R dostal nejvíce otázek ve Stack Overflow. V top 10 se většina z nich týká pracovního toku datového vědce: příprava dat a sdělování výsledků.
Všechny knihovny R, téměř 12k, jsou uloženy v CRAN. CRAN je bezplatný a otevřený zdroj. Můžete si stáhnout a použít četné knihovny k provádění strojového učení nebo analýzy časových řad.
Komunikujte s R.
R má několik způsobů, jak prezentovat a sdílet práci, buď prostřednictvím dokumentu markdown nebo lesklé aplikace. Všechno lze hostovat v Rpub, GitHub nebo na webových stránkách firmy.
Níže je uveden příklad prezentace hostované na Rpub
Rstudio přijímá markdown k napsání dokumentu. Dokumenty můžete exportovat v různých formátech:
- Dokument:
- HTML
- PDF / Latex
- Slovo
- Prezentace
- HTML
- PDF paprsek
Rstudio má skvělý nástroj pro snadné vytvoření aplikace. Níže je uveden příklad aplikace s údaji Světové banky.
Proč používat R?
Věda o datech formuje způsob, jakým společnosti řídí své podnikání. Bezpochyby, zdržování se od umělé inteligence a strojů povede společnost k selhání. Velkou otázkou je, který nástroj / jazyk byste měli použít?
Jedná se o spoustu nástrojů dostupných na trhu k provádění analýzy dat. Naučit se nový jazyk vyžaduje určitou časovou investici. Obrázek níže zobrazuje křivku učení ve srovnání s obchodními schopnostmi, které jazyk nabízí. Negativní vztah znamená, že neexistuje oběd zdarma. Pokud chcete dát z údajů co nejlepší přehled, musíte nějaký čas věnovat učení se příslušnému nástroji, kterým je R.
V levém horním rohu grafu vidíte Excel a PowerBI. Tyto dva nástroje se snadno učí, ale nenabízejí vynikající obchodní schopnosti, zejména pokud jde o modelování. Uprostřed můžete vidět Python a SAS. SAS je specializovaný nástroj pro provádění statistické analýzy pro podnikání, ale není to zdarma. SAS je software pro klikání a spouštění. Python je však jazyk s monotónní křivkou učení. Python je fantastický nástroj pro nasazení Machine Learning a AI, ale postrádá komunikační funkce. Se stejnou křivkou učení je R dobrým kompromisem mezi implementací a analýzou dat.
Pokud jde o vizualizaci dat (DataViz), pravděpodobně byste slyšeli o Tableau. Tableau je bezpochyby skvělý nástroj k objevování vzorů prostřednictvím grafů a grafů. Učení tabla navíc není časově náročné. Jeden velký problém s vizualizací dat spočívá v tom, že byste nikdy nemohli najít vzor nebo jen vytvořit spoustu zbytečných grafů. Tableau je dobrý nástroj pro rychlou vizualizaci dat nebo Business Intelligence. Pokud jde o nástroj pro statistiku a rozhodování, je R vhodnější.
Stack Overflow je velká komunita pro programovací jazyky. Pokud máte problém s kódováním nebo potřebujete porozumět modelu, je tu Stack Overflow, který vám pomůže. V průběhu roku se procento zobrazení dotazů u jazyka R ve srovnání s ostatními jazyky prudce zvýšilo. Tento trend samozřejmě vysoce koreluje s vzkvétajícím věkem vědy o datech, ale odráží poptávku jazyka R po vědě o datech.
V oblasti datové vědy existují dva nástroje, které si navzájem konkurují. R a Python jsou pravděpodobně programovací jazyk, který definuje datovou vědu.
Měli byste zvolit R?
Datový vědec může použít dva vynikající nástroje: R a Python. Možná nebudete mít čas se je naučit oba, zvláště pokud se začnete učit datovou vědu. Učení statistického modelování a algoritmuje mnohem důležitější než naučit se programovací jazyk. Programovací jazyk je nástroj pro výpočet a komunikaci vašeho objevu. Nejdůležitějším úkolem v oblasti datové vědy je způsob, jakým s daty zacházíte: import, čištění, příprava, návrh funkcí, výběr funkcí. Toto by mělo být vaším hlavním zaměřením. Pokud se pokoušíte naučit R a Python současně bez pevného pozadí ve statistikách, je to prostě hloupé. Datoví vědci nejsou programátoři. Jejich úkolem je porozumět datům, manipulovat s nimi a odhalit nejlepší přístup. Pokud uvažujete o tom, který jazyk se chcete naučit, podívejme se, který jazyk je pro vás nejvhodnější.
Hlavním publikem pro datovou vědu je profesionál v podnikání. V podnikání je jednou velkou implikací komunikace. Existuje mnoho způsobů komunikace: přehled, webová aplikace, řídicí panel. Potřebujete nástroj, který to všechno dělá společně.
Je R obtížné?
Před lety byl jazyk R obtížně ovladatelný. Jazyk byl matoucí a nebyl tak strukturovaný jako ostatní programovací nástroje. K překonání tohoto zásadního problému vyvinul Hadley Wickham kolekci balíčků zvanou tidyverse. Pravidlo hry se změnilo k nejlepším. Manipulace s daty se stává triviální a intuitivní. Vytvoření grafu už nebylo tak těžké.
Nejlepší algoritmy pro strojové učení lze implementovat pomocí R. Balíčky jako Keras a TensorFlow umožňují vytvářet špičkovou techniku strojového učení. R má také balíček pro provádění Xgboost, jednoho z nejlepších algoritmů pro soutěž Kaggle.
R může komunikovat s jiným jazykem. Je možné volat Python, Java, C ++ v R. Svět velkých dat je také přístupný R. Můžete propojit R s různými databázemi, jako je Spark nebo Hadoop.
Nakonec se R vyvinulo a umožnilo paralelní operaci urychlit výpočet. Ve skutečnosti byl R kritizován za použití pouze jednoho CPU najednou. Paralelní balíček umožňuje provádět úkoly v různých jádrech stroje.
souhrn
Stručně řečeno, R je skvělý nástroj pro prozkoumání a prozkoumání dat. Vypracovaná analýza, jako je shlukování, korelace a redukce dat, se provádí pomocí R. Toto je nejdůležitější část, bez dobrého inženýrství funkcí a modelu nebude nasazení strojového učení poskytovat smysluplné výsledky.