Co je programovací jazyk R. Úvod & Základy R.

Obsah:

Anonim

Co je to R Software?

R je programovací jazyk a svobodný software vyvinutý Rossem Ihakou a Robertem Gentlemanem v roce 1993. R má rozsáhlý katalog statistických a grafických metod. Zahrnuje algoritmy strojového učení, lineární regrese, časové řady, statistické odvození, abychom jmenovali alespoň některé. Většina knihoven R je napsána v jazyce R, ale pro těžké výpočetní úlohy jsou preferovány kódy C, C ++ a Fortran.

R není svěřeno pouze akademikům, ale mnoho velkých společností také používá programovací jazyk R. Mezi ně patří Uber, Google, Airbnb, Facebook atd.

Analýza dat pomocí R se provádí v řadě kroků; programování, transformace, objevování, modelování a sdělování výsledků

  • Program : R je jasný a přístupný programovací nástroj
  • Transformace : R je tvořena sbírkou knihoven určených speciálně pro datovou vědu
  • Objevte : Prozkoumejte data, zdokonalte svou hypotézu a analyzujte je
  • Model : R poskytuje širokou škálu nástrojů k zachycení správného modelu pro vaše data
  • Komunikujte : Integrujte kódy, grafy a výstupy do sestavy pomocí aplikace R Markdown nebo vytvářejte lesklé aplikace, které chcete sdílet se světem

V tomto úvodním kurzu se naučíte R.

  • Na co se R používá?
  • R podle odvětví
  • Balíček R.
  • Komunikujte s R.
  • Proč používat R?
  • Měli byste zvolit R?
  • Je R obtížné?

Na co se R používá?

  • Statistická inference
  • Analýza dat
  • Algoritmus strojového učení

R podle odvětví

Pokud rozložíme využití R průmyslem, vidíme, že na prvním místě jsou akademici. R je jazyk pro statistiku. R je první volbou ve zdravotnickém průmyslu, následuje vláda a poradenství.

Balíček R.

Primární použití R je a vždy bude, statistika, vizualizace a strojové učení. Obrázek níže ukazuje, který balíček R dostal nejvíce otázek ve Stack Overflow. V top 10 se většina z nich týká pracovního toku datového vědce: příprava dat a sdělování výsledků.

Všechny knihovny R, téměř 12k, jsou uloženy v CRAN. CRAN je bezplatný a otevřený zdroj. Můžete si stáhnout a použít četné knihovny k provádění strojového učení nebo analýzy časových řad.

Komunikujte s R.

R má několik způsobů, jak prezentovat a sdílet práci, buď prostřednictvím dokumentu markdown nebo lesklé aplikace. Všechno lze hostovat v Rpub, GitHub nebo na webových stránkách firmy.

Níže je uveden příklad prezentace hostované na Rpub

Rstudio přijímá markdown k napsání dokumentu. Dokumenty můžete exportovat v různých formátech:

  • Dokument:
    • HTML
    • PDF / Latex
    • Slovo
  • Prezentace
    • HTML
    • PDF paprsek

Rstudio má skvělý nástroj pro snadné vytvoření aplikace. Níže je uveden příklad aplikace s údaji Světové banky.

Proč používat R?

Věda o datech formuje způsob, jakým společnosti řídí své podnikání. Bezpochyby, zdržování se od umělé inteligence a strojů povede společnost k selhání. Velkou otázkou je, který nástroj / jazyk byste měli použít?

Jedná se o spoustu nástrojů dostupných na trhu k provádění analýzy dat. Naučit se nový jazyk vyžaduje určitou časovou investici. Obrázek níže zobrazuje křivku učení ve srovnání s obchodními schopnostmi, které jazyk nabízí. Negativní vztah znamená, že neexistuje oběd zdarma. Pokud chcete dát z údajů co nejlepší přehled, musíte nějaký čas věnovat učení se příslušnému nástroji, kterým je R.

V levém horním rohu grafu vidíte Excel a PowerBI. Tyto dva nástroje se snadno učí, ale nenabízejí vynikající obchodní schopnosti, zejména pokud jde o modelování. Uprostřed můžete vidět Python a SAS. SAS je specializovaný nástroj pro provádění statistické analýzy pro podnikání, ale není to zdarma. SAS je software pro klikání a spouštění. Python je však jazyk s monotónní křivkou učení. Python je fantastický nástroj pro nasazení Machine Learning a AI, ale postrádá komunikační funkce. Se stejnou křivkou učení je R dobrým kompromisem mezi implementací a analýzou dat.

Pokud jde o vizualizaci dat (DataViz), pravděpodobně byste slyšeli o Tableau. Tableau je bezpochyby skvělý nástroj k objevování vzorů prostřednictvím grafů a grafů. Učení tabla navíc není časově náročné. Jeden velký problém s vizualizací dat spočívá v tom, že byste nikdy nemohli najít vzor nebo jen vytvořit spoustu zbytečných grafů. Tableau je dobrý nástroj pro rychlou vizualizaci dat nebo Business Intelligence. Pokud jde o nástroj pro statistiku a rozhodování, je R vhodnější.

Stack Overflow je velká komunita pro programovací jazyky. Pokud máte problém s kódováním nebo potřebujete porozumět modelu, je tu Stack Overflow, který vám pomůže. V průběhu roku se procento zobrazení dotazů u jazyka R ve srovnání s ostatními jazyky prudce zvýšilo. Tento trend samozřejmě vysoce koreluje s vzkvétajícím věkem vědy o datech, ale odráží poptávku jazyka R po vědě o datech.

V oblasti datové vědy existují dva nástroje, které si navzájem konkurují. R a Python jsou pravděpodobně programovací jazyk, který definuje datovou vědu.

Měli byste zvolit R?

Datový vědec může použít dva vynikající nástroje: R a Python. Možná nebudete mít čas se je naučit oba, zvláště pokud se začnete učit datovou vědu. Učení statistického modelování a algoritmuje mnohem důležitější než naučit se programovací jazyk. Programovací jazyk je nástroj pro výpočet a komunikaci vašeho objevu. Nejdůležitějším úkolem v oblasti datové vědy je způsob, jakým s daty zacházíte: import, čištění, příprava, návrh funkcí, výběr funkcí. Toto by mělo být vaším hlavním zaměřením. Pokud se pokoušíte naučit R a Python současně bez pevného pozadí ve statistikách, je to prostě hloupé. Datoví vědci nejsou programátoři. Jejich úkolem je porozumět datům, manipulovat s nimi a odhalit nejlepší přístup. Pokud uvažujete o tom, který jazyk se chcete naučit, podívejme se, který jazyk je pro vás nejvhodnější.

Hlavním publikem pro datovou vědu je profesionál v podnikání. V podnikání je jednou velkou implikací komunikace. Existuje mnoho způsobů komunikace: přehled, webová aplikace, řídicí panel. Potřebujete nástroj, který to všechno dělá společně.

Je R obtížné?

Před lety byl jazyk R obtížně ovladatelný. Jazyk byl matoucí a nebyl tak strukturovaný jako ostatní programovací nástroje. K překonání tohoto zásadního problému vyvinul Hadley Wickham kolekci balíčků zvanou tidyverse. Pravidlo hry se změnilo k nejlepším. Manipulace s daty se stává triviální a intuitivní. Vytvoření grafu už nebylo tak těžké.

Nejlepší algoritmy pro strojové učení lze implementovat pomocí R. Balíčky jako Keras a TensorFlow umožňují vytvářet špičkovou techniku ​​strojového učení. R má také balíček pro provádění Xgboost, jednoho z nejlepších algoritmů pro soutěž Kaggle.

R může komunikovat s jiným jazykem. Je možné volat Python, Java, C ++ v R. Svět velkých dat je také přístupný R. Můžete propojit R s různými databázemi, jako je Spark nebo Hadoop.

Nakonec se R vyvinulo a umožnilo paralelní operaci urychlit výpočet. Ve skutečnosti byl R kritizován za použití pouze jednoho CPU najednou. Paralelní balíček umožňuje provádět úkoly v různých jádrech stroje.

souhrn

Stručně řečeno, R je skvělý nástroj pro prozkoumání a prozkoumání dat. Vypracovaná analýza, jako je shlukování, korelace a redukce dat, se provádí pomocí R. Toto je nejdůležitější část, bez dobrého inženýrství funkcí a modelu nebude nasazení strojového učení poskytovat smysluplné výsledky.