Jak stahovat & Nainstalujte NLTK na Windows / Mac

Obsah:

Anonim

V tomto výukovém programu se naučíte -

  • Instalace NLTK ve Windows
  • Instalace Pythonu do Windows
  • Instalace NLTK v systému Mac / Linux
  • Instalace NLTK přes Anaconda
  • Datová sada NLTK
  • Jak stáhnout všechny balíčky NLTK
  • Spuštění skriptu NLP
  • Jak spustit skript NLTK

Instalace NLTK ve Windows

V této části se naučíme, jak provést nastavení NLTK pomocí terminálu (příkazový řádek v systému Windows).

Pokyny uvedené níže vycházejí z předpokladu, že nemáte nainstalovaný python. Prvním krokem je tedy instalace pythonu.

Instalace Pythonu do Windows:

Krok 1) Go propojit https://www.python.org/downloads/ , a vybrat si nejnovější verzi pro Windows.

Poznámka : Pokud si nechcete stáhnout nejnovější verzi, můžete navštívit kartu stahování a zobrazit všechna vydání.

Krok 2) Klikněte na stažený soubor

Krok 3) Vyberte Přizpůsobit instalaci

Krok 4) Klikněte na DALŠÍ

Krok 5) Na další obrazovce

  1. Vyberte pokročilé možnosti
  2. Zadejte vlastní umístění instalace. V mém případě je pro snazší ovládání vybrána složka na jednotce C.
  3. Klikněte na Instalovat

Krok 6) Po dokončení instalace klikněte na tlačítko Zavřít.

Krok 7) Zkopírujte cestu ke složce Skripty.

Krok 8) V příkazovém řádku systému Windows

  • Přejděte do umístění pip složky
  • Zadejte příkaz k instalaci NLTK
    pip3 install nltk
  • Instalace by měla být provedena úspěšně

POZNÁMKA : Pro Python2 použijte commandpip2 install nltk

Krok 9) V nabídce Start systému Windows vyhledejte a otevřete PythonShell

Krok 10) Můžete ověřit, zda je instalace přesná, zadáním následujícího příkazu

import nltk

Pokud nevidíte žádnou chybu, instalace je dokončena.

Instalace NLTK v systému Mac / Linux

Instalace NLTK v systému Mac / Unix vyžaduje k instalaci nltk python správce balíčků python. Pokud pip není nainstalován, dokončete postup podle níže uvedených pokynů

Krok 1) Aktualizujte index balíčku zadáním níže uvedeného příkazu

sudo apt update

Krok 2) Instalace pipu pro Python 3:

sudo apt install python3-pip

Pip můžete také nainstalovat pomocí easy_install.

sudo apt-get install python-setuptools python-dev build-essential 

Nyní je nainstalována easy_install. Spuštěním níže uvedeného příkazu nainstalujte pip

sudo easy_install pip

Krok 3) K instalaci NLTK použijte následující příkaz

sudo pip install -U nltksudo pip3 install -U nltk

Instalace NLTK přes Anaconda

Krok 1) Nainstalujte si prosím anakondu (kterou lze také použít k instalaci různých balíčků) na adrese https://www.anaconda.com/products/individual a vyberte, kterou verzi pythonu musíte pro anakondu nainstalovat.

Poznámka: Podrobný postup instalace anakondy najdete v tomto výukovém programu

Krok 2) Ve výzvě Anaconda

  1. Zadejte příkaz
    conda install -c anaconda nltk
  2. Zkontrolujte upgrade, downgrade, informace o instalaci balíčku a zadejte ano
  3. NLTK je stažen a nainstalován

Datová sada NLTK

Modul NLTK má k dispozici mnoho datových sad, které si musíte stáhnout, abyste je mohli používat. Odborněji se tomu říká korpus . Některé příklady jsou stopwords , gutenberg , framenet_v15 , large_grammars atd.

Jak stáhnout všechny balíčky NLTK

Krok 1) Spusťte překladač Pythonu ve Windows nebo Linuxu

Krok 2)

  1. Zadejte příkazy
import nltknltk.download ()
  1. Otevře se okno Stahování NLTK. Kliknutím na tlačítko Stáhnout stáhnete datovou sadu. Tento proces bude nějakou dobu trvat, v závislosti na vašem připojení k internetu

POZNÁMKA: Umístění stahování můžete změnit kliknutím na Soubor> Změnit adresář stahování

Krok 3) Chcete-li otestovat nainstalovaná data, použijte následující kód

>>> from nltk.corpus import brown>>>brown.words()

['The', 'Fulton', 'County', 'Grand', 'Jury', 'said',…]

Spuštění skriptu NLP

Budeme diskutovat o tom, jak bude skript NLP spuštěn na našem místním počítači. Na trhu existuje mnoho knihoven pro zpracování přirozeného jazyka. Výběr knihovny tedy závisí na přizpůsobení vašim požadavkům. Zde je seznam knihoven NLP.

Jak spustit skript NLTK

Krok 1) Ve svém oblíbeném editoru kódu zkopírujte kód a uložte soubor jako NLTKsample.py

from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)

Vysvětlení kódu:

  1. V tomto programu bylo cílem odstranit všechny typy interpunkce z daného textu. Importovali jsme „RegexpTokenizer“, což je modul NLTK. Odstraní veškerý výraz, symbol, znak, číselný údaj nebo cokoli, co chcete.
  2. Právě jste předali regulární výraz modulu „RegexpTokenizer“.
  3. Dále jsme tokenizovali slovo pomocí modulu „tokenize“. Výstup je uložen v proměnné "filterdText".
  4. A vytisknout je pomocí „print ().“

Krok 2) Na příkazovém řádku

  • Přejděte do umístění, kam jste soubor uložili
  • Spusťte příkaz Python NLTKsample.py

Zobrazí se výstup jako:

['Hello', 'Guru99', 'You', 'have', 'build', 'a', 'very', 'good', 'site', 'and', 'I', 'love', ' návštěva ',' vašeho ',' webu ']