V tomto výukovém programu se naučíte -
- Instalace NLTK ve Windows
- Instalace Pythonu do Windows
- Instalace NLTK v systému Mac / Linux
- Instalace NLTK přes Anaconda
- Datová sada NLTK
- Jak stáhnout všechny balíčky NLTK
- Spuštění skriptu NLP
- Jak spustit skript NLTK
Instalace NLTK ve Windows
V této části se naučíme, jak provést nastavení NLTK pomocí terminálu (příkazový řádek v systému Windows).
Pokyny uvedené níže vycházejí z předpokladu, že nemáte nainstalovaný python. Prvním krokem je tedy instalace pythonu.
Instalace Pythonu do Windows:
Krok 1) Go propojit https://www.python.org/downloads/ , a vybrat si nejnovější verzi pro Windows.
Poznámka : Pokud si nechcete stáhnout nejnovější verzi, můžete navštívit kartu stahování a zobrazit všechna vydání.
Krok 2) Klikněte na stažený soubor
Krok 3) Vyberte Přizpůsobit instalaci
Krok 4) Klikněte na DALŠÍ
Krok 5) Na další obrazovce
- Vyberte pokročilé možnosti
- Zadejte vlastní umístění instalace. V mém případě je pro snazší ovládání vybrána složka na jednotce C.
- Klikněte na Instalovat
Krok 6) Po dokončení instalace klikněte na tlačítko Zavřít.
Krok 7) Zkopírujte cestu ke složce Skripty.
Krok 8) V příkazovém řádku systému Windows
- Přejděte do umístění pip složky
- Zadejte příkaz k instalaci NLTK
pip3 install nltk
- Instalace by měla být provedena úspěšně
POZNÁMKA : Pro Python2 použijte commandpip2 install nltk
Krok 9) V nabídce Start systému Windows vyhledejte a otevřete PythonShell
Krok 10) Můžete ověřit, zda je instalace přesná, zadáním následujícího příkazu
import nltk
Pokud nevidíte žádnou chybu, instalace je dokončena.
Instalace NLTK v systému Mac / Linux
Instalace NLTK v systému Mac / Unix vyžaduje k instalaci nltk python správce balíčků python. Pokud pip není nainstalován, dokončete postup podle níže uvedených pokynů
Krok 1) Aktualizujte index balíčku zadáním níže uvedeného příkazu
sudo apt update
Krok 2) Instalace pipu pro Python 3:
sudo apt install python3-pip
Pip můžete také nainstalovat pomocí easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Nyní je nainstalována easy_install. Spuštěním níže uvedeného příkazu nainstalujte pip
sudo easy_install pip
Krok 3) K instalaci NLTK použijte následující příkaz
sudo pip install -U nltksudo pip3 install -U nltk
Instalace NLTK přes Anaconda
Krok 1) Nainstalujte si prosím anakondu (kterou lze také použít k instalaci různých balíčků) na adrese https://www.anaconda.com/products/individual a vyberte, kterou verzi pythonu musíte pro anakondu nainstalovat.
Poznámka: Podrobný postup instalace anakondy najdete v tomto výukovém programu
Krok 2) Ve výzvě Anaconda
- Zadejte příkaz
conda install -c anaconda nltk
- Zkontrolujte upgrade, downgrade, informace o instalaci balíčku a zadejte ano
- NLTK je stažen a nainstalován
Datová sada NLTK
Modul NLTK má k dispozici mnoho datových sad, které si musíte stáhnout, abyste je mohli používat. Odborněji se tomu říká korpus . Některé příklady jsou stopwords , gutenberg , framenet_v15 , large_grammars atd.
Jak stáhnout všechny balíčky NLTK
Krok 1) Spusťte překladač Pythonu ve Windows nebo Linuxu
Krok 2)
- Zadejte příkazy
import nltknltk.download ()
- Otevře se okno Stahování NLTK. Kliknutím na tlačítko Stáhnout stáhnete datovou sadu. Tento proces bude nějakou dobu trvat, v závislosti na vašem připojení k internetu
POZNÁMKA: Umístění stahování můžete změnit kliknutím na Soubor> Změnit adresář stahování
Krok 3) Chcete-li otestovat nainstalovaná data, použijte následující kód
>>> from nltk.corpus import brown>>>brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said',…]
Spuštění skriptu NLP
Budeme diskutovat o tom, jak bude skript NLP spuštěn na našem místním počítači. Na trhu existuje mnoho knihoven pro zpracování přirozeného jazyka. Výběr knihovny tedy závisí na přizpůsobení vašim požadavkům. Zde je seznam knihoven NLP.
Jak spustit skript NLTK
Krok 1) Ve svém oblíbeném editoru kódu zkopírujte kód a uložte soubor jako „ NLTKsample.py “
from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)
Vysvětlení kódu:
- V tomto programu bylo cílem odstranit všechny typy interpunkce z daného textu. Importovali jsme „RegexpTokenizer“, což je modul NLTK. Odstraní veškerý výraz, symbol, znak, číselný údaj nebo cokoli, co chcete.
- Právě jste předali regulární výraz modulu „RegexpTokenizer“.
- Dále jsme tokenizovali slovo pomocí modulu „tokenize“. Výstup je uložen v proměnné "filterdText".
- A vytisknout je pomocí „print ().“
Krok 2) Na příkazovém řádku
- Přejděte do umístění, kam jste soubor uložili
- Spusťte příkaz Python NLTKsample.py
Zobrazí se výstup jako:
['Hello', 'Guru99', 'You', 'have', 'build', 'a', 'very', 'good', 'site', 'and', 'I', 'love', ' návštěva ',' vašeho ',' webu ']