Označování vět
Označování věty v širším smyslu označuje přidání označení slovesa, podstatného jména atd. V kontextu věty. Identifikace POS tagů je složitý proces. Generické značení POS tedy není možné ručně, protože některá slova mohou mít různé (nejednoznačné) významy podle struktury věty. Převod textu ve formě seznamu je důležitým krokem před tagováním, protože každé slovo v seznamu je zacykleno a počítáno pro konkrétní tag. Přečtěte si níže uvedený kód, abyste tomu lépe porozuměli
import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))
VÝSTUP
[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]
Vysvětlení kódu
- Kód pro import nltk (Sada nástrojů pro přirozený jazyk, která obsahuje dílčí moduly, jako je tokenizace vět a tokenizace slov.)
- Text, jehož tagy mají být vytištěny.
- Tokenizace věty
- Je implementována smyčka For, kde jsou slova tokenizována z věty a tag každého slova je vytištěn jako výstup.
V korpusu existují dva typy POS taggerů:
- Na základě pravidel
- Stochastické označovače POS
1. Označovač POS založený na pravidlech : U slov, která mají dvojznačný význam, se uplatňuje přístup založený na pravidlech na základě kontextových informací. Provádí se to kontrolou nebo analýzou významu předchozího nebo následujícího slova. Informace jsou analyzovány z okolí slova nebo z jeho samotného. Proto jsou slova označována gramatickými pravidly konkrétního jazyka, jako jsou velká písmena a interpunkční znaménka. např. Brill's tagger.
2. Stochastic POS Tagger: V rámci této metody se používají různé přístupy, jako je frekvence nebo pravděpodobnost. Pokud je slovo v tréninkové sadě většinou označeno konkrétním tagem, pak je ve zkušební větě daný konkrétní tag. Slovo tag je závislé nejen na svém vlastním tagu, ale také na předchozím tagu. Tato metoda není vždy přesná. Dalším způsobem je výpočet pravděpodobnosti výskytu určité značky ve větě. Výsledná značka se tedy vypočítá kontrolou nejvyšší pravděpodobnosti slova s konkrétní značkou.
Skrytý Markovův model:
Problémy s označováním lze také modelovat pomocí HMM. Považuje vstupní tokeny za pozorovatelnou sekvenci, zatímco značky jsou považovány za skryté stavy a cílem je určit sekvenci skrytých stavů. Například x = x 1 , x 2 ,…, x n, kde x je posloupnost tokenů, zatímco y = y 1 , y 2 , y 3 , y 4 ... y n je skrytá posloupnost.
Jak funguje model HMM?
HMM používá distribuci spojení, která je P (x, y), kde x je vstupní sekvence / sekvence tokenu a y je sekvence značek.
Pořadí značek pro x bude argmax y1… .yn p (x1, x2,… .xn, y1, y2, y3,…). Značky jsme kategorizovali z textu, ale statistiky těchto značek jsou zásadní. Další část tedy počítá tyto značky pro statistické studium.