創屋ぷれす

ngramとは

ngramとは

自然言語処理の手法です。

文章を「単語」で区切って、単語を頭からn個ずつ取ります。
頭を一つずつずらして、n個取ります。
こうやって文章を分割して、文脈を探っていきます。

n個ずつなので、n-gram、
1個なら uni-gram
2個なら bi-gram
3個なら tri-gram
と言います。

英文は、書く時に既に単語で区切って書くし、
助詞(私・は~、何々・が~)が単語に含まれているから、
n個の単語の塊は、極端に不自然にはならないけど、
日本語って、助詞から始まるn個の塊の場合、意味が分からんものになりますね。

ngramの使われ方は「素性」を明らかにすること。
※「すじょう」ではありません、「そせい」=本来の性質です。

この単語のそばには、必ずこの単語が出現します とか、
規則性があるので、同じ表記でも読み方や意味が違う単語の
本当の意味が分かるわけです。

ミミズが這ったような読めない字でも、前後の文脈で読み解く。みたいな感じ。

創屋のホームページはこちらから

Comments are closed.