どん底から這い上がるまでの記録

どん底から這い上がりたいけど這い上がれない人がいろいろ書くブログ(主にプログラミング)

自然言語処理についてのまとめ記事

 

この記事では自然言語処理について自分が勉強したことを書いた記事についてまとめていきます。

単語の切り出し作業

自然言語を用いて機械学習をするにはテキストから単語を切り出す作業が必要になります。その作業は形態素解析もしくはN-Gramが用いられます。

形態素解析

MeCab

形態素解析のツールであるMeCabの紹介。

www.pytry3g.com

N-gram

www.pytry3g.com

自然言語をベクトルにする

自然言語をベクトルに変換する方法について書いた記事。

Bag of Words

Bag of Wordsについて書いた記事。

www.pytry3g.com

TF-IDF

TF-IDFについて書いた記事。scikit-learnを使った実装例。

www.pytry3g.com

Word2Vec

gensimのWord2Vecの基本的な使い方について書いた記事。理論については説明していません。

www.pytry3g.com

GloVe

numpyで実装されたGloVeの使い方を説明した記事。理論については説明していません。

www.pytry3g.com

テキスト分類

自然言語をベクトルに変換したら、テキスト分類ができます。

Cosine Similarity

与えられたテキストの類似度を測る手法。

TF-IDFをもとにCosine Similarityを計算してみました。

www.pytry3g.com