この記事では自然言語処理について自分が勉強したことを書いた記事についてまとめていきます。
単語の切り出し作業
自然言語を用いて機械学習をするにはテキストから単語を切り出す作業が必要になります。その作業は形態素解析もしくはN-Gramが用いられます。
形態素解析
MeCab
N-gram
自然言語をベクトルにする
自然言語をベクトルに変換する方法について書いた記事。
Bag of Words
Bag of Wordsについて書いた記事。
TF-IDF
TF-IDFについて書いた記事。scikit-learnを使った実装例。
Word2Vec
gensimのWord2Vecの基本的な使い方について書いた記事。理論については説明していません。
GloVe
numpyで実装されたGloVeの使い方を説明した記事。理論については説明していません。
テキスト分類
自然言語をベクトルに変換したら、テキスト分類ができます。
Cosine Similarity
与えられたテキストの類似度を測る手法。
TF-IDFをもとにCosine Similarityを計算してみました。
Sparse Composite Document Vectors
Word2Vecから文書ベクトルSCDVを作り、それをもとにしたテキスト分類をやってみました。
Deep Learning
自然言語処理にDeep Learningを使ってみる。
言語モデル
seq2seq