どん底から這い上がるまでの記録

どん底から這い上がりたいけど這い上がれない人がいろいろ書くブログ(主にプログラミング)

NLP

gensimのWord2Vecを使ってみる。

gensimのWord2Vecの使ってみたので、そのメモ。 今回はWikipediaの文章を使ってやってみますが、すぐに学習結果を知りたかったので少ないデータで学習をしています。 スポンサーリンク // 環境 データの用意 ライブラリのインポート Wikipediaの記事をダウン…

PyTorch-NLPを使ってみる

PyTorch-NLPを使ってみました。 PyTorchを使って自然言語処理をするときに便利なライブラリ(※ただし、英語に限る。) 日本語を扱う場合はあまり使えないかもしれません。日本語の資料もないし… この記事ではPyTorch-NLPで日本語を扱うために自分が学んだこ…

gensimとPyTorchを使ったlive doorニュースコーパスのテキスト分類

NLP

今回はgensimとPyTorchを使ってニュース記事の分類をやってみます。 スポンサーリンク // 環境 データの用意 前処理 単語辞書を作る データの変換 ネットワークの定義 学習 テスト おわり 環境 Windows10 Python 3.6 PyTorch 0.2 gensim 2.3.0 MeCab データ…

Bag of Wordsについて書いてみる

NLP

Bag of Wordsについて書いてみます。 ほとんどの機械学習は入力として数値データを与えなければなりません。そのため、自然言語処理において自然言語で書かれたデータを何らかの形で数値に変換する必要があります。Bag of Wordsはそのための一つの方法になり…

RNNを使った文章の自動生成

NLP

今回はRNNを使った文章の自動生成をやってみます。 今回やりたいことは単語を学習したモデルに渡して、その単語から次の単語を予測。これを繰り返して文章を生成することです。 実装はPyTorchです。 RNNでの学習にはある程度の長い文章が必要になってくるの…

PyTorchを使ってSMSSpamCollectionの分類をしてみる。(2)

NLP

前回の続き、今回はTFIDFを使ってスパム分類をしてみる。 pytry3g.hatenablog.com 前準備 TFIDF Training 結果 コード 前準備 import argparse import codecs import string import numpy as np from nltk import word_tokenize from sklearn.feature_extrac…

UbuntuでMeCabを使ってみる

NLP

前回は最低限の設定をしたので今回はMeCabを使えるように設定していく。 pytry3g.hatenablog.com MeCab MeCabとは形態素解析(テキストから単語を切り出して、単語の役割を解析する技術)をするためのツールです。テキストを分析や処理を行うにはまずテキス…

PyTorchを使ってSMSSpamCollectionの分類をしてみる。

NLP

環境 前準備 データのダウンロード データの中身 データの前処理 データの分割 正規化 Bag of Words データの分割 Training ネットワークの定義 パラメータの設定 学習 Test 結果 コード 環境 python 3.6.2 Anaconda 4.3.27 Windows10 scikit-learn 0.19.0 n…