どん底から這い上がるまでの記録

どん底から這い上がりたいけど這い上がれない人がいろいろ書くブログ(主にプログラミング)

MeCab

スポンサーリンク


インポート

import MeCab

インストール

Ubuntu

> sudo apt install aptitude
> sudo aptitude install mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils file
> pip install mecab-python3

Google Colaboratory

> !apt install aptitude
> !apt install mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils file -y
> !pip install mecab-python3

分かち書き

sample = "今日はいい天気ですね。"
tagger = MeCab.Tagger("-Owakati")
result = tagger.parse(sample).strip()
print(result)

分かち書きの結果

今日 は いい 天気 です ね 。

名詞のみを取り出す

tagger = MeCab.Tagger("-Ochasen")
def tokenizer(sentence):
    tag = tagger.parseToNode(sentence)
    morphemes = []
    while tag:
        features = tag.feature.split(",")
        pos = features[0]
        if pos == "名詞":
            morphemes.append(tag.surface)
        tag = tag.next
    return morphemes

result = tokenizer(sample)
print(result)

結果

['今日', '天気']