ashizawa
9/29/2011 - 5:37 PM

形態素解析した結果を数えるとか

形態素解析した結果を数えるとか

りすこがこんなの書いてて、聞いてみたら名詞だけ抜き出してcountとかやりたいとか。 そういう時はawk使うと便利ですよ(perlでもいいですが)

$ cat filename | awk '$4 ~ /^名詞/{print $1}' | sort | uniq -c | sort -n

4個目のカラムが「品詞」で始まる性質を使ってます。


あと、MeCabはライブラリなのでローカルに入れちゃうのも手です。 簡単なのはHomebrewを使える様にして (多分Xcode入れる必要があって、それがちょっとハードル高いかも)

$ brew install mecab mecab-ipadic

あとは解析したいファイルをhoge.txtとすると

$ mecab -Ochasen hoge.txt | awk '$4 ~ /^名詞/{print $1}' | sort | uniq -c | sort -n

みたいにやると、mecabのパラメータとかも自由自在なのでいい感じですねぇ。