卒論の学生調査書の単語ベースの頻度解析(MeCab対応、Ruby2.1.0対応)
#/bin/bash
# 卒論の学生調査書の単語ベースの頻度解析
# $Id:$
# SETTINGS
YEAR=2014
WGET=wget
ESSAY_HOME=http://portal.fun.ac.jp/course/graduationStudy/${YEAR}/JP/essay.html
DL_ESSAY=./portal.fun.ac.jp/*/essay.html
W3M=w3m
MECAB='mecab'
MECAB_OPTION='--node-format="%H:%m\n" --bos-format="" --eos-format="" --unk-format="" --eon-format=""'
WC=$HOME/ruby/word_count.rb
OUTPUT_FILE="grad${YEAR}-words.txt"
# get html
${WGET} -r -l2 ${ESSAY_HOME}
# analyze
${W3M} -dump ${DL_ESSAY} | \
${MECAB} ${MECAB_OPTION} |\
ruby -nle 'print $_.split(/:/)[-1] if /.*名詞.*/ and !/.*代名詞.*/ and $_.split(/:/)[-1].length > 2' | \
${WC} | sort -nr -k 2 > ${OUTPUT_FILE}