ayaniimi213
4/16/2011 - 2:50 PM

卒論の学生調査書の単語ベースの頻度解析

卒論の学生調査書の単語ベースの頻度解析

#/bin/bash

# 卒論の学生調査書の単語ベースの頻度解析
# $Id:$

# SETTINGS
WGET=wget
ESSAY_HOME=http://portal.fun.ac.jp/course/graduationStudy/2011/JP/essay.html
DL_ESSAY=./portal.fun.ac.jp/*/essay.html
W3M=w3m
CHASEN='chasen'
CHASEN_OPTION='-j -F "%H:%M\n"'
CHASEN_OPTION='-j -r /usr/local/share/chasen/dic/ipadic/chasenrc -F \"%H:%M\n\"'
WC=$HOME/ruby/word_count.rb
OUTPUT_FILE='grad2011-words.txt'

# get html
$WGET -r -l2 $ESSAY_HOME

# analyze
$W3M -dump $DL_ESSAY | \
$CHASEN $CHASEN_OPTION | \
ruby -r 'jcode' -nle 'scan(/^.*名詞:(.*)/){print $1 if ($1.length > 2)} if /.*名詞.*/' | \
$WC | sort -nr -k 2 > $OUTPUT_FILE