next up previous
Next: 4 課題5 Up: 2005年度情報処理II     第12回 まとめ Previous: 2 課題3

3 課題4

課題文は http://nalab.mind.meiji.ac.jp/~mk/syori2-2005/jouhousyori2-2005-07/node6.htmlにあります。

前半 (文字の出現頻度) については、 複数のテキストについて、 出現頻度の上位 5 つくらいまでを並べた表を作って、 それを参照しつつ論じるというのが一つの解答ルートでしょう。

80day10.txt etaon
aesop11.txt etaoh
alad10.txt etaio
alice29.txt etaoh
anne11.txt etaon
frank11a.txt etaon
hfinn10.txt etoan
moon10a.txt etoai
sawy210.txt etaon
sawy311.txt etaon
sawyr10.txt etoan
wizoz10.txt etoah

のような表を作れば (ちなみにこの表は半自動的に作りました)、 何か言えそうだと分かるでしょう。

filter ディレクトリィにある 12 個の小説のテキスト・ファイルでは、 いずれも e の出現頻度が 1 位, t の出現頻度は 2 位. 3 位は大抵 a であり、テキストによっては o であるが、 その場合も a は 4 位に入っている、くらいは言えそうです。

全部混ぜて測ってみるとどうだろう?と思ったら
oyabun% cat *.txt | ./hindo | sort -n -r +1 | head -5
e: 362970 (12.2%)
t: 268142 ( 9.0%)
a: 233099 ( 7.8%)
o: 225494 ( 7.6%)
n: 203841 ( 6.8%)

これを見ると、a と o はコンマ以下の争いで逆転が起こることもうなずけます。

出現頻度の平均や分散を調べるのも良いかもしれません。

単語についても同じような調子で調べてみるわけです (省略します)。


next up previous
Next: 4 課題5 Up: 2005年度情報処理II     第12回 まとめ Previous: 2 課題3
Masashi Katsurada
平成20年10月18日