Next: 4 課題5 Up: 2005年度情報処理II 第12回まとめ Previous: 2 課題3

3 課題4

課題文は http://nalab.mind.meiji.ac.jp/~mk/syori2-2005/jouhousyori2-2005-07/node6.htmlにあります。

前半 (文字の出現頻度) については、複数のテキストについて、出現頻度の上位 5 つくらいまでを並べた表を作って、それを参照しつつ論じるというのが一つの解答ルートでしょう。

80day10.txt etaon aesop11.txt etaoh alad10.txt etaio alice29.txt etaoh anne11.txt etaon frank11a.txt etaon hfinn10.txt etoan moon10a.txt etoai sawy210.txt etaon sawy311.txt etaon sawyr10.txt etoan wizoz10.txt etoah
のような表を作れば (ちなみにこの表は半自動的に作りました)、何か言えそうだと分かるでしょう。

filter ディレクトリィにある 12 個の小説のテキスト・ファイルでは、いずれも e の出現頻度が 1 位, t の出現頻度は 2 位. 3 位は大抵 a であり、テキストによっては o であるが、その場合も a は 4 位に入っている、くらいは言えそうです。

全部混ぜて測ってみるとどうだろう？と思ったら

oyabun% cat *.txt | ./hindo | sort -n -r +1 | head -5 e: 362970 (12.2%) t: 268142 ( 9.0%) a: 233099 ( 7.8%) o: 225494 ( 7.6%) n: 203841 ( 6.8%)

これを見ると、a と o はコンマ以下の争いで逆転が起こることもうなずけます。

出現頻度の平均や分散を調べるのも良いかもしれません。

単語についても同じような調子で調べてみるわけです (省略します)。

Next: 4 課題5 Up: 2005年度情報処理II 第12回まとめ Previous: 2 課題3

Masashi Katsurada
平成20年10月18日

80day10.txt	etaon
aesop11.txt	etaoh
alad10.txt	etaio
alice29.txt	etaoh
anne11.txt	etaon
frank11a.txt	etaon
hfinn10.txt	etoan
moon10a.txt	etoai
sawy210.txt	etaon
sawy311.txt	etaon
sawyr10.txt	etoan
wizoz10.txt	etoah