課題文は http://nalab.mind.meiji.ac.jp/~mk/syori2-2005/jouhousyori2-2005-07/node6.htmlにあります。
前半 (文字の出現頻度) については、 複数のテキストについて、 出現頻度の上位 5 つくらいまでを並べた表を作って、 それを参照しつつ論じるというのが一つの解答ルートでしょう。
80day10.txt
etaon
aesop11.txt
etaoh
alad10.txt
etaio
alice29.txt
etaoh
anne11.txt
etaon
frank11a.txt
etaon
hfinn10.txt
etoan
moon10a.txt
etoai
sawy210.txt
etaon
sawy311.txt
etaon
sawyr10.txt
etoan
wizoz10.txt
etoah
のような表を作れば (ちなみにこの表は半自動的に作りました)、
何か言えそうだと分かるでしょう。
filter ディレクトリィにある 12 個の小説のテキスト・ファイルでは、 いずれも e の出現頻度が 1 位, t の出現頻度は 2 位. 3 位は大抵 a であり、テキストによっては o であるが、 その場合も a は 4 位に入っている、くらいは言えそうです。
全部混ぜて測ってみるとどうだろう?と思ったら
oyabun% cat *.txt | ./hindo | sort -n -r +1 | head -5 e: 362970 (12.2%) t: 268142 ( 9.0%) a: 233099 ( 7.8%) o: 225494 ( 7.6%) n: 203841 ( 6.8%) |
出現頻度の平均や分散を調べるのも良いかもしれません。
単語についても同じような調子で調べてみるわけです (省略します)。