英文中のアルファベットの出現頻度は `e' が一番高く、
その次は… などと言われ、
古典的な推理小説9の暗号10の話の種になったりしている。
Gutenberg Project の中のテキストで、そのことを確かめて見よ。手作業では
なく、なるべくコンピューターにやらせること。テキストごとに大きな違いが
あるか? 文字が別の記号に置き換えられた場合、出現頻度情報から解読するこ
との可能性について考えよ (要するに他の文字の出現頻度はどの程度まで一定
しているのか調べる -- 実際に試してみると良いのだけど)。
なお、文字の頻度を調べる hindo.c というプロ
グラムを用意した。(このプログラムは文字の出現頻度順には表示しないが、
sort を使えば簡単に頻度順に並べられる。どうすればいいか?今回
説明した話の簡単な応用である。)
テキスト、あるいは作家ごとに単語の使用頻度の癖のようなものがあると思
われるが、そのことを Gutenberg テキストで実際に調べてみよ。ルイス・キャ
ロルとマークトウェインの書いたものにどの程度の差があるか?
また、できれば ~re00018/gutenberg/ に
あるテキスト・ファイル以外のテキストを探して入手し (その方法も説明せよ)、
同じような解析を行なえ。