Next: A. 古典 (文書) の電子化 Up: 情報処理II 第6回情報の電子化 (2) Previous: 1.3 awk

2. レポート課題5

〆切は 6 月末日。

課題5: 英文中のアルファベットの出現頻度は `e' が一番高く、その次は… などと言われ、古典的な推理小説⁹の暗号¹⁰の話の種になったりしている。 Gutenberg Project の中のテキストで、そのことを確かめて見よ。手作業ではなく、なるべくコンピューターにやらせること。テキストごとに大きな違いがあるか? 文字が別の記号に置き換えられた場合、出現頻度情報から解読することの可能性について考えよ (要するに他の文字の出現頻度はどの程度まで一定しているのか調べる -- 実際に試してみると良いのだけど)。なお、文字の頻度を調べる hindo.c というプログラムを用意した。(このプログラムは文字の出現頻度順には表示しないが、 sort を使えば簡単に頻度順に並べられる。どうすればいいか？今回説明した話の簡単な応用である。)
$\begin{itembox}[l]{\texttt{hindo.c} のコンパイルと使用例}\footnotesize\begin{tab... ...s06\% }\underline{\texttt{cat hindo.c \vert ./hindo}} \end{tabular}\end{itembox}$

テキスト、あるいは作家ごとに単語の使用頻度の癖のようなものがあると思われるが、そのことを Gutenberg テキストで実際に調べてみよ。ルイス・キャロルとマークトウェインの書いたものにどの程度の差があるか？
また、できれば ~re00018/gutenberg/ にあるテキスト・ファイル以外のテキストを探して入手し (その方法も説明せよ)、同じような解析を行なえ。

Next: A. 古典 (文書) の電子化 Up: 情報処理II 第6回情報の電子化 (2) Previous: 1.3 awk

Masashi Katsurada
平成14年5月30日