next up previous
Next: A. テキスト・ファイル (2) Up: 1999年度情報処理II     第6回 テキスト・ファイル (2) Previous: 1.3 awk

2 レポート課題

〆切は 6 月末日。

課題5
英文中のアルファベットの出現頻度は `e' が一番高く、その次は、、、な どと言われ、古典的な推理小説の暗号の話の種になったりしている。 Gutenberg Project の中のテキストで、そのことを確かめて見よ。手作業では なく、なるべくコンピューターにやらせること。テキストごとに大きな違いが あるか? 文字が別の記号に置き換えられた場合、出現頻度情報から解読するこ との可能性について考えよ (要するに他の文字の出現頻度はどの程度まで一定 しているのか調べる)。なお、文字の頻度を調べる hindo.c というプロ グラムを用意した。(このプログラムは文字の出現頻度順には表示しないが、 sort を使えば簡単に頻度順に並べられる。どうすればいいか?)
   cc -o hindo hindo.c
   cat hindo.c | hindo
テキスト、あるいは作家ごとに単語の使用頻度の癖のようなものがあると思 われるが、そのことを Gutenberg テキストで実際に調べてみよ。ルイス・キャ ロルとマークトウェインの書いたものにどの程度の差があるか?

また、できれば ~re00018/syori2/text2/ にあるテキスト・ファイ ル以外のテキストを探して入手し (その方法も説明せよ)、同じような解析を 行なえ。

研究課題4
今回はすべて英語のテキストであった。日本語のテキスト処理にはどういう 問題があり、どのように対応されているか調べよ。できれば自分でも実際に何 か処理をしてみた上で論ぜよ。


next up previous
Next: A. テキスト・ファイル (2) Up: 1999年度情報処理II     第6回 テキスト・ファイル (2) Previous: 1.3 awk
Masashi Katsurada
平成20年10月18日