|
カテゴリ:ことばの処理
米エンロン社の電子メール150万通:その利用法(上)
米エンロン社の電子メール150万通:その利用法(下)
Introducing the Enron Corpus (pdf) を見ると、158 ユーザの 619,446 メッセージをクリーニングして、200,399メッセージ(1ユーザあたり757メッセージ) にしぼり分析を加えている。フォルダ構成やスレッドに目を向けていて興味深い。61.63%のメッセージがスレッドを構成していて、1スレッドあたり平均で 4.1 など。 データは、Enron Email DatasetやProcessed Enron corpus (XML形式になっている) Enron Emails で実際に検索ができる。また、exploring enron のように視覚化したサイトもある。 スパム・メールのフィルタリング状況をチェックするプロジェクトが発足
こうしたものを見るに付け、アメリカというのは、実におもしろい国だと思う。ちなみに上記のプロジェクトのページ SpamOrHam を見ると、SpamAssassin public corpus、TREC 2005 Public Spam Corpus) Spam Corpus へのリンクもある。一般に、コーパスを作ることの重要性は、アメリカの方が日本に比べて相当に進んでいる。日本のコーパスはやっとまともに予算が付いて進み始めたというところだろうか。そのうち、この話題は扱おうと思う。 なぜにエンロンコーパスについて、今頃書いているかというと、メールの0.71~1.02%は「ただ消えて無くなる」~Microsoft研究者らが論文主な原因はスパムフィルター の記事が出ていたから。spam がどうのこうのという問題よりも、エンロンコーパスが使われていることに興味がいってしまった。
マイクロソフトの論文: Addressing Email Loss with SureMail: Measurement, Design, and Evaluation Microsoft Research を見ると、マイクロソフトって今や研究機関としても、すごいものになっているなと改めて感じる。この15年の間に淡々と研究機関としての人と実力を蓄えている。これらの研究がすべて製品に活かされて利益を上げているかというと、そうでもないとは思うが研究機関としてはかなりの規模になっている。かつてのゼロックスのパロアルト研究所のように、マイクロソフトが取りこぼしてしまったものから次世代のおもしろいものが出てくる可能性もあるかもしれないななどとふと思った。ちょうど15年なのね。 お気に入りの記事を「いいね!」で応援しよう
Last updated
2006.10.18 07:28:47
コメント(0) | コメントを書く
[ことばの処理] カテゴリの最新記事
|