3284714 ランダム
 HOME | DIARY | PROFILE 【フォローする】 【ログイン】

傀儡師の館.Python

傀儡師の館.Python

【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! --/--
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x

PR

Recent Posts

Calendar

Keyword Search

▼キーワード検索

Category

Archives

2024.06
2024.05
2024.04
2024.03
2024.02
2024.01
2023.12
2023.11
2023.10
2023.09

Freepage List

Profile

kugutsushi

kugutsushi

Free Space

設定されていません。
2006.10.18
XML
カテゴリ:ことばの処理
米エンロン社の電子メール150万通:その利用法(上)

エンロン社の電子メールがインターネット上に初めて出回ったのは2003年3月、米連邦エネルギー規制委員会(FERC)が、エンロン社の従業員176人が送受信した150万通以上の電子メールを公開したときのことだ。カリフォルニア州のエネルギー市場に対して同社が2000年に行なった市場操作に関する調査の一環として、FERCは電子メールを公表したのだ。


米エンロン社の電子メール150万通:その利用法(下)

学術機関に所属する研究者たちは、エンロン社のメールがまたとない公開データの宝庫であることをすぐに理解した。社会的ネットワーク、情報分析、情報検索などに興味を持つ研究者にとって、利用価値の高いデータなのだ。


Introducing the Enron Corpus (pdf) を見ると、158 ユーザの 619,446 メッセージをクリーニングして、200,399メッセージ(1ユーザあたり757メッセージ) にしぼり分析を加えている。フォルダ構成やスレッドに目を向けていて興味深い。61.63%のメッセージがスレッドを構成していて、1スレッドあたり平均で 4.1 など。

データは、Enron Email DatasetProcessed Enron corpus (XML形式になっている)

Enron Emails で実際に検索ができる。また、exploring enron のように視覚化したサイトもある。


スパム・メールのフィルタリング状況をチェックするプロジェクトが発足

 エンロンの電子メール・メッセージには、普通ならなかなか入手できない私信やスパムが大量に含まれており、スパム研究には非常に役立つと、グラハム・カミング氏は述べている。

こうしたものを見るに付け、アメリカというのは、実におもしろい国だと思う。ちなみに上記のプロジェクトのページ SpamOrHam を見ると、SpamAssassin public corpusTREC 2005 Public Spam Corpus) Spam Corpus へのリンクもある。一般に、コーパスを作ることの重要性は、アメリカの方が日本に比べて相当に進んでいる。日本のコーパスはやっとまともに予算が付いて進み始めたというところだろうか。そのうち、この話題は扱おうと思う。

なぜにエンロンコーパスについて、今頃書いているかというと、メールの0.71~1.02%は「ただ消えて無くなる」~Microsoft研究者らが論文主な原因はスパムフィルター の記事が出ていたから。spam がどうのこうのという問題よりも、エンロンコーパスが使われていることに興味がいってしまった。

エンロン裁判で公開された典型的なビジネスメールの文面を集めたメール約1,700通が利用された。


マイクロソフトの論文: Addressing Email Loss with SureMail: Measurement, Design, and Evaluation

Microsoft Research を見ると、マイクロソフトって今や研究機関としても、すごいものになっているなと改めて感じる。この15年の間に淡々と研究機関としての人と実力を蓄えている。これらの研究がすべて製品に活かされて利益を上げているかというと、そうでもないとは思うが研究機関としてはかなりの規模になっている。かつてのゼロックスのパロアルト研究所のように、マイクロソフトが取りこぼしてしまったものから次世代のおもしろいものが出てくる可能性もあるかもしれないななどとふと思った。ちょうど15年なのね







お気に入りの記事を「いいね!」で応援しよう

Last updated  2006.10.18 07:28:47
コメント(0) | コメントを書く
[ことばの処理] カテゴリの最新記事



© Rakuten Group, Inc.