3291714 ランダム
 HOME | DIARY | PROFILE 【フォローする】 【ログイン】

傀儡師の館.Python

傀儡師の館.Python

【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! --/--
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x

PR

Recent Posts

Calendar

Keyword Search

▼キーワード検索

Category

Archives

2024.07
2024.06
2024.05
2024.04
2024.03
2024.02
2024.01
2023.12
2023.11
2023.10

Freepage List

Profile

kugutsushi

kugutsushi

Free Space

設定されていません。
2003.05.05
XML
カテゴリ:ことばの処理
ACADEMIC RESOURCE GUIDE は、おもしろいし役に立つなぁ。ここで知ったのだが、平成15年度国立情報学研究所オープンハウス というのが 5月27日に開かれるのだな。「量子コンピュータの最前線」ってなんだか分からんがおもしろそうだな。で、さらに国立情報科学研究所のサイトを見てみると、学術情報データベース実態調査報告書なんておもしろげなものが見つかった。大学Webサイト資源検索(JuNii大学情報メタデータ・ポータル試験提供版)の公開なんてのもあるな。いいことだ。ちなみに大学Webサイト資源検索から「形態素解析」で検索してみたけど、0件。「構文解析」0件。「自然言語処理」だとかろうじて4件。「コーパス」5件。こういうので、簡単に論文を探して大学関係者でなくても、一般人が気軽に論文を読めるようになるとすばらしいのだが...。まあ、こういうのは、あちこちで重複投資になっているところがあるだろうから、無駄金使ってまぁというところもあるが、こういう動き自体はいいことだと思う。

○ アリスのぶつ切り その1

とりあえず、昨日、 ルイス・キャロルの『不思議の国のアリス』(Alice’s Adventures in Wonderland) を題材に、遊んでみることにきめた。で、この翻訳については「あらゆる形で自由に利用・複製が認められる。」ということなので、著作権表示を明確に入れ、形態素解析や係り受け解析にかけてギタギタに刻んでみることにした。というわけで、当分の間、アリスのぶつ切りということで進めてみようと思うが、なにせ思いつきなので、途中で気が変わるかもしれん。

で、まあ怖い者知らずというのだろか...。「何をしてもいいとはいえ、一応翻訳のプロジェクトなので、原文を大幅に変えるようなものはその旨明記しておくこと。ここらへんの「大幅」とかの解釈は、もちろんかなり裁量が入ってはくる。」で、原文を刻むだけで変更するわけではないので、まあいいかなと。まあ、クレームが入ったら途中でごめんなさい引っ込める(^^;; ということで、これからの日記にしばし、翻訳が引用されることになるが、氏の翻訳の労および、このような形で公開していることに対して謝意を示すとともに、「刻ませていただく」ことを宣言しておく。たぶん、こんな言葉使うから解析こけるんじゃん、ダメじゃん程度のことは書くだろうが、悪意はないのだ。ひらがななんか使うから解析こけるんじゃん、漢字使って訳してくれよぐらいのことはまあ、たぶん、平気で書くことになるだろう(笑)。さらっと見た感じ、どういう基準で漢字を使ったり、ひらがなをつかったりというのがいまいちわからんかった。文学や感性ってのは、実にあつかいにくいやっちゃ。

なお、翻訳文を直接引用した箇所については、基本的に「このような形で緑色で記述する」こととし、分かち書きしたものに関しては、原文を別途載せてある限り特に色を変えることはしない。

後日の日記には、このページへのリンクを張っておくことにでもするかな。で、めんどうなことはこの程度にしておく。まあ、一応仁義を切っておこうかと(笑)。ついでといってはなんだが、普段、日本語形態素解析器 MeCab やその辞書 IPADIC などについても、ダメじゃんとか書くことがあるが、これは基本性能を否定するわけではなく、基本性能を認めた上で、ここがいかんのじゃないかというのをただ書いているだけなので誤解のなきよう。その筋の方なら、そのあたり分かっていただいているものかと思うが、非常に感謝して使わせていただいているわけなのだ。最近、悪いところばかり引きずり出していたので、念のため。よく分かっていない人が読んで、ダメなんだと思われちゃうと申し訳ないし。あぁ、私は、なんて小心者なんだ。

でもって、まずは、人工無能用に最終的には利用できないかなぁというのがあるので、発話の部分だけを抜き出してしまうことにする。ここでの発話の定義は、開きカッコ”「”と、閉じるカッコ”」”の間に挟まれている文字列をさすことにする。うまいこと、カッコが対応しているものだけだといいのだけど、まあ、やってみるのだ。

さらに、この前段階として、空白(スペース、タブ、改行等)以外の文字列のうち、 ”。””!””?”を区切り文字として区切った単位を文として、文の単位に切り分けたリストを作成しておくことにする。

面倒なのは、
「ええ、『えらい小さなハチさん』を暗唱しようとしたんですけれど、ぜんぜんちがったものになっちゃったんです!」
のようなパターンと、「アリスはうでを組んで、暗唱をはじめました。* * * * *『ウィリアム父さんお歳をめして』とお若い人が言いました。 の区別。つまり、『えらい小さなハチさん』 は、詞?の題名を指している『二重括弧』なのだけど、『ウィリアム父さんお歳をめして』は、発話中に含まれる発話だから『二重括弧』になるのだな。で、この場合は本来「一重カッコ」と同じ扱いにして、会話として取り出すという手もあるのだけど、面倒なのでその辺は適当にするかな。

ということで、前書きで今日は終わってしまった。



『不思議の国のアリス』の翻訳の著作権について

ルイス・キャロルの『不思議の国のアリス』(Alice’s Adventures in Wonderland) の翻訳については、山形浩生氏の訳を利用させていただきました。翻訳の著作権表示は次のとおりです。



(c) 1999 山形浩生
本翻訳は、この版権表示を残す限りにおいて、訳者および著者にたいして許可をとったり使用料を支払ったりすることいっさいなしに、商業利用を含むあらゆる形で自由に利用・複製が認められる。(「この版権表示を残す」んだから、「禁無断複製」とかいうのはダメだぞ)

プロジェクト杉田玄白 正式参加作品。詳細はhttp://www.genpaku.org/を参照のこと。


(c) 2003 傀儡師
本日記の山形浩生氏訳『不思議の国のアリス』の翻訳引用を含むすべてのページの記述については、この版権表示および翻訳に関する上記、山形氏の著作権表示を残す限りにおいて、著者および翻訳者にたいして許可をとったり使用料を支払ったりすることいっさいなしに、商業利用を含むあらゆる形で自由に利用・複製を認められる。


って、まあ、この日記自体をどうこうしようとする人はいないだろうけど(笑)、翻訳文との関係で、一応記述しておくことにした。翻訳を含むページには、次の印をつけておくことにしようかな。copyright
(なお、この画像は 海のフリーそざい かいようそざいしつの素材を使わせていただきました)。





お気に入りの記事を「いいね!」で応援しよう

Last updated  2006.09.11 23:39:01
コメント(0) | コメントを書く
[ことばの処理] カテゴリの最新記事



© Rakuten Group, Inc.