4064397 ランダム
 ホーム | 日記 | プロフィール 【フォローする】 【ログイン】

【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! --/--
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x

PR

キーワードサーチ

▼キーワード検索

プロフィール

のりこ姉

のりこ姉

カレンダー

日記/記事の投稿

カテゴリ

バックナンバー

Nov , 2024
Oct , 2024
Sep , 2024

フリーページ

お気に入りブログ

#ハッシュタグキャン… New! PANDA LIFEさん

豚汁もらう。 noxtuti2さん

Kojiro*Web チワワ… koji*kojiさん
まめくらぶ イイタヌさん
ぴゅあ*どろっぷ まき*さん
Oct 11, 2010
XML
テーマ:私のPC生活(7434)
せっせと紙モノ電子化作業が進んでおります。今日は出版社目録。本屋で働いていた頃にもらって(仕事するのに多少役に立った)そのまま捨てられずにいたものたち。10年くらい前のものなんですが、今も店頭に並んでいる本たちが載っているので捨てるに捨てられず。目録って眺めてると楽しいので、電子化したらiPhoneで電車の中で読んじゃうかも~。

目録スキャン

まずは本をバラして切るところから。雑誌はそれほど厚さがなかったので割と簡単だったんですが、文庫サイズの目録は分厚くてちょっと大変でした。これ、やっぱり一発で切れる大きな裁断機(断裁機?)が欲しくなりますね。

なんとかペリペリと分解して切って、いよいよスキャン。

昨日と同じ「ファイン」「圧縮率4」でスキャンしてみたんですが、どうもテキスト認識率が悪い…。カラー設定を「グレー」や「白黒」にしてみたりしたんですが、文字が小さいのと、表組のようになっているのがいけないのかも。って思ったら、ScanSnapのドライバソフト(Mac版)は縦書きを認識しないみたいです。なんですと!

それならば、とAcrobatでテキスト認識させてみたら、縦書きは自動的に検出してくれるんですが、表組になってる複雑な構成なためかけっこういいかげん。画質は「スーパーファイン」「圧縮率3」というのが妥当な感じです。ちょっとデータ量が大きくなってしまうけれど、将来的にもっといいOCRソフトが使えるようになった場合にテキスト認識をやりなおせるように、高画質でスキャンしておくに越したことはないという結論になりました。

OCRソフト、Mac版ってどんどんなくなっちゃってるんですね。以前買ったe.Typist(Mac版)は認識率も高くて好きだったんですけど、ちっとも最新バージョンが出ないなぁと思っていたらWin版だけになっていたという。

AcrobatのOCR、レイアウトを指定したり、読み込んだものを手動で修正したりできたらいいのに。(私が使っているのはひとつ前のバージョン8Proなので、最新のものではできるのかもしれません)

ちなみに、昨日スキャンした雑誌類、テキスト認識できる設定にしてあると思い込んでいたんですが、最初のページのみ認識する設定になっていました。がーん。でも認識精度が悪いのでなんかもうそれでもいいやという気になりました。データが軽くなるし。Acrobatで目次ページと記事の最初の見出しページだけ認識させてみました。これで十分かも。

で、今日読み込んだ目録は、全文を認識させると時間がかかる上に精度が悪くてしかもデータは重くなるだけなので、Acrobatで最後の索引のところだけテキスト認識させることにしました。

(参考記事)
Mac mini その6・MacでOCR(わなびざうるす)
Macの泣き所、OCRソフトウェア(Piyomaru Software)
ScanSnap S1500 の「OCR テキスト認識」に関する 15 の真実(彼女からは、おいちゃんと呼ばれています)
MacでのOCRがグッと楽に「ScanSnap S1500M」(ASCII.jp)

出版社目録、本物の文庫や新書と同じ紙とサイズなのでスキャンの練習というかテストするのにもってこいです。失敗しても(また書店でもらってくればいいので)惜しくないですしね。自分で買った文庫本、断裁しちゃってからやっぱり本のままとっておきたいと思っても後の祭りです。

スキャンするときに気をつけること。ページの順番を間違えないこと(基本)と、ページの角を三角に折ってある場合は元に戻しておくこと。途中で気付くとちょっと悲しいです。そのページだけあとからスキャンして編集することもできますが、面倒なので最初からやり直しちゃいました(うっかりしすぎな人)。

あと、昨日スキャンした雑誌は今日のよりも画質が低いです。雑誌類はそれでよかったんですが、文庫はもうちょっと高画質のほうがいいです(拡大して読む確率が高いし)。そんなこともあるので、機械的にスキャンしてしまわないで、大事なものはなるべくいろいろ試したあとにスキャンするほうがよさそうです。

電子化すると、パソコン画面とか、iPadとかで小さいサイズの文庫本でも拡大して読めるのがいいところかも。文庫マンガなんか高画質で読み込んでiPadで読んだら読みやすそうだと思いました。…見開きで読み込めないところが難点かな。そういう設定もできればいいのに(2ページずつ自動で見開きになるような)。


↑ScanSnapと断裁機。本格的に電子化作業するにはセットで買った方がいいです。私が使っているのはディスクカッター。大きい断裁機より手軽なので、薄いパンフレットや雑誌を切るのには便利。


テキスト庵 人気ブログランキング ブログランキング
にほんブログ村 犬ブログへ にほんブログ村 犬ブログ チワワへ Pet Links





お気に入りの記事を「いいね!」で応援しよう

最終更新日  Oct 12, 2010 10:59:53 AM
[PC・Mac・ネット・家電] カテゴリの最新記事



© Rakuten Group, Inc.
X