ScanSnapで文庫目録の電子化。

4064397
ホーム \| 日記 \| プロフィール	【フォローする】【ログイン】

【毎日開催】

15記事にいいね！で1ポイント

10秒滞在

いいね! --/--

次の日記を探す

おめでとうございます！
ミッションを達成しました。

※「ポイントを獲得する」ボタンを押すと広告が表示されます。

キーワードサーチ

▼キーワード検索

プロフィール

のりこ姉

フォローする

カレンダー

日記/記事の投稿

アメブロに引っ越します。
今はまだ電子書籍端末よりスマホ
koboアプリが健闘中
簡単ヘルシースイートポテト
二度目の腹痛。ぎゅるぎゅるチワワ

カテゴリ

我が家の出来事

(127)

バックナンバー

Nov , 2024
Oct , 2024

Sep , 2024

フリーページ

背景色付きフリーページ

お気に入りブログ

#ハッシュタグキャン… New! PANDA LIFEさん

豚汁もらう。 noxtuti2さん

Kojiro*Web　チワワ… koji*kojiさん
まめくらぶ イイタヌさん
ぴゅあ*どろっぷ まき*さん

< 新しい記事

新着記事一覧(全3261件)

過去の記事 >

Oct 11, 2010

テーマ：私のPC生活(7434)

カテゴリ：PC・Mac・ネット・家電

せっせと紙モノ電子化作業が進んでおります。今日は出版社目録。本屋で働いていた頃にもらって（仕事するのに多少役に立った）そのまま捨てられずにいたものたち。10年くらい前のものなんですが、今も店頭に並んでいる本たちが載っているので捨てるに捨てられず。目録って眺めてると楽しいので、電子化したらiPhoneで電車の中で読んじゃうかも～。

目録スキャン

まずは本をバラして切るところから。雑誌はそれほど厚さがなかったので割と簡単だったんですが、文庫サイズの目録は分厚くてちょっと大変でした。これ、やっぱり一発で切れる大きな裁断機（断裁機？）が欲しくなりますね。

なんとかペリペリと分解して切って、いよいよスキャン。

昨日と同じ「ファイン」「圧縮率４」でスキャンしてみたんですが、どうもテキスト認識率が悪い…。カラー設定を「グレー」や「白黒」にしてみたりしたんですが、文字が小さいのと、表組のようになっているのがいけないのかも。って思ったら、ScanSnapのドライバソフト（Mac版）は縦書きを認識しないみたいです。なんですと！

それならば、とAcrobatでテキスト認識させてみたら、縦書きは自動的に検出してくれるんですが、表組になってる複雑な構成なためかけっこういいかげん。画質は「スーパーファイン」「圧縮率３」というのが妥当な感じです。ちょっとデータ量が大きくなってしまうけれど、将来的にもっといいOCRソフトが使えるようになった場合にテキスト認識をやりなおせるように、高画質でスキャンしておくに越したことはないという結論になりました。

OCRソフト、Mac版ってどんどんなくなっちゃってるんですね。以前買ったe.Typist（Mac版）は認識率も高くて好きだったんですけど、ちっとも最新バージョンが出ないなぁと思っていたらWin版だけになっていたという。

AcrobatのOCR、レイアウトを指定したり、読み込んだものを手動で修正したりできたらいいのに。（私が使っているのはひとつ前のバージョン8Proなので、最新のものではできるのかもしれません）

ちなみに、昨日スキャンした雑誌類、テキスト認識できる設定にしてあると思い込んでいたんですが、最初のページのみ認識する設定になっていました。がーん。でも認識精度が悪いのでなんかもうそれでもいいやという気になりました。データが軽くなるし。Acrobatで目次ページと記事の最初の見出しページだけ認識させてみました。これで十分かも。

で、今日読み込んだ目録は、全文を認識させると時間がかかる上に精度が悪くてしかもデータは重くなるだけなので、Acrobatで最後の索引のところだけテキスト認識させることにしました。

（参考記事）
■Mac mini その６・MacでOCR（わなびざうるす）
■Macの泣き所、OCRソフトウェア（Piyomaru Software）
■ScanSnap S1500 の「OCR テキスト認識」に関する 15 の真実（彼女からは、おいちゃんと呼ばれています）
■MacでのOCRがグッと楽に「ScanSnap S1500M」（ASCII.jp）

出版社目録、本物の文庫や新書と同じ紙とサイズなのでスキャンの練習というかテストするのにもってこいです。失敗しても（また書店でもらってくればいいので）惜しくないですしね。自分で買った文庫本、断裁しちゃってからやっぱり本のままとっておきたいと思っても後の祭りです。

スキャンするときに気をつけること。ページの順番を間違えないこと（基本）と、ページの角を三角に折ってある場合は元に戻しておくこと。途中で気付くとちょっと悲しいです。そのページだけあとからスキャンして編集することもできますが、面倒なので最初からやり直しちゃいました（うっかりしすぎな人）。

あと、昨日スキャンした雑誌は今日のよりも画質が低いです。雑誌類はそれでよかったんですが、文庫はもうちょっと高画質のほうがいいです（拡大して読む確率が高いし）。そんなこともあるので、機械的にスキャンしてしまわないで、大事なものはなるべくいろいろ試したあとにスキャンするほうがよさそうです。

電子化すると、パソコン画面とか、iPadとかで小さいサイズの文庫本でも拡大して読めるのがいいところかも。文庫マンガなんか高画質で読み込んでiPadで読んだら読みやすそうだと思いました。…見開きで読み込めないところが難点かな。そういう設定もできればいいのに（２ページずつ自動で見開きになるような）。