網迫の電子テキスト新着情報

よくある誤認識

類推して読むために

《へへへへへ》……傍点を「へ」と読んでいる。私のOCRでは、ルビは漢字にしか付かないので、無関係な文字列に《へへへへ》を付けてしまうので、自動的に修正することが出来ない。

《  》……傍点などを空白としてしまう。

Σ……「ゝ」 踊り字は認識辞書に登録しても、なかなか読んでくれません。

i・1……「――」を読み間違う。

二ハ……「一六」を読み間違う。

一二一……「二三」。これは一例で、「一二三」の縦書きは期待できない。「(一」を「二」と読むことも多い。「昭和元年(一九二六年)」を「昭和元年二九二六年)」などと。

短い文字列の行が続くときは、段組を勘違いしている可能性があります。


Copyright (c) 1997-2020 Rakuten, Inc. All Rights Reserved.