|
カテゴリ:スクリプト
なんだかんだで、すっかり間があいてしまいましたが、シリーズもので課題も書いていたので、一応着地しておかないと、と思いまして、もう、忘れられているかもしれませんが。
で、 課題だったんですが、 1.改行が入ると、間伸びしてしまって不自然 2.文字コードがutf-8じゃないと文字化けで読み化けしてしまう で、次のようなスクリプトになりました。 longtalk.sh #!/bin/bash # usage ~/sh/longtalk.sh textfilename filename=$1 nkf -w ${filename} | awk -f ~/sh/kutenkaigyo.awk | while read line do echo ${line} echo ${line} | ~/sh/jtalk1.sh done $ which nkf と確認してやると、入っていたので、使いました。 nkf -w filename で、utf-8に変換して出力されます。utf-8の場合は、そのまま出力。 kutenkaigyo.awk BEGIN { FS="\n" RS="。" ORS = "。\n" } { gsub("\n", "") print } AWK使うのは、私が他のスクリプト言語が全く不自由なので、使ってるだけです。ちょこっと使うには簡単便利で、シェルスクリプトとも相性良いと感じているので。 gsub関数で、改行を無改行に置換、出力レコードセパレータに"。改行" これで、単なる改行は改行せず、句点で改行されます。 さあ、青空文庫から、小栗虫太郎の超難解長編探偵小説「黒死館殺人事件」を、いや無理だって、じゃ、久生十蘭の「魔都」で、いやいや、それも難しい漢字多すぎ、じゃ、夢野久作の名作「ドグラマグラ」でいやいやいや、なぜそんな奇書ばかり読ませる…。まあ、青空文庫は難しい漢字にはルビがふってあるので、ルビ付きは、漢字を消去するというようなスクリプトを、って、私の頭では、書けません。 お気に入りの記事を「いいね!」で応援しよう
Last updated
2018.03.19 23:46:03
[スクリプト] カテゴリの最新記事
|