636421 ランダム
 ホーム | 日記 | プロフィール 【フォローする】 【ログイン】

神戸辺り、たゆたう時間

神戸辺り、たゆたう時間

【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! --/--
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x

PR

プロフィール

Ahojin

Ahojin

フリーページ

カレンダー

カテゴリ

2006年02月24日
XML
カテゴリ:カテゴリ未分類
シーサーブログで、サーバー障害発生、とかいうニュースもあり、そろそろバックアップを真剣に考えないといけませんね。
そもそも、楽天広場にはエクスポート機能はないので、バックアップを取るには自分でなんとかしなければなりません。
ま、ブログ乗り換えの時には、前のブログのことはきれいさっぱり忘れて心機一転、という方もいらっしゃるようですが、いくら駄文の固まりとは言え、約30年ぶりに付け始めた日記です。人様には価値はなくとも、私には大事な記録です。

ということでバックアップをなんとか自前でやろう、と思い立ちました。
日記の各ページはwgetとかでばばばっと取得してしまえばいいのであっと言う間なのですが、いかんせんこれでは再利用できません。
 ・楽天広場のサーバーが吹っ飛んだ時
 ・別のブログに乗り換える時
に利用できる形にデータを整えておく必要があります。
そこで、以下の項目だけを抽出して、ためておくことにしました。

  • 投稿日
  • カテゴリ
  • タイトル
  • 本文

さしあたり、これだけあればいいかな。
まずはダウンロードしたhtmlファイルを調べると、

  1. まず最初に山のようなヘッダ情報。400行もある。
  2. 私のページデザインの場合、続けて左ペインが100行ちょっと。

  3. <a name="200602210000"></a>
    というあたりからようやく日記が始まる。
    (楽天広場で使えるタグの関係上、一部は全角文字で書いています)
    (この場合、2/21の1件目の記事)
  4. その直後の
    <TABLE border="0" cellpadding="0" cellspacing="0" width="100%"><TR><TD>
    というのに続いて、タイトル。

  5. <div class="cate_list">
    に続くのが、カテゴリ。[]で囲まれている。
  6. 2行ほど後の
    <DIV class="lo">
    に続くのが本文。
    本文の終わりは分かりにくいけど、
    <!-- --><br clear="all">
    というのを見つければいいのかな?

というルールに従って、必要部分だけを抽出するスクリプトを書けばiいい訳だ。

あ、この調査結果はあくまで私のブログ用なので、他のデザインのブログでは違っているかも知れません。あしからず。





お気に入りの記事を「いいね!」で応援しよう

最終更新日  2006年02月24日 08時54分11秒


お気に入りブログ

天皇杯2回戦 神戸2-… mumumu_visselerさん

コメント新着

ice@ Re:[Vissel][blog] 終わりに当たって(12/02) お疲れさまでしたm(__)m J1に直ぐ戻らなく…

© Rakuten Group, Inc.