蔵書のデータを復旧
- 2011/11/28 15:35
- カテゴリー:マニアックなおはなし
先日,蔵書管理ソフトのトラブルと操作ミスから,貴重な蔵書リストが失われてしまい,管理をあきらめた事をここに書きました。
消えたのは自炊してPDFになった蔵書のリストで,これは7月2日までの登録分はWEBに存在していました。
ところが,どうもあきらめが付かないのです。
amazonから書誌情報を引っ張ってくることが出来なくなったということであきらめていたのですが,先日試してみると見事にamazonからデータを取ってくるじゃありませんか。
あのとき,蔵書の登録をしなければ,誤操作によるデータが消えることもなかったろうに・・・そんな風に思ったりもしましたが,それ以上に登録が出来るようになっていることが悔しいです。
7月2日(前回書いた7月23日というのは間違いでした)までのデータが,形式は別にして情報として残っているのですから,これを読み込めるように加工すればほとんど復活できます。7月2日以降の追加分はたかだか20冊から30冊ほどでしょうから,こんなのはあっという間に処理できます。
ということで,作戦を立てます。Books for MacOSXという蔵書管理ソフトはすでに開発が止まったソフトで,せっかくだから別のソフトへの移行も検討しましたが,今のところなんとか3.2.5dという最終バージョンで問題は出ていません。ですので引き続きこのソフトを使うことにしましょう。
また,このソフトはtab切りテキストをインポートする機能があるので,WEBの情報を変換できればなんとかなりそうです。
そして,ISBNコードをインポートできれば,あとはクイックフィルを使って開いたフィールドをamazonの情報で埋めることができるはずです。後で分かったことですが,このクイックフィルは一括で処理可能ですので,とにもかくにもISBNコードを吸い込むことが最大の関門です。
ただ,ISBNコードを持たない書籍のインポートが出来ないと困りますので,書籍名とISBNコードの2つをインポートできるようにしてみます。
Booksで作成したWEB用のデータベースは,書誌データが記されたhtmlファイルと,表紙の写真であるpngファイルは,書籍ごとにフォルダに分けられています。PDFなり紙で残しているものなり,リストを作って整理したものは,フィルタ済みの蔵書リストがhtmlで作られ,それぞれのフォルダに入ったhtmlファイルへのリンクとなっています。
残念な事に,PDFの蔵書のリストはリンクばかりが書かれているだけで,ISBNコードは書かれていないのです。そこで,リンクをたどってファイルをまとめて手に入れる,ダウンローダを使って一括で落とします。
ダウンロードした各htmlファイルはPDFになっている書籍の書誌情報を持っている訳ですから,これを全部連結します。
ここから先,perlを使うとか,Cで小さいプログラムをさくっと書けば一発で処理できることは分かっているのですが,ちょっと実行環境が用意出来ないので,置換能力の強力なエディタを駆使して,タイトルとISBNのタグを残して,あとは全部消去します。
この段階で大半のデータは正常に処理できたのですが,最終的に30冊ほどの情報が消えてしまいました。まあ全部で1200冊ほどある登録情報のうち30冊ですので,大したことはありません。
そしてこのファイルを書名-tab-ISBN-LFの順番で並べたテキストファイルに加工して,Booksでインポートします。幸い,上手くいったようです。そして一括でクイックフィルを行って,蔵書のデータをとりあえず完成させます。
あとは,地道に表紙の画像がないものは貼り付け,タイトルで文字化けしているものは修正し,ISBNが間違っているものは正しいものを入れて再度クイックフィル,そして最後に抜けている書籍を登録してWEB版の登録データと突き合わせ,数と内容に狂いがないことを確認します。
終わったら現在までに増えた書籍を登録して,再度確認。さらにPDFになっていない蔵書との重複を確認します。
作業は丸1日かかったのですが,登録ミスや重複が結構あり,これらが綺麗になったことで,大変スッキリしました。大変な手間がかかりましたが,それでもやっただけの価値はあったかなあと思うようにしましょう。
そして今度はちゃんとバックアップを取り,万が一の時に備えないといけないですね。TimeMachineも使う事を真面目に考えるべき時かも知れません。