つづき
5.移行作業の効率化
バタイユゲーム情報班のホームページは、210ページある。その為、
個々のページを手動で変更するのでは、多大な時間がかかってしまう。
そこで、いつものPythonを使うことにした。要点を以下に示す。
(1)基本的な考え方
・機械的に変換できる箇所を対象とする。但し、多少の手動変更が
必要になる事はやむなし。
・HTML文として扱うのは難しいので、単なるテキスト文として処理する。
HTML用のツールでは、要素内の取り出しはできるが、要素の変換・追加
などを行うのが難しい(調査不足かもしれないが・・・)。
・1つのプログラムで何でも対応するのではなく、個々の場合に応じて
複数のプログラムを作る。→全部で5つになった。
(2)プログラムソースの1例
Pythonプログラムソースを最後に示す(長いので)。
(3)プログラムの考え方メモ
(A)複数のSHTMLファイルを纏めて変換する。
(B)そのまま利用できる行は、余分な空白を削除する。
(C)定型文は、纏めてHTMLファイルにしてincludeして使う。
(D)項番の付いている行は、リストと見なせるのでリストタグを追加する。
例)1[全角空白] → <li class=”space1″>1. と変換する。
(E)【補足】を含む行は、その後は専用の処理をする。
(F)</p>か</div>を見つけたら、終了処理をする。
ファイルに依って、pかdivか手動で切替えて使い分ける。
(G)主な変換ルール
例1) [全角空白] 4つと<a → <li class=”space1″>1)
例2) 。<br><br> → 。</li>
例3) </a><br> → </a></li>
例4) こちら.pdf</a>。 → pdfファイルに纏めた。</a>
<個人的な感想>
手動変更もあったので、約2週間かかった(平均で1日2~3時間の作業)。
しかし、Pythonを使わなければ、5~6週間はかかったと思う。