E2JFormatHelper
.Net Framework 2.0 必要。使用は自己責任で。
搭載済み機能
- ダウンロードした@wikiバックアップファイルから邦訳部分だけを抜き出す。
搭載予定機能
- 翻訳状態集計(各ページに書式を決めて)
- 見出しページ出力。
- @wikiバックアップファイルを壊さずに、邦訳部分の未訳名詞を対訳テーブルを使って置換する。
pdfからテキスト抽出するためのメモ
- pdfからテキストで保存すると余計な情報が入る&欠損するページが出るので、ctrl+Aで全テキストを選択してコピー&ペースト。
- 秀丸でshift-jisで保存しようとするとUNICODE周りで何度か怒られるので、順次置換。
- -→─
- -→─
- 購入者IDを削除
- [fiスペース]を[fi]に置換(英語ってfiで終わる単語がないからテキストがそのまま使えないようにわざと置き換えてある)。
- [flスペース]を[fl]に置換(英語ってflで終わる単語がないからテキストがそのまま使えないようにわざと置き換えてある)。
- [’sスペース]を['sスペース]に置換(読む分には問題ないが翻訳がコケることがある)。
- [’s改行]を['s改行]に置換(読む分には問題ないが翻訳がコケることがある。本当は改行じゃなくてスペースがいいかも)。
[スペースthe改行アルファベット大文字か数字]の改行を削除。翻訳ソフトが正しく分を区切りやすい。秀丸席表現:スペースthe\n([A-Z0-9])→ theスペース/1囲み記事で構成が崩れるページがあるので、改行がらみは結局1ページづつ見ないと無理だった。
- リストをwiki書式に置換
- GtSA:行頭[Dスペース]を- に
- Dragonewts:行頭[Aスペース]を-に。これキツい。冠詞Aで始まる行もあるから目視が必要。
秀丸正規表現:^Aスペース([A-Z0-9])→-\1
memo:1ページ内の構成を整えてから改行含みの処理をするマクロ作ると作業が速いかも。参加者が増えて自動翻訳投入速度を増やす必要があれば組もう。
管理人の作業の流れ
- pdfからテキストを取り出す。まず最低限の整形
- ページごとに文章の流れをチェック。間違っている場合は組みなおし。
- 改ページ位置を決めて1ページづつ自動翻訳にかける。ここで文字の処理ミスや段落ミスにも気づくので、この作業が全ページ一括でできない。まあ、実際は少しづつ確定させていかないと、果てしない作業にくじけるw
- wiki書式に補正してwikiに掲示。
- wikiからバックアップファイルをダウンロード。
- バックアップファイルからE2JFormatHelperで邦訳ファイルを生成。
- 邦訳ファイルから秀丸で未訳単語を抽出。ここで改行ミスや>忘れなどに気づくのでwikiを補正。
- わかる単語に訳語をつけ、わからない単語をググる。
- 訳語がついたものを辞書登録。対訳wikiにも登録。
- 訳語がつかないものを未訳語に登録。対訳wikiにも登録。
- 訳語がついたものをwikiデータに置換(予定/現在@wikiに機能がないので運営側に要望中)。
- 未訳語/対訳wikiと辞書ファイルをマッチング。差分を双方に反映。
とりあえずここまでの作業は読めた。このあとどうなるのか不明。
最終更新:2008年01月07日 18:12