著者がTeXを使って執筆した原稿を、DTPなどTeX以外のシステムで組み直さなければならないケースは多くあると思います。その際「TeXで作られたデータからどうやってテキストや図版を取り出せばよいのか……」と頭を悩ませた経験のある編集者の方も多いのではないでしょうか。
この文書が、TeXになじみのない方がTeX原稿を取り扱う際の指針となれば、幸いです。
直接開いて、コマンドを取り除く
TeXのソースファイルはテキストデータなので、そのままテキストエディターやWord・一太郎などのワープロソフトで開くことができます。地の文章とTeXのコマンド(\macro{xyz}のような形の文字列)が混在した状態ですが、注意深くコマンドを取り除いていけば、プレーンテキストにすることができます。
たとえばところどころに見出しが付く程度の簡単な文章ならば、TeXの心得がない方でもコマンドを見分けるのは難しくありません。
\textgt{一七}\\ あたかも一万年も生きるかのように行動するな。不可避のものが君の上にかかっている。生きているうちに、許されている間に、善き人たれ。 \textgt{一八}\\ 隣人がなにをいい、なにをおこない、なにを考えているかを覗き見ず、自分自身のなすことのみに注目し、それが正しく、敬虔であるように慮る者は、なんと多くの余暇を得ることであろう。
上の例ならば、コマンド「\textgt{…}//」を取り除いて.txtや.docとして保存し直せばOKです。仮に難しげな数式コマンド [1] が紛れ込んでいても、数が少なければ難なく処置できると思います。
TeXでコンパイルしてPDFを作る
もう少しデータが複雑になってくると、手作業でコマンドを取り除いていく方法は煩雑で危なくなってきます。
たとえば、章・節・項や数式の連番が関係する部分はプリントアウトとTeXのソースファイルとの間で目立って食い違う部分です。たとえば、
第1章 秋の俳句
1-1. 秋深き
1-2. 隣は何を
1-3. する人ぞ
のように連番見出しを含むTeXのデータを開いてみると、
\chapter{秋の俳句} \section{秋深き} \subsection{秋深き} \subsection{隣は何を} \subsection{する人ぞ}
のようなデータになっていたりします。「第1章」や「1-1.」などの連番が、文字データとしては保存されていません。TeXが章や節のコマンドをカウントして自動で連番を振っているためです。このようなデータでは、先ほどの単純にコマンドを取り除く方法では、不完全なテキストデータとなってしまいます。
こんなときテキストを取り出す方法としては
- TeXソースをコンパイルしてPDFに変換
- PDFからテキストを抽出
という手順が一般的かと思います [2] 。
TeXをコンパイルできる環境を持っている方 [3] にPDF化(さらにはPDFからのテキスト抽出)を依頼されるのがよろしいかと思います。
そして取り出したテキストデータですが、特殊な数学記号などは文字化けとなってしまう可能性が大です。これはゲタ文字としておいてInDesign等、本番の組版システム上で正しい文字に打ち替えていくしかないかと思います。
デジタルデータは二次利用が容易とよく言われます。これは大筋において正しいのですが、現実には、そうたやすくない場合も多いものです。
変換ツール
TeXのデータを他の形式のデータに変換するツールは、日々新たなものが公開されています。
代表的なツールはTeX Wikiによくまとめられています [4] ので、一度チェックしてみるとよいかと思います。
しかしほとんどのツールはTeXやコンピュータにかなり習熟した人を対象としたもので、簡単にインストールしてボタンをちょこちょこっとクリックすれば変換ができるような作りにはなっていません。
- たとえば「$E = mc^{2}$」や「$x_n$」のようなものです [↩]
- 実際の比率からいうと、こちらの方式でテキストを取り出すべきデータの方が多いように思います [↩]
- 普通は著者の方でしょうか。もちろん、当社にご依頼いただいても構いません [↩]
- http://oku.edu.mie-u.ac.jp/~okumura/texwiki/?%E5%A4%89%E6%8F%9B%E3%83%84%E3%83%BC%E3%83%AB [↩]