青空文庫テキストの入力方法
蒋龍
このページは、青空文庫のテキストファイルを入力するマニュアルになっています。本家青空文庫の工作員マニュアルは、かなり肥大化している上、新しい作業方針を反映していない(別ページに情報が散ってしまっている)部分もあるため、このサイトではなるべくわかりやすく、必要な情報を見つけやすいように構成しています。気付いたことや間違い等ありましたら、ご連絡ください。
また、可読性を高めるために、別ページの画像版
とは一部文章や構成を変えています。
底本を参照していて、これはどのように入力すればいいのかわからない、という所があれば、このテキストの該当箇所を参照してください。
※青空文庫のテキストファイルを作成する方法に準拠していますが、間違いが含まれている場合や、方針が変更になった場合があるかもしれませんので、極力工作員マニュアルなども参照してください。
[#3字下げ]入力の際に気をつける点[#「入力の際に気をつける点」は大見出し]
もしかすると知らない人がいるかもしれないので最初に書いておきますが、底本で文章が折り返している所に一々改行を入れる必要はありません。改行を入れるのは底本で段落が変わっている所だけです(図参照)。また、行頭の一字下げのところには、全角スペースを入れます。半角スペースにならないようにしてください。
――また、←のような伸ばし棒(ダッシュ)も、−−やーー、--とは入力せず、――(全角ダッシュ二つ)として下さい。
……このような点線は底本によって表記が異なる場合がありますが、……(三点リーダー二つ)がもっとも一般的なものです。もし違うようでしたら、底本にあわせて‥‥(二点リーダー二つ)、・・
(全角の点二つ)などとしてください。
[#この項現在保留]
※ここには行頭の括弧の字下げや、「ケ」と「ヶ」の使い分けについての説明を掲載することを予定していましたが、現在青空文庫でこの点について非常にもめているようなので、現時点でこうしてくださいと明言は避けたいと思います。詳しくは「
「ケ」と見える文字をどう入力すべきか」や、「区点番号5-17と5-86の使い分けに関して」、また公式の工作員マニュアルを参照してください。
[#3字下げ]踊り字や外国語などの入力[#「踊り字や外国語などの入力」は大見出し]
次に、よく出てくる文字などの入力について触れておきます。まず旧かな遣いの文によくある「/\」や「/″\」。所謂踊り字ですが、これも青空文庫のファイルでは表記が統一されています。特に濁点つきの方は「″」(秒の単位)を使うということに注意してください。
次にAlphabetや、русский
языкといったロシア語などを入力する場合ですが、アルファベット等が日本語と接している部分には半角スペースを入れ、句読点や括弧などの記号に接している部分は半角スペース不要ということを覚えておいてください。
※この場合、Alphabetという単語の前後と、русский
языкという単語の後に半角スペースが入っています。
“Aozora
Bunko”といったように、括弧内にあっても半角スペースは必要ありません。ただしHTMLのような略語や、abcのような全角英語の間には半角スペースを入れません。
しかし 〔Gabriel Faure' was taught by
Camile Saint-Sae:ns.〕
といったアクセントつきのアルファベット等は、別途アクセント分解という方法で注記を行う必要があります(詳しくはアクセント分解についてを参照)。
※この場合でも、「しかし_〔Gabriel
〜」のように、外国語と日本語が接している所には半角スペースを入れます。
昔の書籍には伏字を使われたものが多くあります(例「× い旗」)。このような伏字がある場合、文字数に合わせて×を挿入してください。
[#3字下げ]ルビ[#「ルビ」は大見出し]
青空文庫で使用されている注記として多用されているのははルビです。このように漢字《かんじ》にルビが振ってある場合でも、複数《ふくすう》単語《たんご》にルビが振ってある場合や、漢字の一|部分《ぶぶん》にルビが振ってある場合は、注記《ちゅうき》方法が違います。
※「注記」のルビのように、底本では「ちゆうき」と見えるものでも、新字新仮名遣い作品では「注記《ちゅうき》」とルビをつけます。旧仮名遣い作品では「注記《ちゆうき》」とします。
さらに Alphabet《アルファベット》 に振ってある場合の注記、例えば|
Nice to meet you《はじめまして》のように複数語にルビを振ってある場合や、How《ハウ》 are《アー》 you《ユー》 ? のように各単語にルビが振ってある場合は各単語にルビをつけ、|ご機嫌いかが《ハウアーユー》? というようにひらがなやカタカナにもルビがかかっている場合は、縦線(|)を使ってルビの始まりを指定します。
※特にアルファベットにルビをつける場合の、半角スペースの場所を気をつけてください。また縦線(|)は全角縦線を用います。半角縦線(|)ではありません。
また、悠々自適《ゆうゆうじてき》のように一語として使われる言葉には、一続きにルビをつけます。一語なのかどうかわからないときには、出来れば辞書などを参照してください。一語なのかどうか判断できない場合は、まとめてルビをつけるようにしてください。
※人名などの固有名詞についているルビも、夏目《なつめ》漱石《そうせき》などとはせず、夏目漱石《なつめそうせき》とひとまとめにします。
ちなみに低[#「低」に「ママ」の注記]本のような「ママ」というのはルビではありません。誤植だろうと思われる言葉についている注記です。
※底本で「ママ」などと書いてあれば、↑のように注記します。
[#3字下げ]強調記号など[#「強調記号など」は大見出し]
ルビのほかに良く出てくる記号として、このような傍点
[#「傍点」に傍点]があります。またその種類にも、
傍点の中が抜けた白ゴマ傍点
[#「白ゴマ傍点」に白ゴマ傍点]
「●」の丸傍点
[#「丸傍点」に丸傍点]
「○」の白丸傍点
[#「白丸傍点」に白丸傍点]
「▲」の黒三角傍点
[#「黒三角傍点」に黒三角傍点]
「△」の白三角傍点
[#「白三角傍点」に白三角傍点]
「◎」の二重丸傍点
[#「二重丸傍点」に二重丸傍点]
◎の中を塗りつぶした蛇の目傍点
[#「蛇の目傍点」に蛇の目傍点]などがあります。
また
傍線[#「傍線」に傍線]
波線
[#「波線」に波線]
取消線
[#「取消線」に取消線]
左傍線[#「左傍線」に左傍線]
(アンダーライン)
破線
[#「破線」に破線]
二重傍線
[#「二重傍線」に二重傍線]
太字
[#「太字」は太字]
も同様に注記します。また重複して[#「重複して」は太字][#「重複して」に傍点]
注記する場合もあります。
[#3字下げ]特殊な漢字や記号[#「特殊な漢字や記号」は大見出し]
青空文庫の入力では、この大カッコ([])と井げた記号(#)による注記は、ルビに並んで重要なもので、様々な場合に用います。例えば、JIS第一第二水準に含まれていない漢字や文字を入力する際に使用します(青空文庫のテキストファイルには、JIS第一水準と第二水準の文字しか使用できません)。「※[#ローマ数字1、1-13-21]」といったローマ数字や「※[#「插」でつくりの縦棒が下に突き抜けている、第4水準2-13-28]
」という字はよく使われることがあるものです。特に後者は「挿」とは違う字とされているので注意が必要です(他に注意すべき字などは【入力/校正】電子翻刻の落とし穴などを参照してください)。
また「※[#「馬+畢」、4-16]
」という字などのように、JIS第三第四水準にもない漢字を入力する場合は、「第○水準〜」という表記の代わりに、その字が底本で登場したページ数と行数を記載します。
※JIS第一第二水準外の漢字、記号にルビが振ってある場合は、「※[#「廴+囘」、第4水準2-12-11]《まわ》る」、「※[#「くさかんむり/純」、21-20]菜《じゅんさい》」などとしてください。
※漢字や記号が第何水準のものなのか、どのように注記すれば良いのかを調べるには、青空文庫・外字注記辞書【第七版】を利用してください。また、非公式ですが、「外字注記コレクション」で漢字を探したり、「青空文庫 明日の硯箱」にある「新JIS漢字総合索引」を使用することも出来ます。漢字以外の記号については、非漢字一覧などでも調べることが出来ます。
※WindowsのIMEなどを使用している場合、漢字の変換候補に「環境依存文字」という注釈がついている場合があります。このような注釈がついている漢字、記号は、JIS第一水準第二水準の漢字ではないので、青空文庫テキストの入力に用いることは出来ません(下図参照)。
左図の場合、下四つの漢字はJIS第一第二水準にない漢字です。(unicode)とあるものはJIS第三第四水準、もしくはJISにない漢字です。
(unicode)がない二つの漢字は、JIS第三第四水準のものですが、このうち上の漢字は、「徳」と同じ漢字と見なして良いことにされています(他に同一視して良い漢字の代表例)。
※本によって微妙に漢字の字体が違う場合があります。ですが微妙な違い(例:の違い、
の違い)の場合、同じ漢字と見なしていいことになっています。どの程度なら同じものと見なしていいか(包摂規準と言います)は、JIS X 0213規格表、包摂関連項目の一覧を参照してください。
[#3字下げ]字下げ、字上げ[#「字下げ」は大見出し]
また大カッコと#の注記を用いる例として、底本における字下げ、字上げを入力する場合があります。字下げの注記を行うのは、
[#ここから3字下げ]
底本で文の一部がまわりの文より一段下がっているような場合、「ここから○字下げ」という注記を用います。字下げの注記を行いたい文章の始めと終わりに注記を入れることで表します。
[#ここで字下げ終わり]
字上げの注記を行うのは、次の文のように本の下の方に文が寄っている場合です。
[#地から1字上げ]
(昭和○年作)
字下げ、字上げは、底本でどのようになっているかによって、それぞれ注記が異なります。
[#天から2字下げ]このように一行のみに字下げが行われている場合は、「天から○字下げ」。
※(2010.8.1追記)従来「天から○字下げ」と表記していたものが、[#○字下げ]に変更になりました。
[#ここから改行天付き、折り返して2字下げ]
A 戯曲などでよく用いられるこのような複雑な字下げの場合は、「折り返して○字下げ」という注記がつきます。
B 文頭も字下げが行われている場合、「改行天付き」ではなく「○字下げ」となります。
[#ここで字下げ終わり]
[#ここから5字下げ、12字詰め]
このように、ブロックで天と地に空白があいている場合は、「○字詰め」という注記をつけます。このあたりは古いマニュアルにはありませんが、注記追加案で示されたやり方です。なお、このブロックが線で囲まれている場合は、「ここから○字下げ、○字詰め、罫囲み」となります。
[#ここで字下げ終わり]
文章の最後に、地についた文章があるときには、文の最後に注記を入れます。[#地付き](二〇〇九年三月)
ただし、見出し文など数文字のものに対しては、字下げの注記を行いません(この文章の最初にあった「字下げ、字上げ」など)。その場合は何字下がっているかにあわせて、全角スペースを入れてください。
また、地からの字上げが複数行にわたっている場合は、
[#ここから地から1字上げ]
┌ここから地から○字上げ┐
└という表記を用います。┘
[#ここで字上げ終わり]
※┌┐└┘は、カッコ内で文字列が複数行になっている場合に、()のかわりに用います。割り注の項も参照。
[#ここから地付き]
字上げでなく地付きの場合でも
同様の表記を使用します。
[#ここで地付き終わり]
[#3字下げ]その他の注記(一)[#「(一)」は縦中横][#「その他の注記(一)」は大見出し]
[#5字下げ]大カッコと#による注記[#「大カッコと#による注記」は中見出し]
[#8字下げ]その一[#「その一」は小見出し]
大カッコと#による注記は他にも様々な場合に用います。以下、様々な場合の注記方法を列挙します。
○画像版では、この見出しの前でページが変わっていますが、底本において、文章の内容の切れ目でページが変わっているときには[#改ページ]という注記を用います。同様のものに[#改丁][#改段]というものもあります(使い分けについては下図参照)。また、このページにも詳細が載っています。
「改丁」を用いる場合:
![]() |
この場合、次のように入力します。 海潮音 [#改丁] 燕の歌 ガブリエレ・ダンヌンチオ 弥生ついたち、はつ燕、 弥生来にけり、如月は |
![]() |
この場合、次のように入力します。 あゝ、よろこびの美鳥よ、 黒と白との水干に、 舞の足どり教へよと、 しばし招がむ、つばくらめ。 たぐひもあらぬ麗人の イソルダ姫の物語、 飾り画けるこの殿に しばしはあれよ、つばくらめ。 かづけの花環こゝにあり、 ひとやにはあらぬ花籠を 給ふあえかの姫君は、 フランチェスカの前ならで、 まことは「春」のめがみ大神。 [#改ページ] 声曲 ガブリエレ・ダンヌンチオ われはきく、よもすがら、わが胸の上に、君眠る時、 |
![]() |
この場合、次のように入力します。 こゝ虚なる無声境、浮べる物や、泳ぐもの、 生きたる物も、死したるも、此空漠の荒野には、 音信も無し、影も無し。たゞ水先の小判鮫、 真黒の鰭のひたうへに、沈々として眠るのみ。 行きね妖怪、なれが身も人間道に異ならず、 聖なる飢は正法の永くつゞける殺生業、 沙漠は丹の色にして、波漫々たるわだつみの 命も音も絶えて無し。餌に飽きたる唐獅子も、 |
キャプションがない場合は「図(filename.png)入る」などとします(ファイル形式は基本的にpngを用います)。なお、文の途中に図があっても、図の入る場所を完全に再現することは基本的に出来ません。
[#3字下げ]その他の注記(二)[#「(二)」は縦中横][#「その他の注記(一)」は大見出し]
[#5字下げ]大カッコと#による注記[#「大カッコと#による注記」は中見出し]
[#8字下げ]補足[#「補足」は小見出し]
○他に、文中に誤植[#「誤植」は底本では「誤埴」]などがある時に、入力者が判断して注記を入れる場合、誤植とはわかるもののもともと何と書かれていたのかわからない場合(例:19454年[#「19454年」はママ])、虫食いや汚れで文字が判読できない場合※[#判読不可、9-7]に用います(念のため、「9-7」というのは、「底本のページ数-行数」を表しています)。その他ここに挙げられていない場合でも、入力者注として記述すべきことがあるときには基本的に大カッコと#の注記を用います。ここに無い事例は、工作員マニュアルなどを参照するか、青空文庫(reception@aozora.gr.jp)に直接メールをするなどしてお問い合わせください。
テキスト版の仕上げについて
青空文庫用のテキストファイルには、下のような注記を、文章の始めと終わりに入れることになっています。下は一例です。
文頭に入れる注記(詳細はこのページを参照してください)
青空文庫テキストの入力方法 蒋龍 ------------------------------------------------------- 《》:ルビ |:ルビの付く文字列の始まりを特定する記号 [#]:入力者注 主に外字の説明や、傍点の位置の指定 [#…]:返り点 [#(…)]:訓点送り仮名 /\:二倍の踊り字(「く」を縦に長くしたような形の繰り返し記号) 〔〕:アクセント分解された欧文をかこむ |
底本:「無名作家の青空」佛飛出版 2008(平成20)年8月1日初版発行 2010(平成22)年8月1日10刷 底本の親本:「羽のある木陰の工房」江節井第二書房 2003(平成15)年8月1日初版発行 初出:「電子文章 第一號」筑波研究所 1992(平成4)年9月30日号 ※「旧字、旧仮名で書かれた作品を、現代表記にあらためる際の作業指針」に基づいて、底本の表記をあらためました。 ※文中の漢文は青空文庫に収録されている「なよたけ」(加藤道夫)から引用しました。 ※底本名などは架空のものです。 入力:蒋龍 校正: YYYY年MM月DD日作成 青空文庫作成ファイル: このファイルは、インターネットの図書館、青空文庫(http://www.aozora.gr.jp/)で作られました。入力、校正、制作にあたったのは、ボランティアの皆さんです。 |
その他の外部リンク
旧字、旧かなの作品を、新字新仮名に改めてテキストファイルを作成する場合は、旧字、旧仮名で書かれた作品を、現代表記にあらためる際の作業指針を参照してください。
校正について知りたい方は、校正の手引きなどを参照してください。
OCRなどで入力したデータをチェックするプログラムとして、チェッカー君があります。「へ(ひらがな)」と「ヘ(カタカナ)」などの間違いをチェックできます。
旧字体で入力すべきところが新字体になっていないかチェックするプログラムとして、校閲君があります。
※この入力マニュアルは、あくまで個人的に使いやすいように作成したものです。入力に直接関係しない細かいところは、省いているところもあるので、そのような部分は工作員マニュアル、注記一覧を参照してください。
作成:蒋龍
作成日:2009.3.23
最終改訂:2010.8.1
無名作家の青空に戻る