PDF閲覧 - JAET - 漢字文献情報処理研究会

漢字文献
情報処理研究
第3号
漢 字 文 献 情 報 処 理 研 究 会 編
日本中国語 CAI 研究会 編集協力
好文出版
漢字文獻情報處理研究 第 3 号
目 次
論文
4 漢字フォント自動生成サーバ 影 KAGE の構築
上地 宏一
−文字コードの枠組みを超える次世代漢字処理の提案−
特集 1:求められる学術研究情報の発信 15 16 中国の現状
小川 利康
20 国内図書館における学術研究情報発信の現状
小島 浩之
24 日本文学の場合
大内 英範
26 新潟大学人文・敦煌プロジェクトについて
岩本 篤志
小規模な研究会による Web を使った情報発信の一例
30 多漢字・多言語 Web サイト構築における諸問題
二階堂 善弘
34 電子版学術雑誌をめぐる諸問題
千田 大介
『中国都市芸能研究』創刊始末記
論文
38 XML による文法研究論文の構造化
山崎 直樹
論文を研究用資料として十分に活用するために
46 源氏物語の異文校合
大内 英範
−自動処理と活用−
51 TFIDF の漢文テキストへの応用 『老子』王弼本を例に
特集 2:人文学情報処理教育
61
62 電脳東洋学的授業の試み
齊藤 正高
山田 崇仁
授業の実践報告
68 情報歴史学の課題
師 茂樹
花園大学・情報歴史学コースのための主観的航海図
73 中国語教育と情報処理
コンピュータスキルをどこまで教えるか
77 人文情報処理および情報リテラシー関連書籍ガイド
81 オンライン討論
論文
田邉 鉄
小島 浩之
人文学情報処理教育はいかにあるべきか
92 近代型 CAI と教育革命
中国語 CAI 実践レポート − CAI は教育の何を変えるのか−
101
102 中国語 CALL の 10 年 1990 年代の CALL プレーヤー
109 「上海万華鏡」制作日記
ビデオ教材作成に携わって見えたこと
111 「上海チェイス∼恋する中国語∼」
「中国語素人」による教材開発の試み
2 ● 漢字文獻情報處理研究 第 3 号
平林 宣和
日本中国語 CAI 研究会
田邉 鉄
田邉 鉄・横山 裕
鈴木 愛
公開講座・シンポジウムの報告
116
117 日本の学会との交流と協力の意義
朱 岩・朱 江(千田大介訳)
123 電脳中国語フォーラム報告
遠藤 光暁
ソフトウエア レビュー
129
130 OS
Linux / 超漢字 / Mac OS X v10.1.4 および v10.2(Jaguar)
二階堂 善弘 / 平林 宣和
134 ワープロとビジネスソフト
MS Office / 一太郎 12 & ATOK15 / Adobe InDesign 2.0
千田 大介 / 山田 崇仁
138 IME と中文ツール
141 文字コードとフォント
Chinese Writer / 翻訳ソフト
二階堂 善弘 / 千田 大介
Unicode 3.2 / CHISE プロジェクト / DynaFont / 今昔文字鏡
師 茂樹 / 千田 大介 / 山田 崇仁
151 ネットワーク
WWW ブラウザ
師 茂樹
153 その他
EmEditor / Perl 5.8 / 中国のソフトウエア動向
山田 崇仁 / 師 茂樹 / 千田 大介
学術リソース レビュー
162 学術サイト
161
図書館と OPAC / 超星数字図書館 / 中国古典文学 /
中国近現代文学 / 仏教学 / 中国史学 / 日本古典文献
小島 浩之 / 千田 大介 / 小川 利康 / 師 茂樹 / 山田 崇仁 / 大内 英範
183 学術ソフトウエア
書評
コラム
四部叢刊 / 古典文献 CD-ROM
山田 崇仁 / 千田 大介
187 『漢字と日本人』
・
『情報文明の日本モデル』/『文字符号の歴史 アジア編』/
『コンピュータが子供たちをダメにする』/『オンライン教育の政治経済学』/
『日本文学どっとコム』
72 紙媒体資料と電子資料
115 ウェブ・アーカイヴィングの現状【続】
14 漢情研メールマガジンについて
小島 浩之
小島 浩之
二階堂 善弘
193 漢字文献情報処理研究会彙報 / 著者紹介
本誌記事中のソフトウエア名、プログラム名、会社名などは一般に各社の商標または登録
商標です。本文中では、™・® 等のマークは明記しておりません。
本誌記事の記述に基づいて行われた作業の結果生じたあらゆる損害について、編著者・翻
訳者および出版社は一切の責任を負いません。
本誌記事の内容に関するご意見・ご質問は、漢字文献情報処理研究会 Web サイト(http://
www.jaet.gr.jp/)のフォームにて受け付けます。書面・電話・FAX によるお問い合わせには
応じかねます。
Journal of JAET vol.3 ● 3
漢字フォント自動生成サーバ
“影 KAGE”の構築
−文字コードの枠組みを超える次世代漢字処理の提案−
上地 宏一(かみち こういち)
という新たな問題が生じている。
1.はじめに
そこで筆者は、漢字フォント自動生成サーバを
構築し、現状では利用できない漢字字形をネット
パソコンは、文字と数字とを一対一に対応させ
ワーク上で自由に呼び出して使えるようにするこ
た文字コードによって、数字だけでなく漢字を含
とにより、より高度な漢字文献 Web コンテンツ
む多くの文字を処理している。たとえば初期のパ
を作成、公開、閲覧できるようにした。本稿では
ソコンやワープロで採用されていた文字コードの
このサーバについての紹介を行う。
[1]
JIS X 0208
(いわゆる JIS 漢字)では約 6,400
の漢字が収録されていた。日本語文書をカタカナ
で電算処理していた時代に、常用漢字 1,945 字
2.新たな「文字コード問題」
の 3 倍以上にもなる JIS 漢字表を見て筆者は興奮
過去における文字コード問題では、足りない漢
したものである[2]。ところがパソコンやワープ
字を処理するために、外字を作る、
市販の外字フォ
ロの普及によってさまざまな人が幅広い分野の文
ントを利用する、フォント切り替えの大規模漢字
書を扱うようになると、この 6,400 の漢字数で
フォントを利用する、大規模漢字セットを採用し
は足りない機会が増えたため、その他の問題も含
た OS を利用する、などの対処法がとられてきた。
めて「文字コード問題」という社会現象にまで発
これらが混在し、お互いの情報交換を必ずしも保
展したことは記憶に新しい。
証しなかったため、大きな混乱が起こった。
現在では国際標準である ISO/IEC 10646 およ
幸運にも UCS の普及によって、この混乱は現
び Unicode(以後、両者をまとめて UCS と表記)
在収束しつつある。文字コード表に含まれない文
の普及によって、文字コード問題はとりあえず落
字は今後も追加していくというのが UCS の方針
ち着いた感がある。UCS は現在約 7 万字種の漢
であり、現在も拡充が行われている。具体的には
字を収録し、さらに万単位の漢字の拡充を継続し
2 万 4 千字種の追加漢字集合(Extension C1)を
ている。しかし一方で、Unification による統合
審議中である。UCS は「国際標準化された」「大
の対象となった字形を使いたいというニーズや、
規模文字セット」であり、インターネット時代の
Extension A, B のグリフも含むフォントが少ない
情報交換に最適であるため、今後も世界中のパソ
4 ● 漢字文獻情報處理研究 第 3 号
漢字フォント自動生成 サーバの構築(上地)
コン(厳密には OS やアプリケーション)に採用
い。しかしこの点についての議論は少なく、フォ
されていくと思われる。しかし一方で「国際標準
ントベンダーなどにゆだねられているのが実情で
化された」「大規模文字セット」であるがために
ある。
次の問題をはらんでいる。
新たな文字の追加にコストがかかる
フォント作成にコストがかかる
パソコンにおける漢字不足の現状
実際に「使いたい漢字があるのに、使えない」
という機会が今もある読者はどれぐらいいるだろ
うか。UCS の充実によりその割合は非常に少ない
つまりユーザーが、文字コード表にない漢字を
と思われる。しかし漢字や漢字字形そのものを扱
使いたいと思ったときに、すぐに UCS に追加で
うような研究分野では UCS で満足できない場合
きるわけではなく、また追加されたとしてもすぐ
がある。たとえば Extension B を含む Unicode 3.1
に自分の思ったとおりの字形がフォントとして利
の約 7 万字種の漢字によって、漢字の規範とさ
用できるわけではない。さらに、UCS は常に拡
れる『康煕字典』の本文すべてのデジタル化は可
充されているために、OS やアプリケーションで
能かというと、そうではない。親字に立てられて
常に最新のバージョンが反映されているとは限ら
いない字釈文中の異体字については、Extension
ない。現在の Extension B のように一部のアプリ
B までに収録されていない漢字がある。たとえば
ケーションによってはサポートされていないため
「丕」の字釈として「同丕」とあるが、この「丕」は、
に使えないこともある。これらの問題をもとに、
『康煕字典』の親字には収録されておらず、UCS
漢字が足りない問題を単純に文字コード表の拡張
にもない。ほかにも「傲」の本字とされる「傲」
で解決することは無理があり、これ以上大きくす
なども使うことができない。加えて版本による字
べきでない、という見方もある。
形の違いも表記できない。このことから見ても膨
情報処理学会情報規格調査会内の文字コード標
準体系専門委員会
[3]
ではこれらの文字コード問
題について議論を行ってきたが、問題となる「漢
字不足」について次の 2 つに分類した。
大な漢字文献を文字コードの範疇だけでテキスト
化することは非常に難しい。
広東語や上海語、台湾語などの方言を表記する
ときに用いられる方言字も収録されていない場合
がある。日本では新しい漢字を作るという概念が
新字種の不足
なくなってしまったが、香港では大衆向け娯楽雑
異体字の不足(委員会用語では「異形字」)
誌などにおいて新しい方言字が用いられることが
ある。友人同士などの小さなコミュニティの中で
そして新字種については、新しく専門の文字登
録機関を設けることにより迅速な文字追加に対応
できると提言した。また異体字については、文字
使うスラングに新しい字を創作することもあると
いう。
考古文字学の分野ではさらに収録数不足が顕著
コードに付随する新しい仕組みを 4 種類提案し、
である。甲骨文や金文に対して字形的な解釈を施
これらによってコンピュータが異体字を含むデー
した翻刻字は、多くは文字コードには収録されて
タを適切に処理し、お互いの情報交換が可能とな
いない。これは字の解釈によって字形が安定しな
るとした。その一例が、異体字を親字の下に関連
いという理由もあるため文字コードでは解決でき
付けて異体字ごとに番号を割り当てる枝番方式で
ない問題である。本稿執筆中にも中国で歴史的な
ある[4]。
量の竹簡が発掘されたが、これらに書かれた楚系
現実問題としてユーザーの立場では、データを
適切に処理することも必要であるが、それ以上に
漢字字形が表示・印刷できないと使い物にならな
文字も同様である。
以上述べてきたように、文字コード問題は現在
も未解決のままである。
Journal of JAET vol.3 ● 5
論 文
は 1,096 種の漢字部品から JIS X 0208 と JIS X
3.漢字部品の合成による字形
生成エンジン
0212 の 12,156 字種を生成できる。和田研フォ
ントは、当時珍しかったベクトルフォントを低コ
ストで使うために開発されたものであり、今でも
一部の Linux ユーザーの間で利用されている。生
筆者は、使用頻度の著しく低い漢字までも文字
成されたフォントは計算機能力の制約もあったた
コードに採録し、フォントを準備するという拡大
め文字品質はあまり高くなく、廉価かつ書体の豊
方針には限界があると考える。文字コードにとら
富な市販フォントに取ってかわられている。
われずに別の次元で処理することによって効率よ
一方で一般的な印刷物の世界では字母のない文
く漢字不足を解決できる方法はないだろうか。こ
字を印刷するときに既存の文字の切り貼りが多用
こで筆者が注目するのが「漢字部品とその位置
されているが、それらの多くは一目で合成してい
構造による漢字字形の代替表現」である。たとえ
るとわかる場合が多い。このように漢字のデザイ
ば中国の地名である深圳の「圳」は、JIS X 0208
ンは非常に難しい。
に収録されていないために、オンラインの新聞記
事などでは「深セン」とカタカナ表記され、「セ
漢字グリフ自動生成エンジンの技術的要件
ンは土に川」と補足されていることがある。こ
筆者が提案する漢字グリフ自動生成エンジン
の「土に川」という代替表現をもとに「圳」とい
は、文字コードに収録されていない漢字や、フ
う字形をコンピュータが自動的に用意できたらど
ォントにグリフが登録されていない漢字をそのつ
うなるだろうか。OS がメモリの中では「土に川」
ど、漢字部品とその位置構造表現から自動的に生
というデータを保持し、画面上では自動的に作ら
成するものである。このため、以下のような特徴
れた「圳」という字形を表示する仕組みを持てば、
を持つ
ユーザーは「圳」という漢字が文字コードに収録
されているのか、それとも「土に川」という代替
要求に対し瞬時にグリフを生成する
表現が使われているのかを全く意識することなく、
頻度の低い漢字、異体字を生成の主な対象
文字コードにとらわれない多くの漢字と漢字字形
とする
を使うことができる。
この手法は、多くの漢字が部品の集合からでき
これらの特徴から本エンジンは、文字品質より
ていることに着目した、いわば当たり前の手法で
も生成速度を重視する必要があり、また、さまざ
あり、古くは 19 世紀の清朝の中国においてキリ
まな漢字を生成するために多くの漢字部品を用意
スト教布教活動をしていたヨーロッパ人宣教師た
する必要がある。
ちによって、印刷活字の母型を作るコストを抑え
るために、漢字部品を組み合わせて漢字字母を作
る「分合活字」が研究された[5]。記録ではおよ
そ 4 千種の部品を組み合わせて 3 万字種程度の
漢字を生成できたという。しかし、部品の大きさ
は 3 分の 1 幅、3 分の 2 幅といった大雑把なも
のであったため、合成された文字の品質は著しく
低く、しばらくのちに使われなくなった。
4.漢字フォント自動生成サーバ
影 KAGE
Web コンテンツとフォント配信
インターネットを利用して世界中に情報を発信
近年では東京大学の和田英一教授(当時)の
し他人と知識を共有することが、現在では当たり
研究室で研究された「和田研フォント」が、フォ
前となりつつある。インターネット上での情報は
ントの自動生成技術を利用している[6]。これ
主に HTML 言語を用いて作成するわけであるが、
6 ● 漢字文獻情報處理研究 第 3 号
漢字フォント自動生成 サーバの構築(上地)
ここで使いたい文字が使えない場合、外字を使う
ことはできないため、<IMG> タグを利用してグ
KAGE フォントサーバの構築
リフを画像で代用することが一般的である。しか
フ ォ ン ト サ ー バ の 構 築 に は Microsoft .NET
しこの方法は書き手がグリフ画像を用意する必要
Framework を利用している。またサーバマシン
があり非常に煩雑である。他にも書き手の意図す
は Microsoft Windows 2000 Professional で運用
る書体、画面構成で読み手に伝達したい、などの
されている。
サーバは、一般の Web サーバと同じく HTTP
理由から次のような技術が提案された。
プロトコルによる URI 要求に対して、該当する
WEFT[7]、Dynamic fonts[8]
データを返す仕組みとなっている。処理が特殊で
[9]
Portable Document Format(PDF)
ある点は、要求される URI が実際にあるファイ
Scalable Vector Graphics(SVG)[10]
ル名ではなくて、任意の漢字表現であることであ
る。サーバは、漢字表現とオプションを切り出し、
これらは文章ファイルにフォントを直接埋め込
要求にしたがって漢字グリフ画像を自動生成する。
む、またはフォントファイルを同時に配信する手
そして画像データをあたかも要求された URI ファ
段を提供する。つまり書き手が持っているフォン
イルが存在するかのように返すことにより、閲覧
ト資源を制限つきで閲覧者に提供するニュアンス
者のブラウザ上に漢字グリフが表示される。この
がある。
画像ファイルは PNG 形式を利用している。また、
これとは別に、ネットワーク上でフォントを共
有する考え方もある。
サーバに対する要求に間違いがあり、グリフが生
成できなかった場合は、エラーを示す画像ファイ
ルが返される。
[11]
eXtended Kanji Processing(XKP)
フォントサーバ
グリフ生成に用いる漢字部品のデザインはすべ
て専用のツールを用意して独自にデザインされた
ライセンスフリーのものである。部品データは骨
XKP はネットワーク上の一部のコンピュータ
格(スケルトン)の集合となっていて、任意の大
同士で外字を共有するもので、企業や自治体など
きさに拡大・縮小することが可能である。骨格に
で利用されている。フォントサーバは <IMG> タ
対して肉付けを行うことで、実際のグリフを生成
グによるグリフ伝達の応用であるが、書き手の手
する。骨格は、直線と曲線の組み合わせから成り
間を省くために、あらかじめ用意された漢字グリ
立っていて、曲線は TrueType フォントと同じ 2
フ画像の集合をネットワーク上で使えるようにし
次スプラインを利用している。
たものである。
漢字部品同士を結合させる際は、いくつかの
本稿で紹介する KAGE フォントサーバは、従来
ルールに従って自動的に部品ごとの大きさや位置
のフォントサーバに加えて、漢字グリフ自動生成
を計算する。詳細は省略するが、各部品同士の縦
エンジン(KAGE エンジン:Kanji-font Automatic
横方向の筆画本数の比率などを利用している。
Generating Engine)を搭載している。このため
用意された漢字集合だけでなく、漢字部品とそ
の位置構造をもって要求を出すことにより、任意
の漢字グリフをその場で自動生成して配信するも
のである。またネットワーク上であれば書き手、
受け手に制限なくグリフを配信するパブリック・
ネットワーク・フォントを目指している。
5.KAGE フォントサーバの利用法
フォントサーバの具体的な利用方法について次
Journal of JAET vol.3 ● 7
論 文
に述べる。サーバ名やグリフ要求表記法、用意さ
れている漢字部品などは変更される可能性がある
ため、最新の情報や利用条件などはフォントサー
バ総合 Web サイト[12]で確認してほしい。
まず、HTML テキストの中に以下の <IMG> タ
グを埋め込むことによりフォントサーバに漢字グ
リフを要求する。
このように漢字部品とその位置構造指示子
(IDC)によって漢字を表現する。本来 IDS は字
<IMG src="http://[ サーバ名 ]/[ 漢字
形を明示するものではないが、IDC にコードポ
表現 ]?[ オプション ]">
イントが与えられており記述も簡単なので表記
サーバ名は書体別に次の 2 つが用意されている。
U+2FF0 ∼ U+2FFA の⿰⿱⿲⿳⿴⿵⿶⿷⿸⿹⿺と
法として採用した。IDC としてコードポイント
U+2FFB の⿻が利用可能である。⿻は本来の IDC
明朝体:mincho.fonts.jp
の重なり関係を表すのではなく、
ゴシック体: gothic.fonts.jp
裏:⿻衣里
現在は明朝体とゴシック体の 2 種類の書体が
衝:⿻行重(⿲彳重亍でも可)
利用できる。いずれも、われわれが通常目にして
いるような人間がデザインしたフォントとは多少
以上のようなサンドイッチ関係を表すために
異なり非常にシンプルなデザインのものとなって
独自に用意したものである。また、U+2FF0 ∼
いる。
U+2FFB は、実際にグリフが用意されていない
Ideographic Description Sequence(IDS)
フォントサーバに要求する任意の漢字を表現
フォントがあるので、#0,#1,#2 ∼ #9,#A,#B でも
代用可能である。
漢字部品として用いることのできるものは現在、
するために IDS 表記を用いる。IDS はコード表に
U+3400 ∼ U+4DB5 と U+4E00 ∼ U+9FA5 の い
含まれない漢字を IDC(Ideographic Description
わゆる BMP 漢字である。
Characters)と部首または漢字を用いて代替表記
なお、
「漢字表現」は IDS 表記ではなく、直接
する方法であり、Unicode 3.0 から追加された。
漢字一字を指定することもできる。この場合は指
表記の例を次に挙げる。
定した漢字グリフが返される。例えば漢字フォン
トがインストールされていない環境で漢字を表示
後:⿰彳⿱幺夂
するときに使うことができる。加えて「U+」
、ま
遅:⿺辶⿸尸羊
たは「U-」で始まる 16 進数表記の UCS コードを
樂:⿱⿲幺白幺木
指定することもできる(例: U+4E00 →「一」の
鬱:⿳⿲木缶木冖⿰鬯彡
グリフが返される)。
漢字部品の配置場所による変形
たとえば「手」という漢字部品を、左右構造の
漢字の左部分に配置すると手偏「扌」に変形する。
手偏の漢字を表現したい場合に直接変形した
「扌」
を用いることも可能であるが、
「手」を入力する
ほうが容易であり、また部首によっては「差」の
8 ● 漢字文獻情報處理研究 第 3 号
漢字フォント自動生成 サーバの構築(上地)
「羊」のように変形された漢字部品が文字コード
表にない場合もある。そこで、「⿰手殳」と「⿰
⿹頃* → ⿰⿱匕*頁
扌殳」のどちらでも「投」を要求できるようになっ
ている。具体的には、あらかじめ用意された変換
このテーブルにより、
「⿹頃水」は「⿰⿱匕水頁」
テーブルによって「各部品が配置場所で一番多く
に変換されて「潁」を導く。したがって特殊な部
用いられる変形部品」を用いるように自動的に変
品「頃」を用意することなく、
「⿹頃水」と「⿰
換されるため、次のように複数の表記や抽象的な
⿱匕水頁」のどちらの表記にも対応できる。
部品の利用が可能となる。
書体により骨格の異なる部品の指定
複:⿰衤复、または⿰衣复
明朝体「宀」とゴシック体「宀」のように書体
俶:⿰亻叔、または⿰人叔
により部品の骨格デザインが異なる場合がある。
塀:⿰土屏
KAGE フォントサーバでは書体別に部品ファイル
雰:⿱雨分
を用意しているため書体による差異を意識する必
要はない。
場合により、次のように自動変換が望ましくな
い場合がある。
オプション
表現の幅を広げるために 5 種類のオプション
刦:⿰去刂、または⿰去刀
が用意されている。オプションは複数指定が可能
刧:⿰去刀→「刦」になってしまう
で、オプションごとを「&」で接続する。
P:部品の字形指定
これは後述する P オプションで具体的な部品
字形を指定することにより回避できる。
字義の区切りと字形の区切り
IDS 表記で「⻌(1 点)」という部品を指定し
たときに、実際には「辶(2 点)
」を使いたい場
合など、部品の詳細字形を指定するときに P オ
プションを利用する。書式は次のとおりである。
「潁」、
「頴」、
「穎」は一般的な字義解釈では「頃
+水」、「頃+示」、「頃+禾」である。これらは
IDS 表記では以下のようになる。
P[ 対象 ]=[ 字形番号 ]
「対象」は対象部品が IDS 表記の何文字目であ
潁:⿹頃水
るかを数字で指定する。「字形番号」は漢字部品
頴:⿹頃示
リストをみて、使いたい部品の具体的な字形番号
穎:⿹頃禾
を指定する。P オプションを指定しない場合は基
本的に番号 0 の部品が使われることになる。
左下部分に空白のある「頃」部品を用意しても
いいのだが、字形としては以下のほうがわかりや
すく、部品も節約できる。
(例)部品⻌
番号 0:⻌
番号 1:辶
進:⿺⻌隹
潁:⿰⿱匕水頁
:⿺⻌隹 ?P2=1
頴:⿰⿱匕示頁
穎:⿰⿱匕禾頁
そこで、次のような変換テーブルを用意する。
Journal of JAET vol.3 ● 9
論 文
以上のように、
「
(2 点)」は「⿺⻌隹 ?P2=1」
という表現で生成する。P オプションによって、
A,a:黒
H,h:紫
「⿺⻌隹」という表記の 2 文字目の部品(「⻌」)
B,b:赤
I,i:黄
について番号 1(「辶」)を使うことを明示してい
C,c:青
J,j:ピンク
る。同様に先に述べた「刧」と「刦」の表現も具
D,d:緑
K,k:黄緑
体的な部品番号を指定することにより区別できる。
E,e:水色
L,l:青緑
C:結合の指定
F,f:栗色
M,m:明灰色
G,g:暗黄色
N,n:暗灰色
「⿻囂頁」という漢字表現は、
「囂」の間に「頁」
をはさみこむサンドイッチ型結合を指示している
.
(ドット):マスク
が、実際には横三段のサンドイッチ型結合による
「嚻」と、縦三段のサンドイッチ型結合による「囂」
「厶」
例えば「⿱厶口 ?S=AAABBBB」とすると、
の二通りが考えられる。このような場合に結合の
が黒で「口」が赤い「台」となる。このオプショ
具体的な種類を指定するための C オプションが
ンを用いると、筆画ごとに着色が可能となり、書
用意されている。
き順ごとの色分けや、漢字部品の色づけなどと
いった漢字教育のコンテンツ作りに役立つと考え
C[ 対象 ]=[ 結合番号 ]
られる。また、「.
(ドット)」を用いると、対象
となる筆画をマスクするために描画されない。例
「対象」は対象となる IDC が IDS 表記の何文
字目であるかを数字で指定する。「結合番号」は
として「玄 ?S=AAAAAA.」とすると「玄」の末
筆を省略した「欠画(避諱字)
」が表現できる。
漢字結合リストから結合の番号を指定する。
(例)⿻結合
番号 1:横三段
番号 2:縦三段
嚻:⿻囂頁 &C1=1
注意点としては、たとえば
「口」は3画だが、
デー
囂:⿻囂頁 &C1=2
タとしては「縦棒、横棒、縦棒、横棒」の 4 本
であり、S オプションの指定では口は 4 画として
S:描画色、マスクの指定
指定する必要がある。
また、色ごとにアルファベッ
S オプションは最終的に生成された漢字の筆画
トの大文字と小文字の 2 種類を割り当てている
ごとの色やマスキングの指定を行う。書式は次の
が、これは小文字が先に描画され、大文字が後に
とおりである。
描画される違いがある。原則として書き順の通り
に描画していくため、
「十」のように筆画が交差
S=[ 色指定 ] [ 色指定 ] [ 色指定 ]…
している場合、「十 ?S=BA」として、1 画目の横
または
黒(A)縦棒が上書きしてしまう。そこで「十 ?S=Ba」
棒を赤(B)で目立たせようとしても、2 画目の
とすると、はじめに小文字の筆画を描画し、次に
S=[ 色指定 ]
筆画数の数だけ色指定を列挙すると筆画ごとに
指定された色が用いられる。また、色指定が一つ
の場合は漢字全体が指定された色となる。色指定
は次のとおりである。
10 ● 漢字文獻情報處理研究 第 3 号
大文字の筆画を描画するため、赤(B)横棒を目
立たせることができる。
漢字フォント自動生成 サーバの構築(上地)
D:字形デザインの指定
先的に利用されることになる。つまり日本だけで
例えば漢字「言」の字形に着目すると、日本で
なく中国など他の地域の人々も含めて、普段自分
は「言」であるが中国では「言」となり、第一画
が用いている字形デザインの漢字部品を一部品ご
目が「横棒」と「点」の違いを持つ。また、漢字「骨」
とに P オプションで指定することなく平易に記
の場合、日本では「骨」であるが、中国では「骨」
述できる。古典などの伝統字形も同様である。
となり、画数まで変化する。このように地域、時代、
I:サイズの指定
利用対象によって字形デザインが大きく変わって
フォントサーバは、200 ドット× 200 ドット
くる。ユーザーが意図する字形デザインを先述し
の漢字グリフ画像ファイルを返す。この画像ファ
た P オプションで一部品ずつ指定すると煩雑に
イルをそのまま表示すると大きすぎるので次の 2
なるため、漢字全体の字形デザインを一度に指定
通りの方法で調整する。
するための D オプションが用意されている。書
式は次のとおりである。
<IMG> タ グ の Width, Height プ ロ パ テ ィ
で、大きさを調整する
D=[ 字形デザイン識別記号 ]
I オプションで、返される画像ファイルの
大きさを調整する
「字形デザイン識別記号」は、データを準備予
定のものも含めて次の 12 種類を用意した。
前者は、ブラウザ側でサイズ調整を行うが、画
面表示が見にくい反面、印刷時にはきれいに出力
JG:日本規格字形(UCS 規格票 J 欄)
される。
後者は、
フォントサーバ側でグレースケー
JP:日本印刷標準字形
ルを用いた画像拡大・縮小を行うので、ブラウザ
JO:日本旧活字字形
画面上での見た目はよいが、印刷時にはきれいに
JE:日本初等・中等教育用字形
出力されない。そこで両者を用途に応じて使い分
CG:中国大陸規格字形(規格票 G 欄)
ける必要がある。I オプションの書式は次の通り
CT:中国台湾規格字形(規格票 T 欄)
である。
CB:中国台湾標準字形
CH:中国香港標準字形
KR:韓国規格字形(規格票 K 欄)
VT:ベトナム字喃字形(規格票 V 欄)
I=[ サイズ ]
または
DX:康煕字典字形
DM:諸橋大漢和辞典字形
I=[ 横サイズ ],[ 縦サイズ ]
現在はデータの準備段階であるが、D オプショ
数値を 1 つ指定した場合は、正方形の一辺の
ンによって、指定されたデザインの漢字部品が優
サイズが指定される。カンマで区切って 2 つ指
定した場合は、任意の長方形の大きさに指定され
る。サイズはピクセル単位である。
漢字部品入力の補助ツール
「丬、丌、乚、冖」のように通常では入力が難
しい漢字部品を入力する時の補助として「漢字分
解器」と名づけた Web ページを用意している。
ここでは任意の漢字を入力すると、その漢字を部
Journal of JAET vol.3 ● 11
論 文
の方言字や近代の西洋技術を書き表すための新字
などが挙げられる。1986 年に正式に廃止された
第二次簡略化案の文字や、日本で提案された簡略
字、国字等も扱うことができる。
漢字文献と直接の関係はないが、人名や地名の
異体字も書き表すことができる。これは日本だけ
でなく台湾での人名異体字も同様である。
また、漢字教育や漢字学習のデジタル化にも応
用できる。例えば漢字の書き順を例示する、漢字
の部品に着目させるコンテンツを作る、テスト問
題用に誤字を作る、などが挙げられる。オンライ
ンの漢和辞典の構築にも利用できるだろう。
品レベルまで分解し、各部品を表示してくれるも
のである。この漢字分解データベースは、筆者が
4 年間を費やして作成した漢字分解データと、京
都大学人文科学研究所附属漢字情報研究センター
を中心とする CHISE プロジェクト[13] で公開さ
れている漢字構造情報データベースを統合した
ものを利用している。補助ツールのページは総合
サイトからリンクされている。たとえば漢字部品
KAGE フォントサーバは基本的に HTML テキス
「厷」を使いたい場合、「宏」という字を検索する。
トから呼び出されることを想定しているが、SVG
その結果、「宏」という字の漢字分解データと、
から呼び出すこともできる。版本 CGI[14]と組み
逆に「宏」を漢字部品として持つ漢字が列挙され
合わせることにより、より見栄えのよい古典文献
る。この「厷」をコピー&ペーストすればよい。
コンテンツの作成に役立つと考えられる。
6.KAGE フォントサーバの活用例
フォントサーバを利用するとさまざまな分野の
漢字情報を Web コンテンツとして公開できる可
能性がある。
一番の対象となるのは中国の漢字文献であり、
版本の中の異体字や、竹簡や帛書などの異体字、
金文や甲骨文などの翻刻字、方言を書き表すとき
12 ● 漢字文獻情報處理研究 第 3 号
漢字フォント自動生成 サーバの構築(上地)
7.将来の拡張
8.おわりに
KAGE フォントサーバは完成したばかりであ
本稿では、漢字フォント自動生成サーバの紹介
り、今後は漢字部品データの整備と自動生成によ
を行い、漢字部品の組み合わせによる漢字表現を
る文字品質の改良を中心に作業を行っていく。漢
文字コード問題の一つの解法として提案した。実
字グリフ自動生成エンジンに関しては、CHISE プ
際にサーバはこれから本格的な運用段階に入る予
ロジェクトの「グリフ・字形情報の統合と合成」
定だが、多くの方に利用していただき、さまざま
部門と共同で研究を行う予定である。CHISE プロ
な意見をいただけたら幸いである。
ジェクトについては本誌「CHISE プロジェクト」
を参照願いたい。KAGE フォントサーバは Web
の表示と印刷に主眼が置かれているため、検索や
注
文字列のコピーなどには対応していないが、文書
[1] 当時は JIS C 6226 という名称だった。
処理システム内部の拡張に関しても CHISE プロ
[2] JIS 漢字の制定時は当用漢字が施行されていたが、私
ジェクトと共同で取り組みたいと考えている。
さらに筆者は漢字情報処理の新しい枠組みとし
が初めて JIS 漢字表を見たのは 1980 年代後半のこと
である。
て「パブリック・ネットワーク・フォント」の構
[3] http://www.itscj.ipsj.or.jp/domestic/mojicode/index.html
築を考えている。
[4]「文字コード標準体系専門委員会報告書(案)」情報処
パブリック・ネットワーク・フォント
漢字フォントの制作には非常に大きなコスト
が必要なため、アルファベットや仮名のように自
由に再配布が可能なアウトライン形式のパブリッ
ク・フォントは少ない。
筆者の考えるパブリック・ネットワーク・フォ
理学会情報規格調査会、2002(正式版は現在公開準
備中)
[5]『本と活字の歴史事典』印刷史研究会編、柏書房、
2000 年、190 ページ
[6] 田中哲郎ほか「部品合成による漢字スケルトンフォ
ン ト の 作 成 」、『 情 報 処 理 学 会 論 文 誌 Vol.36 No.9』、
1995 年、2122 ページ
ントとは、
「誰でも自由に使える」だけでなく「自
[7] http://www.microsoft.com/typography/web/(英文)
由に手直しできる」ことを目指している。書き手
[8] http://www.truedoc.com/webpages/intro/(英文)
が、埋め込んだ自動生成漢字グリフの品質に満足
[9] http://www.adobe.co.jp/epaper/main.html
がいかない場合に、多少の手間をかけて調整を行
[10] http://www.w3.org/Graphics/SVG/( 英 文 ) ま た は
い、サーバに蓄積させる。すると閲覧者は、調整
http://www.adobe.co.jp/svg/
されたグリフを用いてコンテンツを見ることがで
[11] http://www.xkp.or.jp/
きる。蓄積されたデータによって、以後同じ漢字
[12] http://www.fonts.jp/
を使う場合は調整が不要となる(もちろん、さら
[13] http://www.kanji.zinbun.kyoto-u.ac.jp/projects/chise/
に調整を施すことも可能である)。
[14] http://web.sfc.keio.ac.jp/~kamichi/kpl/viewer/hanpo
一歩進んで、調整されたデータを分析して他の
n.html
漢字グリフに再利用することも考えている。この
テキストを版本のように加工した SVG ファイルを自
ようにしてネットワークコミュニティーの中でパ
動作成する拙作の CGI
ブリック・フォントを育てていく仕組みを作れな
いかと模索している。
Journal of JAET vol.3 ● 13
漢情研メールマガジンについて
二階堂 善弘
漢 情 研 に お き ま し て は、 会 発 足 以 来、 主 に
り回転が速く、熱心な会員でも情報を追いかける
ネット上のバーチャル研究会として、電子掲示板
のが大変でした。また、会員でない方には、どの
(BBS)における活動を中心として、併せて書籍
ような情報が提供されているのか見えないという
や雑誌の発行、またイベント開催なども行い、情
報発信と会員の交流を図ってきました。
欠点もありました。
そのため、漢情研では掲示板にダイジェストを
しかし、漢情研 BBS における議論は、現在は
付設し、会員にとって簡便に情報が得られるよう
そうでもありませんが、ある時期においてはかな
にすると同時に、会員外にも広く情報を提供する
―――― Japan Association for East Asian Text Processing(JAET) ――――
△▼△▼△▼△
▽▲▽▲▽▲▽
漢 字 文 献 情 報 処 理 研 究 会
メ ー ル マ ガ ジ ン
△▼△▼△▼△
▽▲▽▲▽▲▽
―――――――――――― http://www.jaet.gr.jp/ ―――――――――――
========== 東洋学研究・教育の電子化と電脳漢字処理の最新情報 ==========
■□
■□
2002.9.15
第十七号
□■
□■
― [PR] ――――――――――――――――――――――――――――――――
Windows 中国語処理と電脳東洋学研究の最新マニュアル
┏━┳━┳━┳━┳━┳━┓
┃電┃脳┃中┃国┃学┃Ⅱ┃
本会編・好文出版刊
┗━┻━┻━┻━┻━┻━┛
http://jaet.gr.jp/denchu2/
┏━┳━┳━┳━┳━┳━┳━┳━┳━┳━┓
┃漢┃字┃文┃献┃情┃報┃処┃理┃研┃究┃
本会機関誌・好文出版刊
┗━┻━┻━┻━┻━┻━┻━┻━┻━┻━┛
http://jaet.gr.jp/jj/
■■□既刊:創刊号・第二号□■◇第三号は本年 10 月 5 日刊行予定です◇■■
お求めはお近くの書店か、オンライン通販窓口 http://jaet.gr.jp/shop/ にて
~~~~~~~~~~~~~~~~~~~~~~~~~~
◆◇ JAET-BBS ダ イ ジ ェ ス ト・2002.8.26 ~ 9.10 ◇◆
~~~~~~~~~~~~~~~~~~~~~~~~~~
・漢情研会員はリンクをクリックすると JAET-BBS の当該発言を閲覧できます。
―――――――――――――――――――
■雑談 <電脳・社会・学界をめぐって>
―――――――――――――――――――
○ 国会図書館が Web 保存へ
国会図書館がインターネットの情報資産の収集に乗り出す模様。収集方法
や許諾の問題も。
http://jaet.gr.jp/JAET-BBS/contents.cgi?room=ac2&mes=764
○ 中国で google が使用禁止になった?
どうやらフィルタリングをしていた模様(現在は復活)。中国におけるア
クセス制限の現状と、中国でも Google が使えるサイトの紹介。
http://jaet.gr.jp/JAET-BBS/contents.cgi?room=ac2&mes=768
○ 今晩のプロジェクト X
NHK の有名番組で、日本語ワープロの誕生秘話。
http://jaet.gr.jp/JAET-BBS/contents.cgi?room=ac2&mes=774
○ データベースの多言語化
ソフトウェア開発におけるレガシーコードの壁は未だ健在。
http://jaet.gr.jp/JAET-BBS/contents.cgi?room=ac2&mes=778
14 ● 漢字文獻情報處理研究 第 3 号
ようにしました。ただ、こちらはやはり掲
示板同様に「見に行く」ことが必要なため
か、あまりアクセス数は伸びませんでした。
このため、今度はもっとアクティブな
プッシュ型の情報公開を目指し、2002 年
1 月より、漢情研メールマガジンを発行す
ることにしました。このメールマガジンは、
漢情研 BBS で展開される最新の東洋学電
子化情報とパソコン多言語・多漢字処理情
報をダイジェストの形でまとめ、また学会・
講演会・シンポジウムなどの情報も掲載し、
毎月二回、1 日と 15 日に発行されます。
メールマガジンには、その時々の担当者に
よるコラムも不定期に掲載されています。
このメールマガジンは、漢情研会員・非
会員を問わず無料で講読できますが、掲載
される参照 URL には、漢情研会員専用コ
ンテンツも含まれています。
メールマガジンの購読は、
http://www.jaet.gr.jp/mag/index.html
から、どなたでも申し込むことができます。
なおバックナンバーも同ページにて公開し
ております。
求められる
特集1
学術
研究情報の
発信
「人文科学の研究とは時間がかかるものである。」これは人文科学の研究に少しでも携わった
ことのある者ならば、いたく共感できる言葉であろう。この言葉は、人文科学の研究への無知、
無理解からくる各種非難に対して伝家の宝刀のごとく使われ、これまではそれで済まされてき
た。しかし文部科学省のトップ 30 構想、国立大学の独立法人化といった動きを見れば解るよう
に、もはやこの「時間がかかるから仕方ない」で済まされる時代ではなくなってきている。何ら
かの目に見える形で示さねば評価どころか理解さえ示してもらえないというのが現実なのだ。し
たがって人文科学の研究者は、他から評価、理解してもらえる学術研究情報の発信について早急
に取り組まねばならないのである。
本特集はこの現状への憂慮から組まれたものである。 求められる とは人文科学の研究者の
間から求められるという意味と、人文科学の研究者が他から求められているという意味の双方を
含んでいる。本特集に掲載された各分野における現状報告、さらには情報発信の実例報告が、今
後の学術研究情報発信のあり方への一助となれば幸いである。
中国の現状・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・小川 利康 ・・・・・・ 16
国内図書館における学術研究情報発信の現状・・・・・・・・・・・・・・・・・・小島 浩之 ・・・・・・ 20
日本文学の場合・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・大内 英範 ・・・・・・ 24
新潟大学人文・敦煌プロジェクトについて
小規模な研究会による Web を使った情報発信の一例・・・・・・・・・・・・・岩本 篤志 ・・・・・・ 26
多漢字・多言語 Web サイト構築における諸問題 ・・・・・・・・・・・・・・・二階堂 善弘 ・・・・ 30
電子版学術雑誌をめぐる諸問題 『中国都市芸能研究』創刊始末記 ・・・千田 大介 ・・・・・・ 34
Journal of JAET vol.3 ● 15
求められる
特集1
学術研究
情報の発信
中国の現状
小川 利康(おがわ としやす)
て、研究者達は生き残りをかけ、競って研究成果
▌デジタル・アーカイブに求められ
るもの
デジタル・アーカイブに限ったことではないが、
を発表している。より手軽に、リアルタイムに学
術研究情報を手に入れたいというニーズは今後も
衰えるとは考えられないのである。
海外の中国人留学生の手で電子テキスト作成が
始められてから十数年、台湾では中央研究院で漢
文献資料庫にまず求められるのは「大而全」であ
籍電子文献、中国では超星図書館と、世界でも有
る。一分野に特化した「小而精」が求められるの
数のデジタル・アーカイブを擁するに至った(
『電
は二の次であって、現状では何よりも大規模で広
脳中国学 II』参照)
。すでに「大而全」という条
い分野を網羅したデジタル・アーカイブの充実が
件を満たし、さらなる発展、
「大而全、全而精」
先決である。
を目指す段階に入りつつある。もはや日本は中国・
その実現のために今何よりも求められているの
台湾の貧弱な図書館設備を笑うことはできない。
は組織的なアーカイブ構築への努力であるが、日
なりふり構わぬデータ構築に取りかかるべき時期
本国内の中国学研究においては残念ながら個人レ
である。
ベルの努力にとどまり、組織を挙げて十分な資金
以下で紹介する中国期刊網を利用すれば、中国
を投下してデジタル化を進める動きはまだまだ鈍
国内の学報に掲載された論文をほぼ全て網羅でき
い。
る。翻って日本では、
どれだけの大学で同様のデー
この背景には著作権への配慮だけでなく、紙媒
タを提供しているのだろうか。出来ぬ理由を並べ
体だけでも図書館で必要最低限の資料を簡便に閲
る前に一歩でも前に踏み出さねば遅れはいっそう
覧できる状況があると思われる。差し迫った必要
取り返しがつかなくなる。
がないから、あえてコストをかけてデジタル化を
進めようとしないのである。
本項では、中国における学術情報発信の一例と
して中国期刊網(http://www.cnki.net/)を紹介する。
翻って中国における研究環境からすると、日常
的に必要な文献資料を自由に手に出来るのはごく
ごく恵まれた研究機関だけである。多くの研究機
▌膨大な論文データベース
関では基本文献以上のものを漏れなく参照するの
中国期刊網は中国国内の学術誌(1994 年以
はほとんど不可能に近い。学術書の発行部数が激
降)をほぼ全てデジタル化した大規模な全文デー
減するなかにあっては、研究機関が必要としてい
タベースである。教育部の肝いりで清華同方公司
ても流通経路の関係で手に入らないケースも多い
が設立した中国学術期刊電子雑誌社が運営主体と
と聞く。ここに中国国内研究者の苦衷があり、デ
なっており、中国国内の研究機関ではほぼ全て導
ジタル・アーカイブへの需要が生まれる所以があ
入済みで、学内 LAN 経由で利用が可能になって
る。加えて、日本以上に厳しい大学間競争によっ
いる。Web 上の説明によれば、雑誌 6,600 種か
16 ● 漢字文獻情報處理研究 第 3 号
中国の現状(小川)
ら抽出された 625 万 3119 篇(02 年 8 月 15 日
現在)の題目、提要、全文データを収録している。
Web 上で公開する以前は CD ベースでの販売の
みだったが、現在は大きく分けて二通りの利用形
態が可能となっている。
があるが、ここでは触れない。
今年の春から若干画面デザインが変更され、簡
体字だけでなく、繁体字にも対応するようになっ
たほか、検索語が色分けされて表示されるように
1. DVD 版(分野ごとに料金が異なる)
なり、以前より見やすくなった。あまりにもヒッ
2. ネットワーク版(固定 IP アドレス及びユ
ト数の多くなる検索語であったり、深夜などの時
ーザ ID によるログインで課金、同時アク
間帯だとレスポンスが格段に悪くなる等の問題点
セスユーザー数及び利用する分野によって
もあるが、従来のように複印報刊資料やカードを
料金に違いがある)
繰るより遙かに便利であり、十分利用価値がある。
さらに言えば、年々増大する蔵書の保管に頭を
いずれの形態にしても全文データベースを利用
痛めている現状からすれば、DVD やネットワー
するには研究機関ごとにサイト・ライセンスが必
ク上で提供される全文データベースを購入した方
要で、原則として個人契約は出来ないものの、件
が遙かにスペースの節約になり、また、利用者に
名索引(タイトル、作者、提要など)だけならば
とっては時間の節約になることは間違いないだろ
無料で利用が可能である。以下では簡単にデータ
う。今や DVD というメディアの登場により、過
ベースの利用方法などを紹介しておく。
去 10 年分の先行論文データがわずか 3 枚に収ま
件名索引
研究機関によるライセンス利用が前提なので、
り(中国文学の場合。それでも 15GB あるのだが
…)
、本棚の片隅に置いておけるというのは筆者
にとっても驚異というほかない。この場を借りて、
全文データベースを利用できる読者は限られるで
一日も早く日本の研究機関でも導入するよう望み
あろう。まず先に誰でも利用可能な件名索引から
たい。
紹介する。
まずトップページ(http://www.cnki.net/)から
「中国期刊全文資料庫(CJFD)」の「免費題録」
全文データベースの実際
筆者が昨年一年間北京大学に滞在したおり、何
をクリックして、無料検索のページへ飛ぶ。期刊
度か中国学術期刊電子雑誌社を訪ねることが出来
網には他にも「中国優秀博碩士学位論文全文資料
た。応対してくれたセールス部海外担当の張曉茹
庫(CDMD)」
「中国重要報紙全文資料庫(CCND)」
女史によれば、国内の研究機関は期刊網をほぼ導
Journal of JAET vol.3 ● 17
求められる
特集1
学術研究
情報の発信
Windows を最初から使った方が楽である。図は
検索語を入力のうえ、検索結果を表示させた状態。
一枚ごとに 4.7GB、2 ∼ 3 年分ずつ入っている
ので、全てを検索するには、その都度ディスクを
入れ替える必要があり、全てを一括して検索でき
るネットワーク版より使い勝手が劣る。また、ネッ
トワーク版では毎日リアルタイムにデータベー
スが更新されるが、DVD 版の方は年に一回から
十二回までと分野ごとに更新頻度が異なる。こう
入済みだが、今後は海外にもデータベースを買っ
書くと DVD 版のデメリットが目についてしまう
てもらいたい[1]と考えているところであったと
が、ネットワーク版は年間ライセンス契約が切れ
いう。そのような思惑もあって、私はいかなる理
てしまえば手元に何も残らない。DVD 版ならば
由においても転売、貸与しないという条件で、中
購入しただけのものは手元に残る。どちらを取る
国文学分野限定の DVD データベースを譲っても
べきか難しいところである。DVD3 枚のデータを
らうことが出来た。
ハードディスク上に置くのも不可能ではないのだ
「オマエみたいな物好きは後にも先にもいない
だろう」ということなので、今後もライセンス契
約は研究機関以外とは結ばないとのことであった
から、直接北京の中国学術期刊電子雑誌社と交渉
から、少人数で運用するならば、やはり DVD に
軍配が上がるだろう。
CAJ Viewer の利用
するのが難しければ、やはり中国書を扱う書店か
続いて実際に論文を読むとなると、CAJ 全文瀏
企業に代理店となってもらい、ライセンス契約を
覧器という専用のブラウザが必要になる。DVD
結ぶほかないだろう。中国語の出来ない大学図書
に付属するものを使うか、期刊網の Web 上で無
館の代わりに北京との連絡役を研究者が恒常的に
料配布されている最新のバージョン[2]を使って
務めるのは決して理想とは言えない。
も良い。
さて実際の運用について見ておこう。DVD 検
ここでは機能豊富な新しいバージョンを例に見
索に当たっては検索ソフトをインストールし、パ
てゆこう。まず起動時に MS Office もどきの画面
ラレルポートにはハードウェアプロテクトキーを
が、ヘルプアシスタントとともに現れる。従来版
装着する。ソフトウェアが日本語版 Windows で
が余りにも素っ気ないインタフェースだったので、
は動かないので、中国語 Windows(98 系、NT
相当洗練された印象である。
系いずれも可能)が必須となる。Windows 2000
もっともベータが取れたばかりのバージョンの
ならばロケールの変更で対応が可能になると
せいか、現状ではヘルプアシスタントは全く機能
思われるが、安定した運用を考えると、中国語
しないのだが、待望久しい三つの機能が加わった。
18 ● 漢字文獻情報處理研究 第 3 号
中国の現状(小川)
なった。
唯一惜しまれるのは Acrobat への対応が ver.4
に 限 ら れ て い る こ と で、 現 状 で は CJK 全 て の
文 字 コ ー ド に 対 応 し て い な い た め、 汎 用 的 な
Acrobat Reader の代用として使うことは出来ない。
中国期刊網に限らず、超星図書館にしても専用
の Viewer を提供しているのは使い勝手のうえで
一長一短がある。超星のようにユーザーログイン
の煩雑さを解消しつつ、著作権保護の役割を果た
している点は長所であろうが、閲覧ソフトの出来
不出来によって、作業効率に大きな差が出てくる。
無制限な複写による著作権侵害を抑止する方策と
ともに、より利用しやすいようにインタフェース
の改良が望まれるところである。
1. OCR 機能
注
2. しおり機能
3. Acrobat ver.4 相当の文書の読み込み
[1] Web 上にはライセンス契約に必要な金額の計算式も
用意されているが、あくまでも国内向けであって、海
期刊網で提供される論文ファイルのうち半数以
上が画像であるため、OCR 機能は必須といって
もよいのだが、これまでは提供されていなかった。
外の価格は異なることに注意。いまだに二重価格制度
(!)が健在なのは残念の一言に尽きる。
[2] 現在 ver.5 が出たところだが、OCR 機能がついて便利
筆者がいくつか試した限りでは、清華文通から
になった反面、日本語 Windows では文字が全く正常
提供を受けた OCR 機能は読みとり精度も高く十
に表示できなくなってしまった。原因は専用フォント
[3]
分実用的に耐えるものである
。
がインストールされるようになったものの、そのフォ
このほか、しおり機能は膨大なタイトル数から
ントが日本語 Windows 上では利用できないことにあ
検索した結果を残す機能として重宝する。これま
るようだ。本誌が刊行される頃には解決されているか
では検索結果を残すには検索結果一覧をファイル
もしれないが、海外にもデータを提供するのならば、
として書き出すか、ヒットした論文をハードディ
せめて英語版は欲しいところである。
スク上に取り敢えず全て保存するなどの方法を
[3] ただし、一度に読みとれるのはページ半分程度までと
取らざるを得なかったが、この機能によって、前
なっている。超星図書館の SS Reader と同様に、著作
回検索した結果を手軽に残すことが出来るように
権への配慮がなされているためと考えられる。
Journal of JAET vol.3 ● 19
求められる
特集1
学術研究
情報の発信
国内図書館における
学術研究情報発信の現状
小島 浩之(こじま ひろゆき)
公開した[1]。
http://ge.nii.ac.jp/
▌はじめに
本稿では日本の図書館における学術情報発信の
取り組みについての現状をレポートする。なお本
稿はあくまでも一利用者の立場からの報告である
ことをあらかじめお断りしておく。
現在、GeNii で公開されているコンテンツは下
の表の通りである。
この表から明らかなように現在の GeNii の機能
は、NII の提供する各種データベースのポータル
サイトとしての趣が強い[2]。ただこれらのコン
テンツの中には学・協会など他機関との連携によ
▋ NII の動向
り成り立っているものも多い。
国立情報学研究所(NII)じたいは図書館では
GeNii には 11 種のコンテンツが用意されてい
ないが、大学図書館を中心とした国内の図書館に
る。このうち本特集に関連するものは、表の文献
深く関与する機関で
あるので、図書館に
準じて本稿で採り上
文献情報
げる。
1
略称
CiNII
2
Web-SOKUHO
3
NACSIS-IR
GeNii の公開
4
本 年 4 月 に、NII
5
( h t t p : / / w w w. n i i .
ac.jp/index-j.html) 図書情報
は国内外の各種学
術情報資源のポー
タルサイトとして
Global Environment
for Networked
Intellectual
Information(略称:
GeNii ジ ニ ー) を
6
7
研究者(機 8
関)情報
正式名
英語名
NII 引用文献情報ナ Citation information
ビゲーター
目次速報 Web
国立情報学研究所
情報検索サービス
NACSIS-ELS
国立情報学研究所電
子図書館サービス
Oxford Journals Oxford University
Press 刊行電子ジャ
ーナル
NACSIS-Webcat 総合目録データベー
ス WWW 検索サー
ビス
図書情報ナビゲ
ータ(仮称)
NACSIS-DiRR
研究活動資源ディレ
クトリー
学協会情報 9
Academic
society
homevillage
学術研究用 10 Sciterm
ツール
11 DTD Browser
20 ● 漢字文獻情報處理研究 第 3 号
備考
試験公開
The information
登録制
retrieval services of NII
一部登録制
NACSIS-Electronic
library service
一部登録
制・試験提
供
準備中
Directory of research
activities and
resources
国立情報学研究所
学協会情報発信サー
ビス
オンライン学術用語 Online scientific terms
集
国内図書館における学術研究情報発信の現状(小島)
情報の部分に当たる各コンテンツだろう。ただし
れる。
5は英国 OUP(Oxford University Press)ジャー
CiNII が“引用文献データ”と異なる点は、該
ナルのミラサイトであるので、日本の状況のレ
当文献が NACSIS-ELS に登録されている場合に、
ポートを求められている本稿からは少しはずれる
文献本文の表示が可能だということである(た
ことになる。
だし NACSIS-ELS は後述するように基本的に登録
1 の CiNII(サイニイ)は GeNii 公開と同時に
制)。つまり CiNII は既存のデータベースを上手
試験運用が始まった引用文献索引機能を有するコ
く統合し、新たなサービス形態を生み出したも
ンテンツ。この引用文献索引(citation index)に
のだと言えるだろう。現在は情報関係の分野に限
ついて『ALA 図書館情報学辞典』[3]には次のよ
定した試験公開だが、最終的には全ての学問領域
うにある。
における引用文献索引となるよう期待したい。な
お CiNII には「雑誌論文情報に加えて,図書情報,
基本的に、後に発表された他の著作の中で
研究者情報,研究プロジェクト(科学研究費補助
引用された著作のリストと、引用した著作
金研究成果等)情報とのリンク」[5]機能を追加
を集めたリストからなる索引。引用された
するということなので、今後の展開次第では単な
著作と主題が関連する、後から刊行された
る引用文献索引に留まらない広範な利用が可能と
著作を発見するために用いる。
なりそうだ。
2∼4はこれまでも行われてきたサービスであ
加えて現在では自分の論著がどの程度他人に引
り、贅言を要しないだろうが、一応簡単に概要を
用されているかを調べるのに利用される。これは
説明しておく。2は学術雑誌の目次内容を公開す
論文の被引用数が個人の業績評価や学術雑誌、学
るもの。NACSIS-IR で提供されている“学術雑誌
会、学術機関の相対評価に利用される場合が出て
目次速報データベース”の簡略版だと言える。3
きたからである。この傾向は人文科学分野でも例
は1や2の元データを含めた、様々なデータベー
外ではなくなってきている。しかしながら、日本
スが検索できるサービス[6]
(2002 年 7 月現在
の人文科学分野における引用文献索引は特筆すべ
53 のデータベースが使用可能)、4は各種学術雑
きものをあまり聞かない。従って人文系の研究者
誌に掲載された論文を電子的に公開、提供する
にとって自分の論文が国内に於いて誰のどの論著
サービス[7]である。2は利用制限が無く自由に
に引用されているのかを知ることは容易ではない
利用できるコンテンツ。3は基本的に登録制で、
[4]
。
各データベースを呼び出す度に課金されるしく
これに対し国内でも自然科学分野では、NII が
みである。また4は雑誌により課金システムが異
NACSIS-IR を通じて“引用文献データ”を公開し
なり、一律無料のもの、学会員・非会員により料
てきた。CiNII はこの延長上にあるものと考えら
金が異なるもの、一律一定額課金されるものなど
種々のパターンがある[8]。
機関別定額制の導入
ところで、NACSIS-IR と ELS について、表記の
ような制度が本年4月より開始された。両サービ
スはこれまで個人単位の申請が基本であった。こ
れに対し、
機関別定額制は、利用の申請を機関(大
学等)単位で行えば、その機関に属する個人は、
個人申請をせずとも NACSIS-IR および ELS のサー
ビスが受けられるというものである[9]。
Journal of JAET vol.3 ● 21
求められる
特集1
学術研究
情報の発信
料 金 は 機 関 の 規 模 に 応 じ た 定 額 制 な の で、
一点に関しては少し言及しておこう。
NACSIS-IR を頻繁に利用する人の場合は、メリッ
2001 年 1 月 31 日に発表された
“全国書誌サー
トが大きくなった。これまでのように検索の度に
[14]
ビスの新方針”
では、
今後の NDL の OPAC サー
利用料金を気にする必要が無くなるからである。
ビス(新 OPAC)について平成 14 年度以降の方
また NACSIS-ELS に関しても、機関別定額制に
加入することで、個別に使用料金を徴収されずに
[10]
閲覧できるものが増加している
向性が明示されている。すなわち新 OPAC では、
現在の書誌情報(和書 1948 年以降の約 200 万件、
洋書 1986 年以降の約 20 万件)の他、さらに古
。
機関別定額制の登録機関は、2002 年 7 月現在
い時期の書誌情報、古典籍資料の情報など 11 の
で 300 機関を超えた[11]とのことなので、まず
情報を新たに提供する予定だという。興味深いの
は順調な滑り出しと言えるだろう。
はこの中に雑誌記事索引の提供が含まれているこ
こういったデータの利用に際しては、利用者と
とである。これに関しては、本年の5月に発表さ
してみれば無料であることに越したことはない。
れた“書誌部のスタートにあたって”[15]も注目
しかし著作権者は対価(著作権料)を要求する。
に値する。ここでは雑誌記事索引を NDL-OPAC
(=
著作権者の要求は正当なのだが、この料金が高
新 OPAC)に搭載することが明確に述べられてい
かったり、手続きが繁雑だったりすれば、利用者
る。
は減少する。利用者が減少すれば著作権者は金銭
周知のように雑誌記事索引は NDL 所蔵の雑誌
面での大きな打撃を被る。その結果新たなデータ
の記事内容についての索引である。これまで冊
の作成・提供が不可能になる。つまり著作権者、
子体や CD-ROM で提供されてきたほか、業者に
利用者の双方が自己に都合の良い主張を繰り返し
よる Web 上の有料サービスも存在する[16]。冊
て譲らないと、結局のところ円滑な学術情報の伝
子体しか存在しなかった部分も遡及的に電子化が
達が阻害され、ひいては学術の停滞に繋がる恐れ
進んでおり、国内雑誌論文の検索には欠かせない
すらある。
ツールとなっている。残念ながら現状の NDL の
これを防ぐためには、利用者・著作権者双方の
サイトを見る限りでは、雑誌記事索引が広く無
利害を十分に検討し、どちらの要求も有る程度満
料で提供されるのかはっきり解らない。しかし
足させることが肝要だろう。筆者は、この意味で
OPAC に搭載されるということは、無償公開の可
機関別定額制という方法が、一つの解決策として
能性が高いのではないかと推察される。一利用者
評価できると考えるのだが、どうであろうか。
としては是非そうあって欲しいと願うばかりであ
秋以降、新たな展開も計画されているようで
る。
[12]
、GeNii の今後の行方に目が離せないだろう。
大宅壮一文庫雑誌記事索引 Web 版
大宅壮一文庫(http://www.people.or.jp/~oyabunko/)
▌その他の図書館の動向
は明治時代から現在までの約1万種の雑誌を所
蔵する私設図書館である。学術雑誌を中心とした
国立国会図書館(NDL)の動向
記事索引としては前述の NDL のものが存在する。
NDL は今秋に関西館の開館を控えている。関
しかしそれ以外(週刊誌、総合誌など)の過去の
西館は我が国の電子図書館における中核機能を有
雑誌記事を検索するには、大宅壮一文庫雑誌記事
する施設となるため、本年の 10 月以降に様々な
索引に頼るしかない。従って、この索引は重要な
新しい試みが具体化されると考えられる。本稿が
参考ツールとして図書館に行けば必ず常備してあ
公になる時点では何らかの変化がある可能性があ
るものの一つである。
[13]
るが、現状ではまだ不透明な部分も多い
。従っ
てあまり踏み込んだ論評はできないのだが、次の
22 ● 漢字文獻情報處理研究 第 3 号
先頃、この索引が Web 上で公開されることと
なった。
国内図書館における学術研究情報発信の現状(小島)
Web OYA-bunko
Citation Index)は人文科学分野の引用文献索引として
http://www.oya-bunko.com/index.html
ただし、これは機関別の定額制のみの契約で、
有名。A&HCI は世界の人文科学分野の雑誌 1,100 誌
以上を押さえている。
個人単位の利用契約はできない。本年の7月より
[5]前掲注1URL 参照。
開始されたばかりのサービスなので、まだ利用で
[6]NACSIS-IR の具体的なシステム構成、検索方法などに
きる機関は少ないだろうが、今後の展開が楽しみ
ついては木村優 [ ほか ]「情報検索サービス NACSIS-IR
である。
の新たな展開」(『情報の科学と技術』50-1, 2000.1)
を参照。
[7] NACSIS-ELS については安達淳「電子図書館 − シス
▌おわりに
テム構築にみるその外延と内包−」( 日本図書館学会
本稿は本特集の補足的な形で、日本における図
研究委員会編『電子図書館:デジタル情報の流通と図
書館界の学術情報の発信について筆者の興味のま
書館の未来(シリーズ・図書館情報学のフロンティア
まに述べてみた。ただ NII にしても NDL にして
も今秋を一つの区切りとして事業に取り組んでい
るようなので、現段階では不透明な部分も多い。
従って本書の出版時には相当な変化がみられる可
能性もある。
No.1)』勉誠出版 2001.11 所収 ) を参照。
[8] 料金は表示と印刷に別れており、表示は可能でも印刷
する場合は有料となることもある。
[9] 機関別定額制については http://www.nii.ac.jp/service/t
eigaku/index.html を参照。
また本稿では主に調査・研究の上で重要なツー
[10] 具体的には収録雑誌一覧(http://www.nii.ac.jp/els/co
ルである索引の話題について紙幅を費やした。そ
ntents-j.html)において、機関別定額制許諾が許可にな
のためこれ以外の学術情報の発信についての話題
っているもの、著作権使用料が無料のもの、料金表の
[17]
が抜け落ちてしまっている
。この点、読者の
ご寛容を乞う次第である。
非会員料金が 0 円のものが利用可能である。定額制で
も有料扱いの電子ジャーナルを閲覧、印刷したい場合
は、これまで通り個人で申請をするしかない。
[11] http://www.nii.ac.jp/service/teigaku/news/index.html
注
[12] 具体的には前掲注1URL を参照。
[1] GeNii の概要については http://ge.nii.ac.jp/outline-j.html
を参照
[2] GeNii 公開の直前の 2002 年 3 月には、総務庁の勧告
[13] 今後の NDL における電子図書館の展開については、
NDL の Web サイト中の“プロジェクト”および“当
館について”の各コンテンツを参照。
によって NII と科学技術振興事業団 (JST) 両機関の情
[14] http://www.ndl.go.jp/service/bookdata/010131_2.htm
報関係事業の整理・統合が行われた。この結果、各々
[15] http://www.ndl.go.jp/service/bookdata/020531_1.html
の機関内での事業整理の他、これまで NII の提供サー
[16] 詳細は日外アソシエーツの Web サイト(http://www
ビスであったものが一部 JST に移管されたりもしてい
.nichigai.co.jp/)を参照のこと。また NACSIS-IR でも検
る。詳細は“今後の国立情報学研究所サービスの概要”
索可能である。
(http://www.nii.ac.jp/brief/JSTrenkei/index-j.html)参照。
[17] 例えば、多くの大学図書館では博士論文や修士論
[3] ALA は ア メ リ カ 図 書 館 協 会(American Library
文の題目、抄録などをデータベースとして公開してい
Association)の略。この辞典の日本語版は 1988 年に
る。これらの話題についても当然ふれるべきなのだろ
丸善より発行されている。
うが、今回は割愛した。なお題目、抄録だけでなく
[4] 欧文誌の引用文献索引で、Web で提供される代表的
青山学院大学修士論文全文データベース
なものとしては Web of Science(有料)がある。Web
http://www.agulin.aoyama.ac.jp/thesis/thesis.asp
of Science は「SCI」
「SSCI」
「A&HCI」 の 各 引 用 文 献
のように修士論文の全文を PDF で公開しているよう
索引の Web 版。このうち A&HCI(Arts & Humanities
な例もある。
Journal of JAET vol.3 ● 23
求められる
特集1
学術研究
情報の発信
日本文学の場合
大内 英範(おおうち ひでのり)
シリーズ」と銘うたれたコーナーでは、成立論を
批判して相補論を展開する7本もの論文を読むこ
▌ 0. はじめに
とができる。日本古典文学の分野で、これほど系
日本文学の分野においてもさまざまな学術研究
情報がインターネットで発信されている。今回は
まず論文等のオンライン公開についての現状の一
統だった論文のオンライン公開は他にないだろう。
1.2 機関・学会等による公開
端を報告し、ついで、つい先日公開された「怪異・
機関や学会等による論文そのもののオンライ
妖怪伝承データベース」と海外における日本文学
ン公開というのもあまり聞かないが、紀要等のオ
の受容・研究状況についての情報発信を中心にと
ンライン化について検討されている旨の噂は耳に
りあげる。
することがある。なお、学会誌等のオンライン公
開を行なっている国立情報学研究所の電子図書館
▌ 1. 論文等のオンライン公開
サービス(NACSIS-ELS)には、執筆時現在で日
本文学関連の学会の登録はない。論文目録データ
ベース等で検索し、必要な論文をダウンロードす
1.1 個人による公開
るというような段階に移行するには、まだまだ時
日本文学、特に古典文学に限っていえば、論
間と理解が必要とされそうである。
文そのものをオンライン公開することはまだ一
論文とはやや異なるものの、たとえば国文学研
般的にはおこなわれていない。研究者個人が自分
究資料館で毎年開催されている「シンポジウム・
の論文のうちのいくつかをオンライン公開してい
コンピュータ国文学」は、その講演集を印刷・発
るきわめて稀な例のひとつを挙げれば、たとえば
行しているが、原則として冊子体での発行を最小
愛知教育大学の田口尚幸氏のサイトがある(「愛
限にとどめてオンラインでの閲覧に移行する旨の
知教育大学田口研究室」http://www.kokugo.aichi-
アナウンスがなされている。ただし、まだオンラ
edu.ac.jp/taguchi/taguchi.html)。
インでの公開は始まっていない。早期の公開を期
ここでは伊勢物語成立論批判で有名な氏の論文
待したい。
のいくつ
かを閲覧
すること
が で き る。
特 に「 伊
▌ 2. 怪異・妖怪伝承データベース
http://www.nichibun.ac.jp/youkaidb/
国際日本文化研究センターのサイト内にある、
勢物語の
今年 6 月に公開されたデータベース。小松和彦
配列順相
氏(同センター)を中心とする科研の成果公開で
補的解釈
ある。これまで民俗学の雑誌や文献に個別に報告
24 ● 漢字文獻情報處理研究 第 3 号
日本文学の場合(大内)
されてきた怪異・妖怪の事例を網羅的に収集して、
データは書名(漢字・かな・ローマ字)また
検索機能付きのデータベースとして構築されてい
は国名で検索できる。あるいは書名と国名の and
る。データ数は執筆時現在で 13,364 件。
検索も可能だ。収載データを見るとやはり写本よ
検索はキーワード検索、地域別検索、呼称から
りは板本が圧倒的に多い。某国の武器庫に兵法の
の検索と、さまざまな視点から可能。ちなみに呼
板本が収蔵されていることがわかるなど、結構楽
称検索で「ハナコサン」は 8 件、
「クチサケオンナ」
しいデータベースである。
は 57 件にヒットした。もちろん「オニ」や「テ
このデータベースは 1 カ国に限らずヨーロッ
ング」、「ザシキワラシ」などの伝統的な妖怪も網
パ各国(執筆時現在で 20 カ国)にまたがるデー
羅されている。なお、学術データベースであるか
タを提供しているところに特徴があり、公開直後
ら(?)、「ヌリカベ」や「イッタンモメン」、「ヌ
から海外からの問い合わせが相次いだ。公開後1
ラリヒョン」にはヒットしなかった。
年を迎えようとしている現在でもコンスタントに
ヒットしたデータを個別にたどって見ると、呼
称/執筆者/論文名/書名などの書誌/掲載箇所
/地域などのデータとともに、100 字程度の要
約が載っているのがうれしい。
今後もデータのさらなる充実が予定されてい
るとのことで、また検索機能もこまめにチューン
利用されているようだ。
3.2 外国語による日本文学研究論文リスト(暫定版)
http://www.nijl.ac.jp/~t.ito/HTML/kaken01/
2001_html/list_01.html
伊藤鉄也氏の科研「外国語による日本文学研究
ナップされているようであるから、ますます目が
文献のデータベース化に関する予備調査」の web
離せないデータベースである。
公開されている研究成果報告書に付随する資料で
ある。
▌ 3. 海外における受容・研究に関連して
外国語で発表される日本文学関連論文まで目を
行き届かせている研究者はあまり多くないだろう。
さて最近、海外における日本古典文学の受容・
ただ近年、海外における日本文学研究の質的向上
研究というものが注目されているが、国文学研究
には目覚しいものがあり、そうそう無視を決め込
資料館でもいくつかの試みがなされているので紹
んでばかりもいられなくなりそうである。そうし
介したい。
た場合、このようなリストがあればとても助かる。
以下に挙げる 2 つの目録・データベースはい
海外・国内の両方で活用されるべきリストである。
ずれも伊藤鉄也氏を中心として作成されたもので
現在は英語で書かれた論文に限定されているが、
あり、筆者も何らかの形で関わっているものであ
現在、韓国語で書かれた論文のリスト作成作業が
る。
進んでいる。将来的には各国語にまたがったリス
3.1 欧州所在日本古書総合目録
http://asuka.nijl.ac.jp/xml/korn/index.html
林望氏とピーター・コーニツキー氏(ケンブリッ
トから、日本語で付与されたキーワードによる検
索を実現させるためのシステムを準備していると
ころであり、実現した段階であらためて紹介した
いと思う。
ジ大)により 1988 年に発足した同名のプロジェ
クトのオンライン版である。紙媒体ではすでに両
氏によるアーネスト・サトウの蔵書目録である「ケ
ンブリッジ大学所蔵 和漢古書総合目録」(1991
年 八木書店)などが出版されているが、将来的
にはそのデータもすべて収載され、オンライン検
索に供されるはずである。
Journal of JAET vol.3 ● 25
求められる
特集1
学術研究
情報の発信
新潟大学人文・敦煌プロジェ
クトについて
http://h0402.hle.niigata-u.ac.jp/~dunhuang/
小規模な研究会による
Web を使った情報発信の一例
岩本 篤志(いわもと あつし)
スとして他者に提供していけるのが理想的であろ
▌はじめに
ここ数年のうちにネット上、または電子媒体で、
う。文字資料が書かれていた竹帛や古紙自体を復
元してみることでわかることもあるが、電子デー
タに加工したことで、読みとれることもある。記
中国古典研究に欠かせない大規模な漢籍データ
される媒体の差異を考えて、資料の読み方を考え
ベースが続々と公開されてきた。台湾中央研究院、
ることは版本考証や点校の付け方を考えることに
中華電子仏典協会、香港中文大学、中国国家図書
似た、基礎的で大切な作業ではなかろうか。
館、京大人文研、東大東文研、東洋文庫などの機
関や組織が公開してきたオンラインデータベース
筆者はほんの微力だが、そういう作業に関係し
てきたつもりである(「包山楚簡データベース」
、
や CD-ROM で発売されている四庫全書検索版や
『電脳中国学』所載)
。ただ、先述のような大規模
四部叢刊などの有用性は、いうまでもないことで
な学術データベースを構築できる環境にいるわけ
あろう。
ではなく、そんななかで何ができるのか常に模索
では、研究者はこうしたデータベースやその機
関の Web ページで公開されている情報を単に利
用していくだけでよいのであろうか。
ほとんどの人はデータベースを利用することで
自分の研究の助けになればいいと思っているはず
してみたいと思っている。
本稿では、筆者が参加した新潟大学人文・敦煌
プロジェクトの取り組みをとおして少数の構成員
からなる研究会やプロジェクトからの情報発信に
ついて考えてみたいと思う。
である。しかし、それにはまず、コンピュータで
史料・資料を検索・整理すること、についてもっ
と考えてみることが不可欠であり、さらにその考
えやオリジナルなデータをネット上やデータベー
26 ● 漢字文獻情報處理研究 第 3 号
▌ 1.
プロジェクトの概要
新潟大学は、平成 12(2000) 年度からプロジェ
新潟大学人文・敦煌プロジェクトについて(岩本)
クト推進経費をもうけ、学内から学際的な研究プ
f) 報告書
ロジェクトを募集した。このプロジェクト募集に
対し、關尾史郎人文学部教授が中心となり、人文
冊子体で作成した2冊の報告書の目次があり、
学部や教育人間科学部、留学生センター、大学院
現在4点の論文・記事が PDF で閲覧できるよう
現代社会文化研究科に所属する様々な分野にわた
になっている。
る中国学の研究者 (11 名)の参加を募って「敦
煌文献の総合的・学際的研究」という名称で申請
次にこの Web ページ作成の経過について少し
述べておこう。
がなされ、採択された。また、翌平成 13(2001)
Web サイトは、サーバを作ることからはじめ
年度にも研究プロジェクトが募集され、前年とは
た。敦煌プロジェクトでは、URL に新潟大のア
少々メンバーを変えて同人数の構成員で「敦煌文
ドレスが入っていることがのぞましかったことと、
献とその出土地域に関する総合的研究−敦煌文献
データベースの構築・公開も視野にあったため、
の総合的・学際的研究Ⅱ−」として申請され、採
CGI や SSI を自由に使える環境が必要であった。
択された。研究費のほとんどは敦煌学研究のため
それで、サーバを独自に準備することにした。
の共同利用図書の購入にあてられ、この2年間に
サーバは東洋文化史研究室でご用済みとなって
計7回の報告会が行われ、2冊の報告書と関連の
いた Pentium 133MHz という低スペックなマシ
書籍が1冊刊行され、プロジェクトは2年間で十
ンに OS は Linux、サーバソフトは Apache で運
分な成果をうみだした。そして学内のプロジェク
用している。もちろん、セキュリティ面では注意
トではめずらしく、専用の Web サイトがつくら
している。
れ、小規模ながらデータベースも公開するに至っ
た。
もし、研究用にサイトを作りたければ、大学が
準備している教員用のサーバを利用してみること
をまず、おすすめする。(そういうサポートがあ
▌ 2. サーバの設置と Web ページの作成
新潟大学人文・敦煌プロジェクトの Web サイ
れば、である。)
大学の規模にもよるのだが、国立大学の場合、
ネットワークにさく人員の数が私大にくらべて、
トを構築したのは、このプロジェクト 2 年目の
圧倒的に少ない場合が多いようなので、Web 関
終わりの頃(2001 年 11 月)であり、2002 年
係ではサポートは望めない。逆にサーバをそこそ
度は残念ながら学内プロジェクトの選に漏れたが、
こ管理できる自信があるなら、国立大学の自由な
コンテンツを増やしながら、Web サイト自体は
状況(=リスクのある状況)をポジティブにとら
現在もなお、稼働中である。紙面の都合上、画像
えて、積極的に活かすべきであろう。
は省くので是非 Web ページを実見していただき
たい。構成を紹介しておく。 a) 掲示板
メンバー用とメンバー以外の利用を想定し
た2つの掲示板がある
▌ 3.『俄蔵敦煌文献』収載文献デー
タベースの概要
本サイト最大の目玉は「
『俄蔵敦煌文献』収載
b) 俄蔵敦煌文献所載文献データベース
文献データベース」である。このデータベースは
c) 敦煌文献関係インフォメーション
本プロジェクトで刊行した2冊の報告書に含まれ
東洋文化史研究室(關尾史郎)による敦煌
ている關尾史郎・玄幸子「『俄蔵敦煌文献』収載
文献関係の書評、情報提供など
文献一覧(稿)」Ⅰ、Ⅱをもとに作成した。冊子
d) リンク集
体の報告書では利用者が限定されるし、目にも付
e) 研究会情報などの専用掲示板
きにくいが、Web で公開することにより、広く
Journal of JAET vol.3 ● 27
求められる
特集1
学術研究
情報の発信
世界中の研究者の利用を期した。
『俄藏敦煌文獻』とは、俄羅斯(ロシア)科学
院東方研究所聖彼得堡(サンクト=ペテルブルグ)
分所・俄羅斯科学出版社東方文学部・上海古籍出版
社編『俄羅斯科學院東方研究所聖彼得堡分所藏敦
煌文獻』(上海古籍出版社・俄羅斯科学出版社東方
文学部,1992 年 12 月∼)のことである。これ
はロシアの東洋学研究所のサンクト=ペテルブル
グ支所に所蔵されている敦煌文献を撮影して掲載
した大部の図録本で、第 17 冊まで刊行される。
本データベースはこの『俄藏敦煌文獻』に掲載
される文献のデータ①を軸に参考資料、参考資料
となる以下の②③④の書籍の該当個所を記したも
「沙州」で検索した検索結果表示
のである。
を参照すれば『俄藏敦煌文獻』が様々な分野の研
①『俄藏敦煌文獻』
究に利用しやすい環境がそろったのである。デー
②孟列夫主編/袁席箴・陳華平訳『俄藏敦煌
タベースの形にして Web 上に公開したことで、
冩巻叙録』上下二冊 上海古籍出版社,
1999 年 7 月(データベース内では「目録」
と略記)
③丘古耶夫斯基著/王克孝訳/王國勇校『敦
その価値はより高くなったといえる。
2002 年 7 月 に 従 来 の 第 1 ∼ 5 冊 分 ( Ф ナ ン
バー ) にプラスして第 6 冊分(Дхナンバー)を
加え、データの総件数は 1,200 点を超えている。
煌漢文文書』上海古籍出版社,2000 年 6
仏典が一番多いが、史書や医書なども中には含ま
月(「文書」と略記)
れている。
④池田 温『中國古代冩本識語集録』東京大
この Web サイトとデータベースの紹介を漢字
学東洋文化研究所,1990 年 3 月(「集録」
情報処理研究会の掲示板で紹介させていただいた
と略記)
ところ、師茂樹氏が仏教学者のメーリングリスト
である H-BUDDHISM に紹介してくださり、まも
『俄藏敦煌文獻』は1冊でも片手ではとても
なく、アメリカ・フランス・ドイツ・カナダ・ニュー
もてないような大型の図録本である。目次がある
ジーランド・台湾・香港・デンマーク・オースト
とはいえ、必要とする文書を探すのも骨の折れる
ラリア・ハンガリー・オーストリアの大学や研究
作業である。その上、図録本だけでは、それまで
機関などから幾たびとアクセスがあったことには
その文書について何が言及されてきたのかを全く
非常に勇気づけられた。こういう基礎的な仕事へ
知ることができない。そこで何冊かの関連書籍を
の注目は海外の方が高いのかもしれない。
くっていくわけだが、排列が同じではないので手
今のところ、筆者もプロジェクトのメンバーも
間がかかる。そんなこんなで目的の文書をさがし
こういった国際的な学術 ML などに所属していな
だして、基本的な情報を得るだけで一苦労である。
いが、今後、積極的に参加して、同時にプロジェ
このような作業を誰もがくりかえさないとロシア
クトの仕事をアピールしていくことができれば、
蔵の敦煌文書が研究に利用できないのだとしたら、
と思っている。
研究の進展は遅々としたものにならざるをえない。
このようなデータベースは汎用性の高い編纂史
しかし、關尾・玄氏がそのような手間のかかる仕
料の検索ができるデータベースとは異なり、利用
事を担われ、目録をまとめられたおかげで、これ
者が限定されるが、あればとても便利なものであ
28 ● 漢字文獻情報處理研究 第 3 号
新潟大学人文・敦煌プロジェクトについて(岩本)
り、小さなプロジェクトや研究会でもないと作
らない細やかな作業である。このことは大規模な
データベースの構築に関与しているわけではない
ほとんどの研究者が注目すべき点であると思う。
▌おわりに
以上、本プロジェクトで作成した Web ページ
およびデータベースについて解説した。まず、本
▌ 4. データベース構築の過程
Web サイトの残された課題は、今後、国内外の
研究者、研究サイトとどのように連携をとってい
ネット上のデータベースソフトとしては数種類
くのかということと、本誌で多くの記事に見られ
の選択肢がある。たとえば PostgreSQL、MySQL、
るようにデータベースを Unicode 対応させてい
CGI を用いたデータベースである。本データベー
くことが必要であろう。
スでは結果的に全文検索エンジンである Namazu
(http://www.namazu.org/) を使った。
Namazu とはオープンソースの全文検索エンジ
そして、小規模な研究会、プロジェクトが作成
するデータベースについて、筆者が強調したいの
は以下の 2 つである。
ンソフトで、国会図書館の Web ページをはじめ
多くの官公庁・大学・機関でもちいられている。
①国内では利用者が限定されるような専門性
全文検索エンジンであるため、1 データは 1
の高いデータベースこそ、Web 上に構築
ページ分の Web ページになるので、1,200 件の
する意味がある。
データベースを構築するとすれば、1,200 ページ
②データベースの作成には手間やコストがか
準備しておく必要がある。このように大量に同じ
かるが、ソフトや機器のコストはあまり
フォームのデータを Web ページとして作成する
かけずに公開にこぎつけることが可能であ
ために筆者はいくつかフリーウェアを用いて処理
る。
した。 結果的に、このデータベース構築のためにサー
ここ一、二年、大学改革への動きが急ピッチに
バ OS(Linux) やソフトウェアにかけた経費はゼロ、
進んでおり、ロースクール、マネジメントスクー
である。しかもサーバの機械も古くて使わなく
ルなどの言葉がたくさん飛び交う中、人文研究こ
なった PC を活用している。フリーウェア、オー
そ学問らしいではないか、というつぶやきのよう
プンソースなプログラム・OS の作者らに感謝す
な声がきこえてくるだけのような気がするのは、
ると同時に、このような有用な道具を是非、多く
こころもとない。文学や歴史、哲学といった人文
の人に積極的に研究に広く利用していただきたい
研究者は研究者同士の交流のために、そして世界
と思う。
に、社会に認知されるために戦略的にネットを活
つまりは、能率良い作業には一定のコストをか
ける必要はあるとはいえ、人文系研究情報の公開・
用して存在をアピールしていこうと、いうのは、
力みすぎなのだろうか。
アピールのために設備に大きなコストをかける必
筆者は Linux サーバの設定がとりあえずできる
要はかならずしもない。必要なのは目のつけどこ
程度にすぎない。今後も今いる状況の中で自分は
ろ、とか、データをコンピュータでどう処理すれ
何ができるのか、何をしたらベストか、それを考
ば合理的かを考えることと、正確に大量のデータ
えていきたいと思っている
を入力する能力もしくはその方法である。
最後に繰り返しになるが是非、新潟大学人文・
敦煌プロジェクトのページをごらんいただきたい。
http://h0402.hle.niigata-u.ac.jp/~dunhuang/
Journal of JAET vol.3 ● 29
求められる
特集1
学術研究
情報の発信
多漢字・多言語 Web サイト
構築における諸問題
二階堂 善弘(にかいどう よしひろ)
にある。
▌ Web の多言語・多漢字化
Web 上で Unicode を使用するには、UTF-8 ま
たは UTF-16 を使うことが多い。
OS やアプリケーションソフトの Unicode 対応
UTF-8 に は、 す で に Internet Explorer 4.x や
が進むにつれて、複数言語が混在した多言語文書
Netscape Navigator 4.x、Mozilla 1.0 など、ブラ
や、数万字の漢字を使用した多漢字文書を作成す
ウザのほとんどが対応している。また OS レベル
ることは容易になった。
で も、Windows・Mac OS・Linux な ど、 ク ラ イ
ただ、このような文書を配布する場合、印刷さ
れた文書と、ネット上の Web ページではかなり
条件が異なっている。
印刷文書を配布する場合は、特定ユーザの OS
アントとして使用されると想定されるものの大半
は UTF-8 を使っての表示が可能となっている[1]。
問題はむしろ、閲覧するユーザの側が、多漢字
や多言語の表示に必要なフォントを持っているか、
とアプリケーションが対応してさえいれば、プリ
ということの方にある。たとえば、日本語と韓
ントアウトされた資料をコピーしてそれで事足り
国語と中国語の混在 Web サイトを開設したとし
るであろう。しかし、Web 文書の場合は、作成
ても、日本語のフォントしかセットされていない
する側の環境が整っているだけでは不十分で、そ
ユーザでは、韓国語のハングル領域と中国語の簡
のページを閲覧する側の環境に左右されてしまう
体字領域の部分は見られない。
ことが多い。
そのためか、現在でも Web ページにおいては、
Windows XP であれば、たとえば日本語版でも
中国語や韓国語などのフォントはセットされてい
Shift-JIS や GB 2312 など、旧来のコードなどを
るが、他の言語となるとやはりユーザが設定する
使ったものがほとんどである。インターネットは
必要がある。また Internet Explorer は、表示で
「国際化」の有用なツールであるが、Web サイト
きない言語のフォントを自動的にダウンロードす
の文字コード自体はあまり国際化されていない状
る機能を有しているが、これでも多言語や多漢字
況にあると言えるかもしれない。
の表示について十分とはいえない。
ただ、現在ではこういった状況に変化が見ら
しかし、それにしても多くのユーザが UTF-8
れる。多言語を前提とした Web サイトが徐々に
を使った Web ページを閲覧できる環境は整いつ
ではあるが増えてきているのである。これはイン
つあり、それを受けて Google[2]などの有力な
ターネットの普及に伴い、ユーザが新しいブラウ
サイトが、UTF-8 化を行っている。そのため現在
ザを使用することが多くなったことや、古い OS
では、Google の検索結果は、たとえ日本漢字で
を使用しているユーザが減りつつあることが背景
検索しても、中国語や韓国語の関連情報があった
30 ● 漢字文獻情報處理研究 第 3 号
多漢字・多言語 Web サイト構築における諸問題(二階堂)
場合は、多言語混在の形で検索結果が表示される。
あり、統合する漢字と統合しない漢字の基準が曖
このようなサイトは今後とも増加し、おそらく
昧であるために起こったものと言える。ただ、現
文字コードを単一の UTF-8 だけで運用するとこ
在これを修正するべき手段も無い以上、Web サ
ろも多くなるであろうと予想される。
イトの作成側で工夫をする必要がある。
しかし、UTF-8/16 を使った Web サイトが一
般化するにつれて、これまで顕在化していなかっ
た問題が出てくると考えられる。ここでは、それ
らの問題について些か目を向けてみたい。
▌言語の指定を行うには
「与」「画」の問題は、実際に幾つかの多言語
混在 Web サイトですでに発生してしまっている
▌「与」
「与」問題
日本語と中国語を混在する場合、印刷文書であ
れば、それぞれフォントを指定すれば、簡体字文
書と日本語の新字体を取り違えることはない。
[3]
。
この他にも、幾つかの言語を混在する場合には
種々の問題が起こりうる。これを回避するには、
Web ページ自体で言語を指定する必要がある。
これまではフォントの名称を直接指定すること
しかし、Web 文書においては、それが容易に
が多かった。しかし、閲覧するユーザの環境は多
起こりうる。特に厄介なのが、日本語と中国語で
岐にわたり、指定されたフォントを持っていない
同じエリアを付与されていながら、字形がかなり
場合がほとんどであろう。そして、その場合は結
異なる文字だ。その代表的な漢字が「与」である。
局代替フォントに置換されてしまうことから、や
「与」は日本の新字体と、中国の簡体字が同
はり「与」問題が起こってしまう。このため、直
じく「4E0E」を割り振られている。しかし簡体
接フォント名を指定する方法はふさわしくない。
字では「与」であり、明らかに形が異なる。これ
ここで推奨したいのは、フォント名を指定せ
は「5199」の「写」「写」でも同じことが起こる。
ずに、言語だけを指定する方法である。実際に、
同様に、「753B」の「画」「画」も明らかに字体
Internet Explorer の新しいバージョンなどでは、
が異なる。
そういった言語指定を読みとり、閲覧するユーザ
むろん、日中間の漢字で形に差異があるのは、
側の環境に合わせてフォントを選ぶ、という機能
「天」「骨」など、多くの字があるが、大半は伝
がある。多言語混在ページを作成するには、この
統的な字体の差異に基づくものであり、読む者に
方法に拠るのが現在は妥当であると考える[4]。
よっては許容範囲であると思われる。しかし、
「与」
設定自体は困難なものではなく、FrontPage な
や「画」の場合は、それぞれ日本の新字体と中国
どの UTF-8 を扱える HTML エディタにおいて、
の簡体字であることから、より違和感がかなり強
span lang タグでその言語を指定すればよい。以
く感じられる。まだ旧字体の「與」を使うだけで
下に、該当部分を例示する。
あれば、それほどの違和感はなかったと思われる。
これは「畫」でも同じであろう。
一般的に、Unicode 漢字の BMP 面においては、
中国簡体字と日本の新字体が重なることは少なく、
「単(5358)」「单(5355)」のように、明確に分
けるか、或いは「吕(5415)」「呂(5442)」のよ
うに、重ならずに済んだものが多かった。しかし、
どうも「与」「画」などは例外的にこのパターン
からはずれてしまったようである。
ある意味、これは Unicode の構造的な欠陥で
#ヘッダー部
<meta
http-equiv="Content-
Language" content="ja">
#略
<meta
http-equiv="Content-
Type"
content="text/html;
charset=utf-8">
#中間部
Journal of JAET vol.3 ● 31
求められる
特集1
学術研究
情報の発信
<p> 日本語 </p>
<p> 与 画 與 畫 </p>
<p><span lang="zh-cn"> 汉
语 </
span></p>
<p><span lang="zh-cn"> 与 画 與 畫 </span></p>
なお基本言語は日本語になっている。このよう
に記述されていれば、比較的新しいバージョンの
ブラウザを使えば、日本語と中国語を分けて表示
してくれる。
但し、例えば Netscape Navigator 4.X など、古
いバージョンのブラウザを使った場合は、この
ページを閲覧しても日本語部分と中国語部分は区
別されず、「与」「与」と同じ形に見える。つまり、
閲覧するユーザの環境に見え方は大きく左右され
る、という問題は依然として残っている。
とはいえ、現在はこの方法がかなり有効であ
ることは間違いない。UTF-8 を使用して多言語
Web ページを作成する場合は、一定のエリアご
との言語指定をすべきであろう。
現時点では Unicode 対応といえば、1996 年の
Unicode Version 2.0 への対応を指すことが多く、
例えば漢字の場合、BMP 面の 20,902 字をもっ
て「多漢字」と称してきた。
しかし、現在では Unicode Version 3.0 におい
て CJK 拡 張 漢 字 A(Extension A) の 漢 字 6,582
字が追加され、漢字数は 27,484 字に増加した。
▌大規模漢字 Web サイトの構築
さらに、2001 年の Version 3.1 では、拡張漢字
B(Extension B)の 42,711 字が加えられ、7 万
多漢字サイトについては、やはりブラウザの対
字を上回る漢字の使用が可能となっている。現在
応により、これまでのものより多くの漢字を使用
では、この拡張漢字のような、5 ∼ 7 万字程度の
したサイトが構築可能となっている。
漢字を利用することを「多漢字」と呼ぶべきであ
ろう。
た だ、 こ の 拡 張 漢 字 A 及 び B を 使 え る ユ ー
ザはまだ限定されている。Windows であれば、
Windows NT 4.0/2000/XP、また Mac OS であれ
ば、OS X 以降が必要となる。また、対応アプリケー
ションソフトも、Microsoft Office などに限られ
ており、現時点では少ない。しかも、これを使う
には大規模な漢字フォントが必要になる。これに
は、例えば Microsoft Office Proofing Tools など
のソフトをセットする必要がある。
しかし、ブラウザソフトは Internet Explorer を
始めとして、すでに対応済みのものが増えてきて
おり、また FrontPage も拡張漢字 B を使っての
Web 文書の作成が可能となっている。
32 ● 漢字文獻情報處理研究 第 3 号
多漢字・多言語 Web サイト構築における諸問題(二階堂)
このように、多漢字を使った Web サイトの構
築それ自体は容易になっている。
いる、ということであれば、通常は十分であろう。
実際に、拡張漢字 C1 や C2 の企画もあり、今後
しかし、このような Web ページを見ることの
とも Unicode の漢字は増加するとも考えられる
できるユーザは、現時点ではかなり限定されてい
が、とりあえずは、現在の拡張漢字 A 及び B を
る。ブラウザは対応しているとはいえ、大多数の
中心に多漢字 Web サイトを構築することを推奨
ユーザはこのような大規模漢字フォントを有して
したい。
いるとは考えられない。これは今後 OS が発展し
たとしても、なかなか普及しないであろう。何故
なら、大半のユーザにとっては、このような僻字
ともいうべき漢字を使う機会は少ないからだ。
だから、多漢字 Web サイトの構築にあたって
は、まずユーザが限定される、ということを想定
しておくべきであろう。そのため、サイトのトッ
プページなどで、多漢字 Web ページを閲覧する
注
[1]これについて詳しくは、拙稿「Unicode を利用した多
漢字 Web サイトの構築」(『京都大学大型計算機セン
ター第 69 回研究セミナー報告』2002.3, pp.15-19)
を参照のこと。
[2]Google は現在もっともよく利用されているサーチエ
ための方法を解説しておく必要もあると考えられ
ンジン。日本語版は http://www.google.co.jp/ だが、対
る。
応ブラウザを使用した場合、トップページ、検索結果
そして、これらのことに注意しておけば、いま
など、すべてが UTF-8 によって表示される。
すぐにでも多漢字 Web サイトを作成し、公開す
[3]例えば、
「e 国宝」(http://www.emuseum.jp/)のサイト
ることは可能となっている。現在では、多漢字を
では、UTF-8 を使って、日本語・中国語・韓国語・英
処理する場合、画像や組文字を使った代替表示を
語・フランス語の同時表記を行っている(2002 年 7
行うことが多いが、これはデータをコピーしたり、
月 30 日閲覧)。しかし中国語エリアにおいては、日本
検索して利用する場合は問題がある。多漢字が必
語環境を持っているユーザには Internet Explorer を使
要なデータや電子テキストを使うのであれば、や
っていても、「与」「画」と日本漢字の新字体に見えて
はり文字コードに載せた上で使う方がよいであろ
しまう。
う。
むろん拡張漢字 A や B を使ったとしても、そ
れでも無い漢字は依然として存在するはずである。
[4]この方法については、漢字文献情報処理研究会会員の
方々から多くのアドバイスをいただいた。感謝申し上
げたい。
しかし、『康煕字典』クラスの漢字が網羅されて
Journal of JAET vol.3 ● 33
求められる
特集1
学術研究
情報の発信
電子版学術雑誌をめぐる諸問題
『中国都市芸能研究』創刊始末記
千田 大介(ちだ だいすけ)
調査を研究の基盤としており、研究会としても年
▌はじめに
学術情報の発信の母体となるのは、大学や研究
機関、全国規模の大学会ばかりでない。全国に多
に一・二回の現地共同調査を実施している。現地
調査の実行部隊的性格を持つため、会員数は 20
人ほどに過ぎない。
また、発足当初より研究会の事務連絡にはメー
く存在する中小の研究会、いわゆる同人研究会は、
リングリストを活用し、Web を通じた研究会情
明確な学術研究の目的意識のもとに自主的に組織
報の発信につとめてきた。このため、会員の情報
された団体であるだけに、往々にして大学組織や
処理スキルの水準は、他の人文学系研究組織に比
全国規模の学会よりも活発に先端的な研究活動を
べて高いものと思われる。
おこなっており、学術情報発信への意欲も強いも
のである。
以下では、同誌を創刊するにあたって構想され
た、電子版・紙版ハイブリッド出版方式について
しかし、そのような同人研究会にとって、学
紹介する。それを通じて、電子版学術雑誌を発行
術情報の発信には何かと困難がつきまとう。本
する上での問題点や課題について、いささか考察
稿 で は、 筆 者 が 参 加 す る 中 国 都 市 芸 能 研 究 会
を加えてみたい。
(http://wagang.econ.hc.keio.ac.jp/chengyan/)が本
2002 年に機関誌『中国都市芸能研究』を、紙版
と電子版のハイブリッド形式で創刊するにあたっ
て直面した諸問題について紹介するとともに、電
子版学術雑誌をめぐる問題点について考察したい。
中国都市芸能研究会とは
▌研究会誌刊行の問題点
版下集積方式の限界
1980 年代後半から 90 年代にかけて、多くの
同人研究会誌が創刊されたが、それは明らかに
中国都市芸能研究会は、1997 年に中国の芸能・
ワープロの普及にともない、写植製版・活字製版
文学・史学・宗教学などを専攻する大学院生(現
のコストを省いて、オフセット印刷用の版下を作
在は大半が大学教員となっている)によって組織
成できるようになったことが背景となっている。
された同人研究会である。中国の近現代の都市に
例えば、
1987 年創刊の季刊『中国現代小説』
(蒼
おける芸能のあり方について横断分野的に解明す
蒼社刊)では、同人が同一機種のワープロを共有
ることを目的としている。会員の大半は中国への
することで、統一的なデザインを実現するととも
長期留学経験を有するのみならず、現地での体験・
に、編集コストを節約したという。多くの同人研
34 ● 漢字文獻情報處理研究 第 3 号
電子版学術雑誌をめぐる諸問題(千田)
究誌でも、執筆者が印刷用の版下をプリントして
あたりのコストも数十円と安価であり、現在では
入稿、編集部がノンブルを振り目次を作成して刊
大半のパソコンが CD-R ドライブを標準装備して
行、という方式を採用するところがほとんどであ
いるので雑誌の同人が分担して CD-R を焼くこと
る。
も簡単である。従って、一万円もあれば、簡単に
しかし、このような執筆者が作成した印刷版下
雑誌を発行することができる。
を集積して刊行する方法には、いくつかの問題点
また、紙版では単色オフセット印刷しかできな
がある。まず、デザイン的統一が取りにくいこと
いが、電子版であればカラーの図版を多数掲載す
がある。特に、多言語処理方法や多漢字処理技法
ることができるのも、大きなメリットである。
は、未だに一般の研究者にまで広く普及している
とはいいがたく、外字を手書きで入力している例
も多く見られる。
また、プリント原稿は Web 等を通じた学術研
電子版学術雑誌の問題点
しかし、電子版学術雑誌を実際に発行するのに
は、いくつかの問題もある。
究情報の発信に向かない、という問題もある。そ
紙媒体の雑誌をデジタル化し Web で公開する
もそも、公式の Web サイトを開設・運営してい
際には、Web 公開やダウンロード・印刷などの
る研究会も現状では多いとは言い難い。この点は
許諾を著作権者から得ることが最大の問題となる
早急な意識改革が望まれる。
が、当初からデジタル化を前提として作る雑誌の
刊行資金の問題
版下入稿方式であっても、紙版の雑誌を刊行す
場合は、著作権関係の許諾が投稿の条件となるの
で、問題にはならない。
技術的には、電子版雑誌の発行形式が PDF で
るには、20 ∼ 30 万円程度の資金が必要になる。
あれ HTML・XML であれ、一人の編集担当者が
会員人数が 100 人を超える規模であれば、3,000
全てのデータを総合して、整理・加工する必要が
円程度の会費を徴収することで問題を解決できる
ある。このため、プリントした版下を集積する方
が、しかし会員数が 50 人未満の中小同人研究会
式よりも、はるかに手間がかかるのが問題になる。
にとっては、それだけの資金を確保するのは至難
これは、各執筆者にある程度のパソコンスキル
のわざである。熱心な研究会運営者が、身銭を切っ
さえあれば解決することができる。現在、多言語
て刊行している例もあると聞く。
混在文書を執筆する場合には、Windows 環境で
あれ Mac 環境であれ、MS Word の利用が一般的
▌電子版学術雑誌という選択肢
電子版のメリット
である。Word では、テンプレートを作成・配布
することでデザイン・書式を統一することができ
る[1]。従って、執筆者がテンプレートやスタイ
ル機能を使いこなして執筆し、かつ Unicode に
『中国都市芸能研究』の創刊にあたって問題と
基づいて JIS 外字や中国語などを処理してくれれ
なったのは、やはり資金問題であった。5 ∼ 6 名
ば、編集者の仕事は集まった Word ファイルをグ
の同人が 1 万円ずつ拠出してすべてをまかなう
ループ文書機能で総合し細かな調整を加え、
目次・
には、出版コストを 5 万円程度に抑えなくては
表紙を作成するだけで済む。
ならない。
幸い、中国都市芸能研究会のメンバーはいずれ
その解決方法として考えられたのが、Web・
もある程度のパソコンスキルを持っていたので、
CD-ROM などの電子媒体による雑誌の発行である。
2001 年に発行した文部科学省科研費の報告書で
Web スペースの確保は、大学のサーバを利用
はこの方式を採用することができた[2]。しかし、
したり、一般の無料サービスを利用したりすれば、
今回は編集を担当した筆者のこだわりで、Adobe
無料で確保できる。また、CD-R はメディア一枚
InDesign によって一元的に DTP した。
Journal of JAET vol.3 ● 35
求められる
特集1
学術研究
情報の発信
もう一つの問題は、日本の学術界がさまざま
面印刷し、それを簡易製本するという方法である。
な面で、あいかわらず紙媒体偏重であることにあ
両面印刷機能付きプリンタは、白黒であればさほ
る。日本では、学術業績の掲載媒体は、ISSN 番
ど高額ではない。また、簡易製本機は筆者の勤務
号、もしくは ISBN 番号を取得した紙媒体でなく
する慶應義塾大学日吉キャンパスには複数機種設
てはならないとする考え方が相変わらず根強い。
置されている。両面プリント一枚あたり 10 円と
ISSN・ISBN 番号は、CD-ROM などに対しても発
しても、一冊あたり 1,000 円程度に収まるので、
行されるようにはなっているのだが、それでも
3 万円もあればさしあたり図書館・大学の研究室
せっかく執筆した論文が、電子メディアのみでは
等への寄贈に必要な 30 部は確保できることにな
学術業績として認定されない危険性がある。
る。
しかも、大学図書館では、文献データ CD-ROM
以上の検討を経て、
『中国都市芸能研究』は、
の管理が一般の書籍とは分かれていることが多い。
Web 版を無償提供、CD-ROM 版を送料込み 500
目録も、CD-ROM と一般の紙版の書籍・雑誌と
円程度で頒布、紙版は寄贈用に 30 部ほど作成す
は異なるので、電子版学術雑誌は雑誌記事目録に
るとともに、希望者には随時作成して実費で頒布
反映されない可能性が高い。研究者の方も、電子
するという方針で、編集作業を開始した。
媒体の雑誌は少ないために、資料調査の際にわざ
わざ電子媒体の目録を開くことはない。このため、
情況の変化
電子版学術雑誌を発行するのはよいが、折角発信
刊行直前の 2002 年 5 月になって、中国都市
した学術情報にアクセスしてもらえない可能性が
芸能研究会のプロジェクトが科研費を獲得したと
高くなる。
の通知が届いた。このとき、既に最終校正段階に
また、たとえ CD-ROM を手渡され、Web サイ
入っていた『中国都市芸能研究』は、資金という
トの URL を教えられたとしても、いったいどれ
最大の問題が解決されたため、紙版を主、電子版
くらいの人が閲覧してくれるだろうか。紙媒体
を従として同時公開する、一般的な学術雑誌の発
の雑誌であっても、たいして読まれることなく棄
行方式をとることとなった。このため、残念なが
てられるものがほとんどであることを考えれば、
ら(?)電子版を主とした学術雑誌発行という構
一々パソコンを立ち上げて閲覧しなくてはならな
想は、実施に移されなかった。
い電子版雑誌の読者は、一層少ないものと思われ
る。このように、読者の獲得も大きな問題となる。
ハイブリッド出版構想
以上の問題を解決、あるいは緩和する方法とし
て、電子版と紙版とのハイブリッド出版という方
法が着想された。あくまでも電子版が主ではある
が、学術業績として認知され公的機関に収蔵され
るために、紙版を少部数、数十部程度出版する方
法である。
少部数を出版するには、オンデマンド出版とい
う選択肢もある。しかし、Web を通じて調査し
た結果、50 ∼ 100 部の印刷に 15 万円程度とい
うサービスがほとんどで、総コスト 5 万円とい
う目標からは大きくはみ出てしまう。
そこで考えられたのが、レーザープリンタで両
36 ● 漢字文獻情報處理研究 第 3 号
現在、『中国都市芸能研究』創刊号は
http://wagang.econ.hc.keio.ac.jp/chengyan/
publish/
電子版学術雑誌をめぐる諸問題(千田)
に PDF 版を公開している。今後、XML 版の追加
誌にも対応いたします。
も予定している。よろしくご批正頂ければ幸いで
ある。
とのことであるので、このプロジェクトが実用化
された暁には、電子版学術雑誌の発行も容易にな
▌おわりに
電子版学術雑誌をめぐる最大の問題が読者の確
保にあることは、前に触れたとおりである。確か
るであろう。また、国立国会図書館という権威あ
る公的機関の目録に掲載されることによって、学
会に存在する紙媒体偏重の傾向が変化することも
期待される。
に Web を通じた情報発信で、世界の人びとの目
これらの枠組みがより充実し、本格的に機能す
にそれらの研究業績が触れる可能性は広がるが、
るようになれば、我が国の人文学界においても、
しかし、それは楽観に過ぎよう。世界中の研究
論文を Web 上のデータベースや CD-ROM から検
者が、Web を通じた情報発信に常に目を光らせ、
索し、本文をダウンロードして閲覧するといっ
日本の一研究会のサイトに注目しているはずはな
た論文情報収集方法が一般化するだろう。それに
い。アクセスしてくるのは、Google でレポート
よって、図書館蔵書の偏りや雑誌の格といった要
のネタを探している学生と、一部好事家だけとい
素を排除して、公平に学術論文情報にアクセスで
うハメに陥るのが関の山である。研究会レベルの
きるようになると思われるし、
紙版・電子版といっ
努力で、この問題を解決するのは困難である。
たメディア型式の相違も克服されることが期待さ
そこで期待されるのが、全国学会あるいは政府
れる。また、日本における定番サービスが確立さ
レベルでの取り組みであるが、これは既に一部で
れることで、海外からのアクセスも増加しよう。
始まっている。
もっとも、このことが学術的水準を満たしてい
例 え ば、 仏 教 学 の 分 野 に は、 イ ン ド 学 仏
ない、いわゆる「とんでも」論文の横行を招くお
教 学 論 文 デ ー タ ベ ー ス(INBUDS。http://
それがある。それを防止するために、全国規模の
www.inbuds.org/)があり、学術論文の収集に努め
学会が積極的に雑誌や論文の評価に関する活動を
ている。また、国立情報学研究所も NACSIS-ELS
展開していくことが望まれる。
(http://els.nii.ac.jp/)を提供しており[3]、学術雑
人文学研究をとりまく環境が悪化しつつある現
誌を送付すれば、無償でデジタル化してアーカイ
状を考えると、以上のようなサービスが本格的に
ブしてくれるというサービスだ。
運用され、低コストで電子版学術雑誌を発行でき
また、国立国会図書館では、インターネット資
る環境を整えることは重要な意味を持とう。その
源選択的蓄積実験事業(WARP)と称する Web
ためには、それらのコンテンツを充実させるべく、
リソースの収集・蓄積実験を始めている(http://
研究者や学会・研究会が積極的に動くことが必要
www.ndl.go.jp/project/project_warp.html)。 同 プ ロ
になる。
ジェクトの電子雑誌コレクションは、
研究者とは情報発信者であるという原則を再確
認し、学術情報の電子化・公開に積極的に取り組
本事業では、ウェブ上の電子雑誌を技術
むことが、今こそ求められているのである。
的に可能な範囲で収集し、貴重な文化資産
として国立国会図書館において蓄積・保存
注
する実験を行います。なお、ここでいう電
[1] 詳細は『電脳中国学Ⅱ』参照。
子雑誌とは「同一のタイトルのもとに、終
[2] http://wagang.econ.hc.keio.ac.jp/chengyan/publish/ に
期を予定せず、巻次・年月次等の表示を伴っ
て、継続的に発行される電子情報」を指し、
当初から電子媒体のみで創刊された電子雑
PDF 版を公開している。
[3] 詳細は、本特集の小島浩之氏「国内図書館における学
術研究情報発信の現状」参照。
Journal of JAET vol.3 ● 37
XML による文法研究論文の
構造化
論文を研究用資料として十分に活用するために
山崎 直樹(やまざき なおき)
ようなデータベースにしたいと考えている。この
1 概要
文章の後半で、
「論文をどのように構造化するか」
という点を説明したい。
筆者は、文科省科学研究費補助金による研究:
『中国語普通話文法と方言文法の多様性と普遍性
に関する類型論的・認知言語学的研究』(代表:
古川裕@大阪外国語大学)を遂行するチームの中
で、「研究成果の新しい公開法」を考案するプロ
ジェクトを担当している。
2 科研費の成果をデータベース
として公開することについて
論文自体をデータベース化するというアイデア
従来は、科研費による研究の成果は、メンバー
は、別に新しいものではない。しかし、誰が、ど
の各自が(思い思いの場所に)発表した論考を一
のような論文を、どういう許諾を得てデータベー
冊の報告書に再録する、という形でまとめられた。
ス化するのか、を考えると、なかなか、実行に移
そして、それらの研究成果を活用したいと願う者
しづらい。ましてや、大規模なデータベースを構
は、その印刷物を、ページ順に読んでいくことに
築しようと考えると、なおさらである。
その点、
「科
なる(紙媒体による資料の利用法としては、これ
研費による研究の成果」という限定されたデータ
が一般的である)。
ベースなら、
これに対し、筆者は、現在、科研費による研究
の成果をデジタル化し、論文データベースとして
集積する、という試みを行っている。この文章で
は、その試みの概略を報告したい。
上述の研究:『中国語普通話文法と……』では、
成果は、ほぼすべてが、「文法研究論文」という
形をとる。この「文法研究論文」は、一種特有の
a) 製作担当者の決定(当該の研究チームの
中に、担当者をおけばよい)
、
b) 製作費用の捻出(科研費から出せる)
、
c) 論文の著者の許諾の得やすさ(論文の著
者は、
みな、同じチームのメンバーである)
、
d) 原稿提供などの協力の得やすさ(同上)、
構造を持っているので、この構造を XML で明示
し、一本の論文のもつ情報を十二分に活用できる
38 ● 漢字文獻情報處理研究 第 3 号
などの点で、非常に実行に移しやすいと言える。
XML による文法研究論文の構造化(山崎)
今後、このプロジェクトの後をうけ、科研費の
補助によって文法の研究をするチームが、このよ
うな形式で研究成果を公開してくれることを望み
たい。
なお、上で、「限定されたデータベース」と書
4 作業の各段階
4-1 段階
いたが、この『中国語普通話文法と……』は、6
このプロジェクトは、具体的には、次の段階を
人の研究者による 4 年間の研究なので、これだ
追いながら、理想とする公開法を実現していく予
けでも、かなりの数の論文が蓄積されることが予
定である。
想される。
1) 当該研究の成果をデジタル化する(=著
3 収録された論文の正統性について
このプロジェクトで作成するデータベースは、
権威づけられた「デジタル論文集」を意図するも
のではない。ここに納められる論考は、原則とし
て、すべて、どこか別の(紙)媒体で発表された
者から論文の原稿をもらい、テキストファ
イルにする)
。
2) 紙媒体の決定稿と比較しながら、XML で
マークアップをする。
3) 検索・抽出・表示のためのアプリケーシ
ョンを開発する。
ものである。データベース内の論考は、紙媒体に
4) 昨年度までの成果のデータとアプリケー
載ったものを、デジタル媒体で再現したものに過
ションを CD-ROM に納めたサンプルを製
ぎない。当然、内容の正統性は、紙媒体に載った
作する。
稿にある。また、著者から提供された原稿を基に
5) 収録された論文の原載雑誌/図書の著作
データベースを作成しても、それが紙媒体での決
権者に、WWW サイトで公開する許諾を
定稿と同一である保証はない(加えて、図表、体
もらう。
裁などの完全な再現は困難である)。著者に紙媒
6) WWW 上で公開。
体の決定稿との厳密な対校を求めるのも、面倒で
ある。また、誤植などがあったばあい(中国の雑
誌では、著者による校正ができないことも多い)、
よけい、話が面倒になる。さらに、「雑誌に投稿
したときは、ああ書いたが、今となっては、こう
直したい」と著者が言い出したら、もう収拾がつ
かなくなる。
現在は、2) の段階が進行中である。
4-2 補足
(1)「デジタル化」について
この科研費による研究は、2001-2004 年度の
4 年間にわたる。6 人の研究者が参加しているの
要するに、この論文データベースは、他者の研
で、最終的には、その成果として、数十本の論文
究の概要を、正確に効率よく把握するためのもの、
が集積される予定である。メンバーのすべてがパ
あるいは、書誌情報データベースと同じく、自分
ソコンを使って論文を書くので、その原稿を提供
に必要な情報をもつ論文を検索したり、何か新し
してもらえば、デジタル化の手間はいらない。な
いヒントを得たりするためのもので、紙媒体のオ
お、今年度は、昨年 2001 年度の研究成果をデー
リジナル論文の参照をスキップするためのもので
タベース化する予定である。
はない。よって、ここに納められた論文を引用す
(2)「マークアップ」について
るばあいは、必ず、オリジナルの紙媒体の論文を
どのように構造化するかは、この文章の後半で
参照する必要がある。それは、他者の論文を引用
示す。
するばあい、孫引きが許されないのと同じ道理で
(3)「アプリケーションの開発」について
ある。
WWW 公開が最終目標なので、それにふさわ
Journal of JAET vol.3 ● 39
論 文
しいアプリケーションでなければならない。これ
博文 . 2000.「“他妈的”の記述的研究」
(日本中国
は、まだ着手していないが、さほど技術的に困難
語学会創立 50 周年記念大会 , 2000-10-28/29)
なものとは思われない。
より。以下の例は、すべて同じ論考より引用)
、
(4)「サンプルの製作」ついて
次のとおり。
(4) と (5) の順序が逆であると思われるかもし
れないが、とにかく、サンプルを製作することが
…(略)…
重要である。
人称代名詞に後続するのは“他妈的”の
(5) の許諾は、もらえるかもしれないし、もら
代表的な用法の1つであるが、文の解釈に
えないかもしれない。訳もわからないまま許可を
当たり、たとえば下例 [2-1] のような構文
もらえる可能性がある反面、「何だかよく理解で
の直接構成素を示せと要求されたなら、ど
きないが、とりあえず断っておけ」という反応を
のように切ればよいだろうか。
される可能性もある。
よって、具体的なサンプルを提示することが、
[2-1] 你他妈的少跟我废话!
“他妈的”がなければ話は簡単で、
“( 你
「無知による無理解」を避けるための最善の策で
( 少跟我废话 ))!”と切ればよい。“他妈的”
あると思われる。もちろん、説得のための材料と
を含むと、3通りの切り方が考えられる。
しても有効である。
[2-1a] ( 你 ( 他妈的 ) 少跟我废话 )!
(5)「WWW サイトで公開する許諾」について
[2-1b] ( 你他妈的 )( 少跟我废话 )!
許諾が得られない論著があったばあいは、(a)
それを外して WWW 公開する、(b) 従来の科研費
[2-1c] ( 你 ( 他妈的少跟我废话 ))!
[2-1a] は直接構成素を“你少跟我废话”
報告書のごとく、関係者に CD-ROM を配付する、
と“他妈的”の2つと見たものである。先
(c) 内容を 2 種類にし、(a)(b) 双方の公開手段を
に紹介した大河内 1997 の分析に従えば、
とる、のどれかを選択することになろう。たとえ、
このように切ることになる。
WWW 公開ができなくても、小規模であっても、
…(略)…
このような論文データベースを実現できたならば、
今後のこの分野の研究成果公開の 1 つの方途を
以上のことから、
示すことができたと考えたい。
a) 自分が求める例文を探す。
5 構造化の概要
5-1 文法研究論文の特徴と必要な構造化
文法研究論文は、良くも悪くも、類型化された
構造をもつ。それは、大雑把に言って、
a) 仮説等が提示され、それのために、例文
が提示される。
b) それに言及する論文内の個所を探す。
という作業ができれば、その論文において、自分
に必要な最小限の情報を掘り起こすのに、かなり
有益であろうと推測できる。そして、この (a)(b)
の作業の実現は、
−ある例文と、それに言及する個所を、相互
にリンクさせる
b) 例文が提示され、それに対する分析等が
提示される。
という構造化を施すことによって、可能となる。
また、同様に、
のようなパターンが、論文内で、幾度となく繰り
返される、という構造である。例を示すと(杉村
40 ● 漢字文獻情報處理研究 第 3 号
−注と、本文中におけるそれへのポインタと
XML による文法研究論文の構造化(山崎)
の相互リンク
−特定の参考文献と、本文中におけるそれへ
の言及との相互リンク
した概念の語をキーワードにされたり、という事
例がそれにあたる。さらに、「○○の××を明確
にしたかった(ができなかった)
」の『○○の×
×』をキーワードにされると、まるで、その論文
が実現できれば、論文を読むのに、かなりの労力
が、それを明確にすることに成功した論考である
を省けるのではないか(この労力の節減は、「論
かのような印象を与える、ということもある。
文の内容を、速く的確に把握する」ことに役立つ
だろう)。
また、上記のように構造化したデータは、構造
の透明性が非常に高くなる⇒機械可読性が高くな
るという利点も持つであろう。
これらの構造化が、本プロジェクトの一番の「売
り」である。
以下で、論文の内容をすばやく的確に把握し、
必要な情報を掘り起こすことを可能にするために、
この作業も、従来の書誌情報データベースでも
可能である(そのデータベースが、キーワードを
収録していれば)
。
(3) 提要
多くの雑誌では、論文の冒頭に、提要を掲出す
ることを義務づけている。やはり、これの一覧を
表示したり、特定の文字列を含む提要を検索でき
るようにする。
もっとも、
「提要には、どのような情報をもり
このプロジェクトでは何をしようとしているか、
こむべきか」という教育は、未だ行き届いていな
論文の各構成要素について、考えてみたい。
いようで、その論文が到達した点(結論)を明示
しない提要の方が多いのが、実情であるが。
5-2 論文の内容を瞬時に把握するための 5 つの
方法
「提要」を収録したデータベースも珍しくない
であろう。
(4) 参考文献
(1) 標題
標題は、論文の内容を知るための、もっとも手っ
ある論文の理論的枠組みは、キーワードや提要
を見るより、どのような文献を参照しているかを
取り早い手がかりである。ある程度の長さをもつ
見る方が、速く的確に把握できることもある[1]。
具体的な標題は、それだけで、すでに、かなりの
筆者も、特に、文法関係の分野では、その傾向
情報量をもつ(現状では、そうではない茫洋とし
があることを痛感する。例えば、同じ「話題化」
た標題が多いが)。
という術語が、生成文法理論で使われることもあ
この標題の一覧を表示する、あるいは、特定の
れば、プラハ学派の機能的構文論で使われること
文字列を含む標題を検索する、などの作業を行え
もある。しかし、参考文献を見れば、どちらの枠
るようにする。
組みによっているかは、容易に判別できる。
もちろん、このような作業は、従来の書誌情報
また、特定の参考文献について、それに言及し
データベースでも可能である。
ている段落の検索・抽出もできるようにしたい。
(2) キーワード
(5) 例文
近年、著者自身にキーワードを選定し掲示する
例文は、文法研究の生命である。
よう義務づける雑誌が増えている。もちろん、好
有益な例文(=有益な言語現象の指摘)は、論
ましい傾向である。これの一覧を表示したり、特
文そのものよりも、長い生命を保つことがある。
定の文字列を含むキーワードを検索できるように
また、ある論文の例文の一覧は、その論文の標題
する。
や提要やキーワードよりも、その論文がどのよう
もっとも、著者自身の選んだキーワードは、と
きとして、あるいは、非常にしばしば、あてにな
らないことがある。術語が誤っていたり、漠然と
な言語現象について分析を進めているのかを、的
確に語ってくれることがある。
特定の論文の例文の一覧を表示したり、特定の
Journal of JAET vol.3 ● 41
論 文
文字列を含む例文を検索し、表示することができ
るようにしたい。また、特定の例文について、そ
れに言及している段落の検索・抽出もできるよう
にしたい。
また、現在では、全文検索エンジンでも、検索
語句の存在するコンテクストにより、ヒットした
語句に異なる重み付けをすることができる。
よって、以上のように、論文をいくつかの下位
構造に分ければ、全文検索の結果、同じ語句がヒッ
トしたとしても、その語句が、見出し中にあるの
か、あるいは例文中にあるか、などの違いを重み
<paper id="pap###">
<header>
デジタル化した担当者の情報、論文本体の使
用言語……
</header>
<body>
論文本体
</body>
</paper>
論文本体は、次のように構造化される。
付けに反映させておけば、検索結果の表示の優先
順位を工夫することもできる[2]。
5-3 構造
(1) フォーマットの選択
上で述べた検索・抽出作業を可能にする構造化
をするためには、XML で構造化するのが最適で
あると思われる。この構造化用言語の利点につい
て述べた論著は多数あるが、参照しやすいところ
で、師 2000 を挙げておく。また、データを記述
<body>
<title>
論文の標題
</title>
<subtitle>
副題
</subtitle>
<author id="aut###">
<name>
著者の氏名
するメタ言語として XML を使うというより、む
しろ既存のテキストを構造化するメタ言語とし
</name>
て XML を使った実例については、山崎 2001 を
<address>
著者の所属
参照。なお、この「既存のテキストを…」につい
連絡先
ては、XML の母体となった SGML での実践例が、
早い時代に存在する(根岸・石塚 1994 第 6 章「テ
キストデータベースと TEI」を参照)。
また、この XML で構造化されたデータは、(1)
テキストファイルである、(2) HTML への変換が
容易である、(3) UTF-8 が標準的なエンコーディ
ング方式である、(4) 特定のアプリケーション/
プラットフォームに依存しないデータになる、な
どの特徴を持つゆえに、WWW 上での利用に非
常に適している(あるいは、最も適している)と
いう利点があることも見逃せない。
(2) 全体の構造
全体は、以下の構造をとる。
</address>
</author>
<pub>
原載の刊行物名
</pub>
<text>
論文の本文
</text>
<notes>
注
</notes>
<biblio>
参考文献
<?xml version="1.0" encoding =
</biblio>
"UTF-8" ?>
<appendix>
42 ● 漢字文獻情報處理研究 第 3 号
XML による文法研究論文の構造化(山崎)
付録
</appendix>
</body>
本文は、次のように、<h2>, <h3>, <h4>…と階
層づけられた見出し(HTML 文書に変換したさい
のことを考えると、<h1> は、論文自体の標題用に、
とっておくべきであろう)と、通し番号を振られ
た段落からなる。
【原文】
1 考察範囲──「標的化」用法と「非標的化」
用法
1.1「非標的化」用法
本稿の目的は“他妈的”の標的化用法を
記述することにある。よって、
“他妈的”
【構造化後】
<notes>
<note id="not002">
②…(略)…
</note>
<note id="not003" pointed =
"par004">
③日本語の中に「標的化」の具体的なイ
メージを求めれば、…(略)…
</note>
<note id="not004">
④…(略)…
</note>
</notes>
そしてこの注に言及する段落は、次のとおり。
が…(略)…
【原文】
【構造化後】
「標的化」というのは本稿の造語である
が、…(略)…する文法操作として理解さ
<h2>
1 考察範囲──「標的化」用法と「非標的化」
れたい。③
用法
</h2>
【構造化後】
<h3>
<p id="par004">
1.1「非標的化」用法
</h3>
<p id="par007">
本稿の目的は“他妈的”の標的化用法を記述
することにある。よって、
“他妈的”が…(略)
…
「標的化」というのは本稿の造語であるが、
…(略)…する文法操作として理解された
い。<pointer target="not003"> ③
</pointer>
</p>
注とそれに言及する段落が、相互参照できるよ
</p>
うになっているので、アプリケーションに次の機
(3) 注とそれに言及する段落
能を組み込むことも可能だろう。
注は、次のように構造化される。
i) 文中の注番号をポイントすると、対応する
【原文】
②…(略)…
③日本語の中に「標的化」の具体的なイ
メージを求めれば、…(略)…
④…(略)…
注が、ポップアップで表示される。
ii) 注をポイントすると、それに言及する段
落全部が、ポップアップで表示される(読
み手の理解のためには、段落単位で参照し
たほうがよい)
。
Journal of JAET vol.3 ● 43
論 文
る(この作業は、手動で行なうと、意外に面倒な
ものである)。
(4) 参考文献とそれに言及する段落
参考文献の一覧は、次のように構造化するに留
また、やはり、相互参照しているので、片方を
める。なお、参考文献の表記には、多種の言語が
ポイントし、もう片方をポップアップ表示するこ
使われる可能性が高いので、個々のに文献につき、
とも可能になろう。
その使用言語を指定しておいたほうが安全であろ
(5) 例文とそれに言及する段落
う。
例文は、次のよう構造化する。
【原文】
【原文】
大河内康憲 .1997.『中国語の諸相』,白帝社 .
[5-20] 没出息就他妈没出息吧,我哭了。
胡士云 .1997. <汉语骂人话简论> ,『中国
語学論文集』, 東方書店 .
【構造化後】
<example id="ex5-20" pointed=
【構造化後】
"par059,par###,par###">
<biblio>
<num>[5-20]</num> 没出息就他妈没出息
<ref xml:lang="ja" id="ref001"
吧,我哭了。
pointed = "par004">
</example>
社.
例文に言及する段落は、次のように構造化する。
大河内康憲 .1997. 『中国語の諸相』, 白帝
</ref>
<ref xml:lang="zh" id="ref002"
【原文】
…(略)…
pointed = "par###">
胡士云 .1997. <汉语骂人话简论> ,『中
[5-20] だと「根性なしだと、それならば
国語学論文集』, 東方書店 .
だ〔クソッ〕根性なしでいい」
、[5-24] だ
</ref>
と「ブタ箱に放り込まれなければ、それこ
… … …
そだ〔クソッ〕おかしなことになる」
、[5-33]
</biblio>
だと「よろこびもだ〔クソッ〕十分あるぞ」
といった感じである。
特定の参考文献に言及する段落は、次のとおり。
【構造化後】
<p id="par004">
文法論的視点に立った“他妈的”の研究は先
例に乏しく、管見ではわずかに <pointer
target="ref001"> 大
…(略)…
河
内 1997</
pointer> に次のような指摘が見られるの
みである。…(略)…
</p>
特定の文字列を含む参考文献を検索し、求める
ものが見つかれば、その参考文献がどのような文
脈の中で引用されているかを、簡単に逆参照でき
44 ● 漢字文獻情報處理研究 第 3 号
<p id="par059">
…(略)…
<pointer
target = "ex5-20">
[5-20] </pointer> だ と「 根 性 な し だ
と、それならばだ〔クソッ〕根性なしでい
い
」、<pointer target= "ex5-24">
[5-24]</pointer> だ と「 ブ タ 箱 に 放 り
込まれなければ、それこそだ〔クソッ〕お
かしなことになる」、<pointer target=
"ex5-33">[5-33]</pointer> だ と「 よ
XML による文法研究論文の構造化(山崎)
ろこびもだ〔クソッ〕十分あるぞ」といった
を実現するのみならず、複数のリンクをグループ
感じである。
化し、その成員相互の関係を規定し、リンクを辿
…(略)…
る順序、辿ったときのアプリケーションの挙動ま
</p>
でも規定できる。しかし、そのためには、locator
例文と地の文を分けて構造化するだけでも、検
型要素といった、さまざまな要素を記述しなけれ
型要素、resource 型要素と、その役割を示す arc
索の効率(関心のある言語現象のヒット率)が、
ばならない。
かなり高くなることが予想される。特に、研究対
このような拡張リンクが、どれだけ高度な参照
象の言語と論文に使用されている言語が同一のば
方式を可能にするかは、想像しきれないほどであ
あいには。例文のみから、助詞の“的”の使用例
る。しかし、それだけに、
「目下必要な単純なこ
を探すばあいと、地の文も含めて、“的”を検索
とをするためだけには、おおげさすぎる仕様だ」
するばあいとの違いを、想像していただきたい。
という感を抱くのを否めない。
加えて、上記のように相互参照が可能な構造化
また、実際に構造化のためのタグ付け作業をす
をしておけば、ある興味深い例文があったとして、
る人員の資質との関係で、「直感的に理解できる
それに対して、当該の論文では、どの個所でどの
単純な構造化で用が足りれば、それに越したこと
ような言及をしているのか(1 つの例文に対する
はない」という事情もある。
よって、今回は、XLink を用いるのを避けた。
言及が複数個所に存在するのは、珍しいことでは
ない)を瞬時に把握できる。これは、従来なら、
論文をすべて読まなければできなかったことであ
る。
5-4 XLink について
前節の (3)(4)(5) では、注、例文、参考文献に
関わる「相互参照」について述べた。
現在では、XML の枠組みの中で、このような
注
[1] これは、私的な会話の中で、鈴木慎吾氏(大阪外国語
大学博士後期課程)に指摘してもらった。感謝したい。
[2] この「全文検索時の重み付け」については、本誌の編
集委員より、教示をいただいた。記して感謝したい。
[3]“XLink”については、下記を参照のこと。
相互参照を可能にするしくみ(実際には、さら
http://www.w3.org/TR/xlink/
に高度で複雑な参照形式を可能にする)として、
また、XLink の概念の理解にあたっては、下記のサイ
[3]
“XLink”
が制定されつつある。
この文章で示したような単純な相互参照は、
XLink を用いれば、容易に実現できるはずである。
しかし、今回のプロジェクトで必要な構造化は、
単純な相互参照であるがゆえに、あえて、XLink
で参照を定義することを見合わせた。
この「文法論文の構造化」で必要なリンクは、
つまるところ、(a)「注/参考文献/例文」と (b)
それに言及する段落とのリンクである。そのリン
クは、オリジナルの論文で定義されている以上、
トにおおいに助けられた。
http://www.cityfujisawa.ne.jp/~yanai/xml/
http://www.kanzaki.com/
参考文献
師 茂樹.2000.「仏教学データベースにおける XML の
活用」.漢字文献情報処理研究創刊号,p.19-27.
根岸正光・石塚英弘(編).1994.『SGML の活用』.東京:
オーム社.
山崎直樹.2001.
「中検問題のデジタル化と共有のため
そのペアの成員も、成員相互の関係も、固定的で
のデータ形式」
.漢字文献情報処理研究第 2 号,
ある。また、段落相互のリンクや、「注/参考文
p.193-197.
献/例文」相互のリンクは、必要ない。
一方、XLink の拡張リンクは、単なる相互参照
Journal of JAET vol.3 ● 45
源氏物語の異文校合
−自動処理と活用−
大内 英範(おおうち ひでのり)
一 方、 イ ン タ ー ネ ッ ト 上 に も 源 氏 物 語 関 連
はじめに
の サ イ ト は 多 い。 国 文 学 研 究 資 料 館 の サ イ ト
(http://www.nijl.ac.jp/)には「日本古典文学本文
近年の爆発的な普及により、多くの人がパーソ
データベース」がある。源氏物語を含む日本古典
ナルコンピュータやインターネットと無縁でない
文学大系(岩波書店・旧版)100 冊の本文デー
生活を送っている。カラフルな年賀状をパソコン
タを検索・表示することができる。また、高千
で作って印刷したり、ワープロ代わりに手紙や原
穂大学・渋谷栄一氏のサイト「源氏物語の世界」
稿を書くことも多い。また、朝目覚めると、ある
(http://www.sainet.or.jp/~eshibuya/) で は、 大 島
いは夜就寝前にメールチェックをするのが当たり
本を底本にした氏の独自校訂本文をダウンロー
前になっていたり、銀行振り込みや旅行の手配を
ドすることができるほか、ローマ字版・翻刻資
すべてインターネットで済ませたりと、程度の差
料などいくつかのバージョンの本文がアップさ
こそあれ、生活の一部に深く浸透してきている。
れ、現代語訳や注釈まで完備されている。なお、
この流れは研究の世界とも無関係ではない。源
同氏の本文はヴァージニア大学・ピッツバーグ
氏物語に限ってみても、さまざまなデータベース
大学の日本文学テキストイニシアティブ(http://
が存在する。スタンドアローンでの利用を想定し
etext.lib.virginia.edu/japanese/index.html) に も 提
た CD-ROM 版のものでは、『絵入源氏物語』を底
供されている。ここでは源氏物語をはじめとする
本とした『CD-ROM 源氏物語(絵入り)』
(中村康
50 を超える日本文学作品が SGML 文書の形で蓄
夫他、岩波書店、1999 年)、大島本を底本とし
積されており、そこそこ複雑な検索をすることが
た『角川古典大観 CD-ROM 源氏物語』(伊井春
可能である。
樹編、角川書店、1999 年)などがある。後者は
大島本を底本とした伊井氏の校訂本文だけでなく、
大島・陽明文庫・保坂・河内の4本の翻刻本文
このように、電脳化の流れはかなりのところま
で進んでいると言ってよいだろう。
そして、必然的にコンピュータ利用を前面に
を収めている。さらに同 CD-ROM の秀逸な点は、
押し出しての研究成果も多く現れている。村上氏
単なる文字列検索だけではなく、シソーラスの概
らの付属語に注目した研究[1]も有名だし、伊藤
念を導入することによって分類検索を可能にして
鉄也氏の加重相加平均処理によって諸本の距離を
いる点である。同一の物が複数の呼称をもつ場合
測る研究などもそうだ。また n- グラムを用いて、
も一度の検索ですべてがヒットすることになって
人間の目では見落としてしまうような文字列一致
いるのだ。
を拾って、和歌等の近縁関係を探る研究も行われ
46 ● 漢字文獻情報處理研究 第 3 号
源氏物語の異文校合(大内)
ている[2]。こうした時代の趨勢に反応し、これ
以下紹介する「Kogetsu」は、あるフォーマッ
からの国文学研究者には好き嫌いに関わらず、情
トに従って異本の本文を入力しておき、実行する
報教育が必要になってくるかと思われる。
ことで、異文の様子を簡単に確認できるものであ
コンピュータを利用することで得られる最大の
る。さらに、後述するように若干の応用によって、
メリットは、なんといっても“時間短縮”である。
要求に応じたさまざまな情報を得ることが可能に
コンピュータは研究そのものまではしない。あく
なる[3]。
まで研究するのは研究者であって、コンピュータ
は研究のための資料を瞬時に提供してくれる「便
諸本データの入力フォーマット
利な道具」程度のものにすぎない。ただ、時間短
諸本の本文を入力する際、以下のフォーマット
縮によって、研究を加速する手助けにはなるかも
に従って CSV 形式で保存することが必要である。
しれない。であればこそ、研究へのコンピュータ
利用の方法をあれこれ考える意味があるものと思
*1 行目は見出し行(諸本名を記す)
う。
*底本は見出しを「底本(大島本)」のよう
本稿では、同一作品の異文の様子を簡単に一覧
な書き方とする
できるようにまとめあげるツール「Kogetsu(湖
*見出しの1文字目に重複のないようにする
月)」を紹介し、その活用事例の一端を示すこと
*第 1 フィールド:6 桁の通し番号
としたい。こうしたツールが研究に劇的な変化を
*第 2 フィールド:底本の本文データ
もたらすとは考えないが、しかしこうしたものを
*第 3 フィールド以降:諸本の本文データ
使うことで見えてくるものもあろう。
いうまでもないことだが、表計算ソフト等を用
異文校合ツール「Kogetsu」
古典作品を研究する際の前提として必要なこと
は、まず本文の吟味である。源氏物語の本文研究
いることで入力がかなり楽になる。図 1 は Excel
を用いた入力例。
awk 版「Kogetsu」
は、昭和初期の池田亀鑑博士による整理・分類を
awk 版「Kogetsu」は 4 つの awk スクリプトを
ほぼ現代に踏襲していて、現代の源氏物語研究は
使用しているほか、途中 sortf を用いて並び替え
大島本を中心に行われるのが一般的であるといっ
をおこなっている。Perl 版および JAVA 版も作っ
てよい。ただ近年、大島本の本文については見直
てはみたが、いまのところスピードの点で awk
しも進んでおり、再検討の必要性も言われている。
版が優れているようである。
ここではどの本文が優位かなどといったことに
以 下 に バ ッ チ フ ァ イ ル「kogetsu.bat」 を 示
はふれないが、さまざまな本文を比較し、大島本
す。同じフォルダ内に 4 つの awk スクリプト、
とはまた違った物語世界を確認することが、作品
jgawk.exe、sortf.exe、さらに text.csv の名で保存
理解の上で重要であろうことを指摘しておきたい。
さて、源氏物語のように膨大な数の異本が存在
する作品の本文を整理・一覧するのはかなり面倒
な作業である。従来はカード等によるのがごく一
般的であったであろうが、近年はパソコンを用い
ることのほうが一般的になりつつあるように思わ
れる。いったんデータ化してしまえば、さまざま
な検索・比較が簡単にできるようになるからであ
る。
図1
Journal of JAET vol.3 ● 47
論 文
された諸本の本文データファイルが存在しなけれ
ばならない。
★「kogetsu.bat」
jgawk -f kogetsu1.awk text.csv
jgawk -f kogetsu2.awk temp1.txt
sortf temp2.txt > temp3.txt
jgawk -f kogetsu3.awk temp3.txt
sortf temp4.txt > temp5.txt
jgawk -f kogetsu4.awk temp5.txt
}
異同一覧の出力例
「Kogetsu」を実行して得られた異同一覧の出
力例(ichiran.txt)を示す。花散里巻の冒頭部文
である。
人しれぬ [ 底保尾御麦阿国 ] ……… 110001
ひとしれぬ [ 陽 ]
御心つからの [ 底陽保尾御麦阿 ] … 110002
del temp*.txt
御こゝろつからの [ 国 ]
このバッチで 4 つのスクリプトの実行と 2 度
物おもはしさは [ 保尾国 ]
ものおもはしさは [ 底陽御 ] ……… 110003
の並び替え、作業用一時ファイルの消去を行い、
物思はしさは [ 麦阿 ]
ichiran.txt の名で実行結果を吐き出す。
いつとなき/△&つ [ 底 ] ………… 110004
以 下 に 4 つ の awk ス ク リ プ ト の う ち、
いつとなき [ 陽保尾御麦阿国 ]
kogetsu1.awk のみを記す。他のスクリプトにつ
ことなめれと [ 底御国 ] …………… 110005
いてはダウンロードしたものをご覧いただきたい。
ことなれと [ 麦 ]
ことなんめれと [ 陽 ]
★「kogetsu1.awk」
事なめれと [ 保 ]
BEGIN{FS=","}
事なれと [ 尾阿 ]
FNR == 1{
かくおほかたの [ 底保尾国 ] ……… 110006
a=jsubstr($2,1,1)
おほかたの [ 陽御 ]
b=jsubstr($3,1,1)
かく大方の [ 麦阿 ]
c=jsubstr($4,1,1)
世に [ 底保麦阿国 ] ………………… 110007
(中略)
よに [ 陽尾御 ]
y=jsubstr($26,1,1)
つけてさへ [ 底保尾御麦阿国 ] …… 110008
z=jsubstr($27,1,1)
つけてさえ [ 陽 ]
}
わつらはしう [ 底保麦阿国 ] ……… 110009
{
printf("%s%s,%s\n",$1,$2,a) >>
"temp1.txt"
printf("%s%s,%s\n",$1,$3,b) >>
"temp1.txt"
printf("%s%s,%s\n",$1,$4,c) >>
"temp1.txt"
わつらはしく [ 陽御 ]
わつらはしくなと [ 尾 ]
おほしみたるゝ [ 底陽保尾御国 ] … 110010
おもほしみたるゝ [ 麦阿 ]
ことのみ [ 底御国 ] ………………… 110011
事のみ [ 陽保尾麦阿 ]
まされは [ 底陽保尾御麦阿国 ] …… 110012
(中略)
printf("%s%s,%s\n",$1,$26,y) >>
"temp1.txt"
printf("%s%s,%s\n",$1,$27,z) >>
"temp1.txt"
48 ● 漢字文獻情報處理研究 第 3 号
カスタマイズと応用
以上のように、簡単に異文校合ができ、それを
一覧することができるので便利である。さらに多
源氏物語の異文校合(大内)
少のカスタマイズでさまざまな処理が可能となる。
をかしき [ 保 ]
特定の表現のみの異同を抽出したい場合、たと
えば「をかし」と「おかし」の異同のありようを
★竹河巻での出力結果
見たい場合には、kogetsu1.awk を以下のように
おかし [ 底尾 ] ……………………… 442658
記述する。
をかし [ 陽保 ]
さまもこゑもいとおかしくそありける
(前略)
[ 底尾 ] …………………………… 443250
y=jsubstr($26,1,1)
さまもこゑもいとをかしくそ有ける [ 陽 ]
z=jsubstr($27,1,1)
猶 [ 保 ]
}
おかしかる [ 底尾 ] ………………… 443419
printf("%s%s,%s\n",$1,$2,a) >>
をかしと [ 保 ]
($0 ~ / をかし /)||($0 ~ / おかし /){
"temp1.txt"
printf("%s%s,%s\n",$1,$3,b) >>
"temp1.txt"
(後略)
をかしかる [ 陽 ]
おもしろかりきと [ 底尾 ] ………… 443452
をかしかりきと [ 保 ]
をもしろかりきと [ 陽 ]
おかしかりけんなと [ 底 ] ………… 443471
おかしかりけむなと [ 尾 ]
上記カスタマイズ後の、紅梅巻および竹河巻の
出力結果をみてみよう[4]。
をかしかりけんと [ 保 ]
をかしかりけんなと [ 陽 ]
よくて [ 底陽 ] ……………………… 443501
★紅梅巻での出力結果
おかしうて [ 尾 ]
をかしう [ 底 ] ……………………… 430236
をかしうて [ 保 ]
をかしく [ 陽保尾 ]
おかしかつしと/つ$へ〈朱〉[ 底 ] 443519
ナシ [ 底陽尾 ] ……………………… 430390
おかしかへし [ 尾 ]
をかしく [ 保 ]
をかしかつ事/つ事$へしと [ 保 ]
をかしう [ 底陽保尾 ] ……………… 430497
をかしかへしと [ 陽 ]
をかしかりける [ 底陽保尾 ] ……… 430647
おかしけなりと [ 底 ] ……………… 443773
をかしく [ 底陽尾 ] ………………… 430686
おかしけなると [ 尾 ]
をかしう [ 保 ]
をかしかなりと [ 保 ]
をかしう [ 底陽保尾 ] ……………… 430723
をかしけなりと [ 陽 ]
をかしけれ [ 底陽保尾 ] …………… 431176
おかしきそかしと [ 底尾 ] ………… 444454
をかしかりしを [ 底陽保尾 ] ……… 431248
をかしきそかしと [ 陽保 ]
給へりしかこゝに御せうそこやありしさもみ
おかしう [ 底尾 ] …………………… 444467
えさりしをと [ 底 ] ……………… 431264
をかしう [ 陽 ]
たまへりしこそをかしかりしかこゝに御せう
をかしく [ 保 ]
そくやありしさもみえさりしをと [ 尾 ]
給なりしなと [ 保 ]
給へりしこそをかしかりしかこゝに御せう
そくやありしさもみえさりしをと [ 陽 ]
両巻の出力結果を見ると、おもしろい現象に気
づく。すなわち紅梅巻ではすべての本が「をかし」
の表記であるのに対し、
竹河巻では底本(大島本)
ゆかしき [ 底尾 ] …………………… 431300
と尾州家河内本が「おかし」の表記を用い、陽明
ゆかしき/△し&かし [ 陽 ]
文庫本と保坂本が「をかし」の表記を用いている
Journal of JAET vol.3 ● 49
論 文
のである。
の索引で箇所を特定し、源氏物語別本集成をめく
さらに実行の対象を源氏物語全巻に広げてみる
と、諸本の性格の一端がみえてくる。たとえば大
りながら1例ずつ確認することになるが、それに
は膨大な時間と手間がかかる。
島本では原則として「おかし」の表記が圧倒的で
ただし、基礎データを整備するのには、膨大な
ある中に帚木巻や少女巻、上記紅梅巻のようにそ
時間と手間がかかる。今まで 5 年かかった検索
のほとんどに「をかし」の表記を用いている巻が
が 10 秒でできるようになるのはうれしいが、
デー
存在するのである。一方で陽明文庫本は「をかし」
タの整備に実は 10 年かかったというのでは笑え
の表記でほぼ統一されている中で夕顔巻などは前
ない笑い話である。できれば組織的なデータ整備
半が「おかし」の表記、後半が「をかし」の表記
の環境構築が望まれるところである。
となっていることがわかる。
このように、カスタマイズ・応用は簡単である。
CSV ファイルのフィールドを入れ替え、見出し
を少しいじるだけで底本の変更も可能であるし、
特定の表記にしぼった検索も可能なことは上記の
注
[1] 村上征勝・今西祐一郎「源氏物語の助動詞の計量分析」
(情報処理学会論文誌 Vol.40 No.03 1999)など。
とおりである。今回のバッチには含めていないが、
[2] 詳細は本誌第 2 号を参照のこと。
別スクリプトで [ 底陽 ] などの部分をカウントす
[3] 拙作の異文校合ツール「Kogetsu」は、筆者のホーム
ることで写本別の一致率を計算することも簡単で
ページでダウンロードできる(http://homepage1.nifty.c
ある。
om/h-ouchi/kogetsu/)。日本語対応版の GNU awk であ
る jgawk の MS-DOS 用実行形式である jgawk.exe(田
中良知氏による)と、テキストファイルのソートを行
おわりに
なう sortf.exe(mtoyo 氏による)が必要。ともに前記
浅茅原竹比古氏は伊藤鉄也氏の和泉式部日記
[5]
データベース
筆者ホームページからのリンク参照。なお、awk はテ
を用いて同日記の「おかし」
「を
キストファイルを指示された仕様(スクリプト)に従
かし」を検索し、三条西家本と応永本では「をか
って加工・整形して出力するための、もともとは Unix
し」が、寛元本と群書類従本では「おかし」が圧
のフィルタ言語。
倒的であり、伝本によって文字遣いに傾向の表れ
ることを発見し、しかもその「お」と「を」の使
い分けは「お*」と「を*」による前方一致検索
結果を見ると、「おかし」「をかし」の使い分けに
対してのみ特徴的に表れることを指摘した[6]。
「Kogetsu」のようなツールを使って、源氏物
語でも本によって、さらに同じ本でも巻によって
特徴的な傾向の表れること、つまり同じ大島本で
も巻によって河内本グループに近かったり別本グ
ループに近かったりということが簡単にわかるよ
うになる。それが今西祐一郎氏[7]のいうように
大島本の親本が取り合わせ本だったということな
のかはすぐにはわからない。ただ、コンピュータ
を使うことで、このような研究に必要な資料をす
ぐさま揃えることができるようになったのである。
コンピュータを使わないとすると、源氏物語大成
50 ● 漢字文獻情報處理研究 第 3 号
[4] 両巻ともに、底本(大島本)
・陽明文庫本・尾州家河内本・
保坂本の 4 本のみのデータで実行。
[5] 伊藤鉄也『データベース・平安朝日記文学資料集』第
1 巻「和泉式部日記 四本対照」(1988.11 同朋舎)
[6] 浅茅原竹比古「プロームナードのこと−自転車で古
典の森を走る−」(人文科学データベース研究 創刊号
1988.6 同朋舎 所収)
[7] 今西祐一郎「表記を検索する」(源氏研究 第 6 号 翰林
書房 2001.4 所収)
TFIDF の漢文テキストへの応用
『老子』王弼本を例に
齊藤 正高(さいとう まさたか)
準に用い、高頻度語と低頻度語の中間に位置する
語が索引語にふさわしいと考えていた[3]。また、
はじめに
英国のジョーンズは、1972 年、語の文書頻度に
本稿は情報検索の分野で自動索引語抽出に用い
られている TFIDF
[1]
もとづく特殊性を索引語を基準に提案している。
をつかい、漢文で書かれた
語がどれだけ索引語としてふさわしいかを、
「重
テキストの本文データから重要な語を抽出する方
みづけ」によって数量的に把握する方法について
法を紹介する。また、本文データの内部に存在す
は、1973 年にサルトンとヤングが詳しく述べて
る特徴を数量化し、分析する手法について提案す
いる。彼らは以下のように指摘している[4]。
る。例として、『老子』王弼本の本文データを実
験的に用いた。
語の使用頻度 (Term Frequency) と文書
頻度 (Document Frequency) の概念にもと
自動索引語抽出について
索引語とは、「文書の内容を特徴付けるうえで
[2]
重要な単語」
づくと、文書に出てくる語の性質にのみ依
存する全く客観的な基準を用いた様々な索
引作成の手法が実現できる[5]。
のことである。学術論文の場合、
著者が索引語をつける場合もあれば、編集者がつ
この論文には、すでに本稿で扱う TF と IDF と
ける場合もある。だが、一般的にすべての文書に、
いう言葉が出ている。引用した文では、索引語に
索引語がついているわけではないし、そうしてつ
ついての「客観性」の確立と文書外の知識にたよ
けられた索引語が妥当かどうかも判断しづらい。
らない「自立性」が企図されていたことが分かる。
さらに、文献が多くなると人手をかけて索引語を
付ける作業が困難になる。
このような問題があるため、索引語を文書の中
から自動的に抽出しようとする試みがされてきた。
TFIDF について
語の重要度を「重みづけ」によって示す場合、
この試みは「自動索引語抽出」あるいは「キーワー
二つの側面が考えられる。一つは「局所的な重み
ド抽出」と呼ばれている。
づけ」であり、もう一つは「大局的な重みづけ」
自動索引語抽出の研究は、1957 年、米国でルー
である[6]。
ンが発表した試論にはじまる。彼は文書中にお
「局所的重みづけ」は一つの文書のなかにある
ける語の使用頻度を、索引語を抽出する場合の基
情報から重みづけを行う。「大局的重みづけ」は、
Journal of JAET vol.3 ● 51
論 文
あるまとまりもった複数の文書を「文書集合」と
の研究成果をそのまま利用することはできない。
考え、その「文書集合」における情報から重みづ
本稿で扱う『老子』についても、例えば「天下」
「聖
けを行う。TFIDF の「局所的重みづけ」にあたる
人」といった単語を一語と考えるか、二語と考え
のが TF であり、
「大局的重みづけ」が IDF である。
るかは微妙な問題である。また、「故常無欲以觀
TF(Term Frequency) は、語の1文書内での出
現数である。長短のことなる文書の間では、同じ
其妙」
(第一章)という文では、既に王應麟が
「常無」
「常無欲」という二つの読みのちがいを指摘して
出現数であっても価値がことなる。そのため、複
いる[9]。このように漢文テキストの単語認定は、
数の文書の TF を比較するには、すべての語につ
解釈によって意見が異なるのである。
いて同じ長さの文書に出現した場合の値に正規化
をする必要がある。
IDF(Inverse Document Frequency) は、 文 書 集
合の中の全文書数 N を、ある語 i を含む文書の
数 Ni でわった値である。Ni は、語 i の文書頻度
(Document Frequency) とも言う。
IDF が大きい語は、たとえ局所的に多用され、
したがって、あいまいさを避けるため、本稿で
は分析単位について1文字(ユニグラム)単位と
した。
つぎに、不要語の問題がある。
自動索引語抽出の研究は、英文テキストで始
まっている。現代英語は分かち書きの習慣があり、
したがって単語の切り分けが容易である。そのた
TF が大きくても、ある文書集合の中で少数の文
め、主に内容を表さない機能語、つまり冠詞や接
書にしか出現しないローカルで特殊な語である。
続詞などの認定もまた容易である。だから、頻度
反対に IDF が小さな値をとる語は、ある文書集合
が極端に高い機能語(the や and など)を前もっ
の中でありふれた一般的な語であり、全体によく
[10]
を行うことができる。
て削除する「不要語処理」
なじんだ親和性の高い言葉である。IDF は、同じ
だが、漢文テキストの場合、単語認定の困難さ
語で同じ文書集合の場合は同じ値をとる。また、
に加えて、さらに単語の役割を示す品詞がはっき
全文書数が多い場合、極端に大きくなる場合があ
りしない。古代漢語の機能語の用法を説明した辞
るので、一般的に対数をとる。
書にも品詞はついているが、これをつかって機能
TFIDF は、TF と IDF の両者を乗算する。語の
語を効率的にみつけることは容易ではない。例え
出現数を表す TF と、語の特殊性を表す IDF を乗
ば『古代漢語虚詞詞典』[11] には、
「道」の介詞
算することで、よく使われ且つ他の文書に使われ
用法や「鼎」の副詞用法がでている。これらの言
ていない特殊な語が索引語として選ばれることに
葉は、名詞や動詞などの内容語として用いる場合
なる。
と何ら形態的な変化がない。文の内部での位置情
報と、文全体の意味解釈が品詞のちがいを判断す
漢文テキストへの応用
TFIDF を古代漢語で書かれたテキスト(以下、
る材料となる。
そこで、本稿では不要語処理をしないことにし
た。不要語は一般的に TF が高いが、IDF は低い
漢文テキスト)に応用する場合、いくつか問題が
ので、TFIDF では索引語として抽出されないよう
ある。
に、ある程度押さえ込むことはできると考えたか
まず、分析単位をどのようにとるかという問題
がある。
現代中国語であれば、「分詞算法」(単語分割ア
らである。だが、本稿のとる方法とは別に、漢文
テキストデータに用いる検索上の「不要語リスト」
の作成[12]は問題点として残る。
ルゴリズム)の研究[7]があり、その成果として
単語分割ソフトが実用化[8]されているので、そ
れを用いることもできる。
しかし、漢文テキストにおいては、現代中国語
52 ● 漢字文獻情報處理研究 第 3 号
実例
以上述べてきた TFIDF を『老子』を例として
TFIDF の漢文テキストへの応用(齊藤)
現行王弼本は全 81 章だから、全文書数 N は
81 である。各章は一つの文書として考える。TF
は 100 文字あたりの文字数に変換した。文書頻
度 n は 1 以上 81 以下となる。IDF は 81 を文書
図1
頻度で除算し 10 を底とする対数をとった。した
計算してみる。
がって、log101=0 以上、log1081= 1.908 以下となる。
『老子』のテキストは一般的であるという点か
ら王弼本を用い、データ化した底本は、入手しや
すいという点から、諸子百家叢書『老子・列子』
ここで、
第一章(59 文字)に出てくる、
「道」
「名」
「之」
「玄」の 4 語をとりあげて、TFIDF の算出過
程を示してみる。
上海古籍出版社所収の華亭張氏原本によった。基
礎データは以下になる。
《道》 TF1 道= 3 × 100 / 59
= 5.08
IDF 道= log10(81 / 37) = 0.34
文字種
繁体字
文字コード
Unicode
全文字数
5,279 字(篇名章名を含まず)
使用文字
804 種(同上)
備考 避諱の元を玄に改めた。
TFIDF 1道= 5.08 × 0.34
《名》 TF1 名= 6 × 100 / 59
= 1.73
= 10.17
IDF 名= log10(81 / 10) = 0.91
TFIDF 1名= 10.17 × 0.91 = 9.24
《之》 TF1 之= 5 × 100 / 59
= 8.47
IDF 之= log10(81 / 63) = 0.11
データの算出には筆者が Visual Basic で作った
[13]
ソフト
を用いた。
TFIDF 1之= 8.47 × 0.11
《玄》 TF1 玄= 3 × 100 / 59
= 0.92
= 5.09
図1のソフトは、2 バイトの Unicode(リトル
IDF 玄= log10(81 / 7)
= 1.06
エンディアン)をバイナリーデータとして、一文
TFIDF 1玄= 5.09 × 1.06
= 5.41
字づつ比較していくものである。csv ファイルを
出力するので、図2のように表計算ソフトで集計
使用頻度は、
「名」6、
「之」5、
「道」3、
「玄」
を行うことができる。表計算ソフトのデータベー
3 であるが、TFIDF を計算すると、重要度の高い
ス分析機能、「ピボットテーブル」を使えば、文
順に「名」9.24、
「玄」5.41、
「道」1.73、
「之」0.92
字ごとの使用頻度表を作るのも手間ではない。
と順位がつく。
図2
「道」と「玄」は使用頻度は同じだが、IDF に
よる特殊性を評価すれば、「玄」が「道」より 3
倍程度、第一章を特徴づけるのにふさわしい。
「名」と「之」は使用頻度からみれば、1 しか
違いがなく、両者で第一章の 18% を占めるほど
高頻度である。しかし、
「之」は虚詞であり、63
の章に存在するので、IDF が極端に低く、索引語
としての順位は低い。
『老子』のように、複数の概念が錯綜して論
理を構成している文献の場合、どの概念を重要と
考えるか、迷うことがある。第一章の場合、普通
に読めば、「道」や「玄」などの難解なタームの
解釈が先行するのはやむえないであろう。しか
し、TFIDF を見てみると、「名」は第一章 33 種
Journal of JAET vol.3 ● 53
論 文
の語のうち、重要度が 1 位であり、それに対し
「道」は 19 位である。「名」は「道」の 5 倍余も
TFIDF が大きい。また、
「名」は第一章・第十四章・
第三十二章・第三十四章でも第1位となっている。
TFIDF を踏まえ、第一章を見れば『老子』の共
通語である、「道」というタームはむしろ背景に
あり、「名」について強調した章であるという総
括も成りたつのである。
このように TFIDF による索引語の抽出によっ
て、テキストの認知が変化することは想像に難く
ない。
10 乎 / 能 / 玄 / 載・達・營・專・滌・疵・覽・
闔・魄
11 當 / 室 / 用 / 器・共・車・埴・輻・轂・鑿・
埏
12 令 / 五 / 目 / 狂・耳・色・爽・妨・盲・聾・
畋・獵
13 驚 / 患・寵 / 若 / 身 / 辱 / 吾 / 何 / 貴 / 寄・
托
14 名 / 狀 / 曰 / 繩 / 見 / 古 / 紀・詰・迎・御・
皦
15 兮 / 若 / 徐・濁 / 識 / 容 / 盈 / 孰 / 能 / 渉・
通・冬・敦・蔽・豫・儼・冰・曠・渙・釋
結果
以下に『老子』王弼本の各章について、TFIDF
による索引語を重要度の高い順に 10 位まで抽出
した結果を紹介する。
16 乃 / 復 / 芸 / 命 / 曰 / 公 / 根・ 容 / 常
/作
17 次 / 信・焉 / 侮・悠・譽 / 遂 / 姓・太 / 皆・
親・百
18 慧・六・僞 / 孝・臣・忠・廢 / 家・義・慈・
昬
《結果の見方》
5 芻・狗 / 仁 / 橐・籥 / 地 / 間・窮・屈・愈
章番号→ 5
1 位→芻・狗
3 位→仁
4 位→橐・籥
6 位→地
7 位→間・窮・屈・愈
(次の語は 11 位になるので表示せず)
19 絶 / 棄 / 素・ 倍・ 利・ 屬 / 孝・ 私・ 文
/民
20 獨 / 我 / 兮 / 未 / 昭・沌・煕・儽・若 / 衆・
如
21 兮 / 中 / 惟・惚・恍 / 甫 / 精 / 衆 / 閲・孔・
冥・窈
22 全 / 則 / 曲 / 自 / 爭 / 窪・誠・惑・敝・枉・
豈
23 同 / 於 / 失 / 樂 / 亦 / 德 / 者 / 終 / 信・
焉
1 名 / 玄 / 妙 / 同 / 觀 / 常 / 非 / 徼 / 異・又
2 相 / 斯・弗 / 皆・美 / 已 / 居 / 善 / 較・傾・
短
3 使 / 民 / 心 / 治 / 骨・腹・實 / 欲 / 賢・志・
尚
4 似 / 或 / 兮 / 誰・湛・帝・冲 / 鋭・宗・塵・
紛
5 芻・狗 / 仁 / 橐・籥 / 地 / 間・窮・屈・愈
6 緜 / 牝 / 玄 / 勤 / 根・神・存 / 門 / 謂 / 谷
7 身 / 私 / 長 / 能 / 外・久 / 地 / 且・邪 / 存
8 善 / 水 / 爭 / 時・尤 / 淵 / 幾 / 仁・正・動
9 金・堂・満・揣・梲 / 遂・咎・驕 / 遺・玉・
持・退・富
54 ● 漢字文獻情報處理研究 第 3 号
24 自 / 者 / 企・ 跨・ 贅 / 在・ 彰・ 伐・ 立・
矜
25 法 / 曰 / 逝 / 大 / 地 / 遠 / 王・兮 / 域・改・
字・寂・周・寥
26 輕 / 躁 / 君 / 重 / 失 / 燕・超・輜 / 奈・本・
乘・榮
27 善 / 資 / 師 / 棄・救 / 人 / 策・襲・轍・約・
要・瑕・籌・迹・關・楗・讁
28 谿 / 守・復・歸 / 式 / 樸 / 谷 / 德 / 官・黒・
雄・忒
29 或 / 去 / 吹・泰・奢・歔・羸・隳 / 敗 / 挫・
隨
30 果 / 勿 / 已 / 強 / 還・荊・佐・年・棘 / 師・
TFIDF の漢文テキストへの応用(齊藤)
壯・驕
31 右 / 左・殺 / 喪・禮 / 居・兵 / 器・君・軍・
尚・祥
32 名 / 止 / 均・ 降・ 賓・ 亦・ 露・ 譬 / 將
/莫
33 者 / 壽 / 勝 / 強 / 力 / 志・ 富・ 亡 / 自
/知
34 名 / 主 / 大 / 萬 / 衣・氾 / 可 / 右・養・
辭
35 往 / 餌・平 / 足 / 客・口・淡・聽 / 過・視・
太・味
36 固 / 必 / 將 / 欲 / 弱 / 魚・ 興・ 示・ 奪
/強
37 將 / 化 / 樸 / 欲 / 候・ 定・ 鎭 / 名 / 無
/自
38 德 / 失 / 禮 / 上 / 義 / 後 / 華・ 薄 / 仁
/而
39 恐 / 一 / 將 / 侯 / 得 / 寧・珞・靈・琭 / 本・
輿・賤
40 反 / 動 / 於 / 弱 / 用 / 道 / 萬 / 者 / 生
/有
41 若 / 士 / 笑 / 聞 / 建 / 大 / 道 / 德 / 隅・質・
貸・晩・偸・渝・隱・纇
42 教 / 二 / 損 / 益 / 生 / 或・三 / 一 / 陰・父・
負・陽・梁・稱
43 益 / 至 / 間・ 馳・ 騁 / 教・ 堅・ 入 / 及
/無
44 孰 / 亡 / 與 / 必 / 多 / 身・費・藏 / 病 / 止・
辱
45 若 / 大 / 靜 / 寒・拙・熱・弊・訥 / 勝 / 沖・
窮・屈・缺・躁・辯
46 足 / 馬 / 郊・ 戎・ 走・ 糞・ 卻 / 莫 / 於
/咎
47 彌 / 出 / 闚 / 見 / 戸・ 牖 / 遠・ 少 / 知
/名
48 損 / 日 / 取 / 又 / 事 / 學 / 益・ 及 / 無
/至
49 信 / 心 / 善 / 歙 / 吾 / 亦・渾 / 孩 / 聖・在・
姓
50 十 / 虎・ 死・ 兕 / 生 / 徒 / 三 / 入 / 兵
/所
51 德 / 尊 / 畜 / 育・ 勢・ 亭・ 毒・ 覆 / 生
/莫
52 身 / 母 / 兌 / 既 / 子 / 終 / 守・ 復・ 曰
/其
53 甚 / 飲・介・財・施・倉・帯・田・蕪・劍・
夸・徑・綵
54 脩 / 乃・觀 / 郷 / 家 / 德 / 身 / 於 / 國 / 祭・
孫・普
55 曰 / 至 / 和 / 握・含・筋・蛇・赤・鳥・比・蜂・
猛・也・嗄・據・攫・獸・號・螫・虺・蠆
56 得 / 可 / 同 / 鋭・塞・塵・疏・紛・兌・
賤
57 滋 / 民 / 我 / 多 / 奇 / 自 / 正 / 伎・忌・貧・
諱
58 政・湻 / 察・福・悶・缺 / 禍 / 正 / 復・
兮
59 克・嗇 / 積 / 早・服 / 重 / 莫 / 極 / 久・
柢
60 傷 / 神 / 鬼 / 非 / 鮮・ 烹・ 莅 / 交 / 兩
/人
61 國 / 小 / 取 / 大 / 過・ 牝 / 下 / 欲 / 或・
靜
62 善 / 奥・何・坐・罪・市・置・免・寳・拱・
璧・駟
63 難 / 必 / 易 / 細 / 事 / 多 / 味 / 大 / 作
/於
64 敗 / 易 / 未 / 於 / 學 / 始 / 執 / 失 / 土・九・
千・層
65 稽 / 國 / 智 / 矣 / 治・ 式 / 玄 / 順 / 福
/民
66 民 / 百 / 必 / 谷・ 爭 / 能 / 王 / 推 / 上・
處
67 慈 / 肖・ 儉・ 舍 / 且 / 先 / 勇・ 廣 / 曰
/似
68 善 / 怒・配・武 / 謂 / 敵・力 / 用 / 士・
戰
69 敵 / 兵 / 輕 / 敢 / 抗・尺・寸 / 哀・加・客・
喪・寶・攘・臂・扔
70 我 / 易・甚 / 知 / 懐・褐 / 莫 / 宗・被 / 玉・
君
71 病 / 知 / 上 / 唯 / 夫 / 是 / 聖 / 以 / 人
Journal of JAET vol.3 ● 55
論 文
四十一章の「道」
)か、短い章(第四十章)でし
/不
72 厭 / 威 / 自 / 狎 / 彼 / 所 / 愛 / 畏・至 / 去・
か抽出されていない。
抽出されにくい常用の概念範疇にどのような
居
73 恢 / 勇 / 或・敢 / 善 / 活・召・網・繟 / 疏・
謀・來・應
ものがあるのかを知るために、全出現数の順位も
参考にせねばならないであろう。以下に全出現数
74 殺 / 代 / 匠・斲 / 司 / 死 / 畏 / 手・懼 / 傷・
20 以上の語を挙げる。
奈
75 饑 / 輕 / 民 / 難 / 死・ 治・ 税 / 生 / 上
/求
《全出現数》
(200 以上)之 251 不 244
76 柔 / 強 / 也 / 弱 / 木・徒 / 死・堅 / 兵 / 枯・
草・槁
(100 以上)以 163 其 142 而 119 爲 114
無 102
77 餘 / 損 / 補・ 奉 / 足 / 弓・ 抑・ 舉 / 者
/張
(80 以上)者 93 天 92 人 85 下有 82
(60 以上)道 76 是 71 故 64
78 受 / 莫 / 勝 / 弱 / 柔 / 垢・ 攻・ 社・ 稷
/國
(40 以上)大 58 知 57 善 52 於 47 若 45
德 44
79 契 / 怨・司 / 責・徹 / 左 / 德 / 善 / 安・
親
(30 以上)生物 37 可 35 謂自得能民 33
聖則 32 常夫 30
80 使 / 相 / 雖 / 民 / 犬・死・舟・什・陳・伯・
望・徙・鷄
(20 以上)國 28 所欲兮 26 名 24 身將 23
貴吾曰 22 強言事用萬 21 行莫 20
81 己・博 / 愈・辯 / 既 / 美 / 信 / 積 / 者 / 言・
善
「聖」という字は、全出現が 32 であり、文書
頻度は 27 である。意味内容は先秦諸子の間でも
異なるが、所謂「概念範疇」に属し常用する言葉
この結果を一見してわかるように、頻度順で抽
であり、
『老子』王弼本においても、頻度は高い
出すれば必ず上位になる「之」「不」などは抽出
といっていいだろう。第十九章「絶聖棄智」の例
されていない。それぞれ「之」0.11、「不」0.04
では、TF が低いため 38 種の文字のうちで、32
と IDF が極めて小さいからである。
位であり、章の中では重要な語とは言えない。と
第十章の「乎」、第十五章・第二十一章の「兮」
ころで、1993 年に発掘された紀元前 300 年前後
は、
「之」や「不」などと同じく虚詞であるが、
「乎」
の竹簡、形成期の『老子』とされている郭店楚簡
の文書頻度は 5、「兮」の文書頻度は 8 と、比較
老子では[15]、ここに相当する部分が「絶智弃卞
的特殊な虚詞である。また、これらの虚詞は多用
(辯)」になっている。TFIDF で取り出された 1 位
されているので、上位に抽出されている。
2 位の「絶∼棄∼」の骨組みの部分は変わってい
第一章の 8 位「徼」は、文書頻度が 1 で第一
章にしか使用されていない。このような語は IDF
ないが、肉の部分は、楚簡では別の言葉が使われ
ていたのである。
は高いが、章の内部で多用されない限り上位の語
TF は繰り返し表現に高い値をとり、また IDF
となることはない。つまり、TFIDF による索引語
は他にない独特な部分に高い値をとる。つまり、
抽出は、使用頻度の低い語にも偏っていないこと
TFIDF は文書表現内部の独特な繰り返し型の文に、
が分かる。
強い選択性があると考えられる。このような文で
[14]
「道」や「天」などの常用の「概念範疇」
は、構文上必要な語は変化をうけにくいと予想で
は、文書頻度が高いので、(「道」は 37、「天」は
きる。したがって、TFIDF は伝写の過程で変化を
46)、IDF が低い。集中的に用いられている章(第
うけやすい部分と、変化しにくい部分を分割する
56 ● 漢字文獻情報處理研究 第 3 号
TFIDF の漢文テキストへの応用(齊藤)
図3
手がかりにもなると考えられる。
この「各論」
「総論」
「長文」
「短文」という基
準を組み合わせると、
『老子』各章の特性を以下
特性の数量化
つぎに、索引語の抽出に用いた IDF を使い、王
のように分類することができる。
《王弼本各章の特性》
弼本における章の特性を数量化し、分析を加えて
総平均 IDF 16.04 平均章長 65.17
みたい。
○短文各論 17 章(以下は王弼本の章の番号)
まず、各章における使用語彙の特殊性を、IDF
4 5 9 11 12 17 18 19 26 35 45 46 53
の平均によって代表させる。このとき、大小の差
60 69 74 79
がはっきりするように、IDF は対数をとる前の数
○短文総論 26 章
値、即ち、全章数÷文書頻度の値を、そのまま用
1 6 7 8 24 29 33 34 36 37 40 43 44
いることにする。
47 48 49 59 68 70 71 72 73 75 76 78
この「章平均 IDF」が、『老子』全体の総平均
IDF より大きければ、その章は全体として IDF の
81
○長文各論 21 章
高い特殊な語彙を多用する傾向があり、反対に章
10 13 15 16 20 21 22 27 30 39 41 42
平均 IDF が総平均 IDF より低ければ、一般的な語
50 54 55 57 58 62 64 67 80
彙を多用する傾向がある。特殊な語彙を多用する
○長文総論 17 章
章では、ほかの章との共通点が少ないはずである
2 3 14 23 25 28 31 32 38 51 52 56 61
から、これを「各論」と呼ぶ。一般的な語彙を多
63 65 66 77
用する章では、ほかの章との共通点が多いはずで
あるから、これを「総論」と呼ぶことにする。ま
た、『老子』の各章の長さを平均し、平均章長よ
散布図を作ると図3になる。相関関数は 0.17
であるから無相関としてよい。
り長い章を「長文」、短い章を「短文」と定義する。
Journal of JAET vol.3 ● 57
論 文
で、楚簡に存在する章が、散布図の周辺部分にど
の程度偏っているのか計算してみる。
郭店楚簡老子との比較
(表2)各論上位
前節のように、テキストを分類する基準をつ
くり章ごとに特性をわりあてると、郭店楚簡老子
[16]
(以下、楚簡)のように構成が異なる『老子』
との比較が意味をもつようになる。以下、楚簡と
の照合を通じて、章平均 IDF と章長による特徴に
よって、どのような分析ができるか考えてみたい。
1) 出土総数
(表1)
王弼本
章特性
郭店楚簡での出現章数
甲
乙
丙 甲丙 無
計
%
短文各論
4
1
短文総論
3
2
長文各論
5
4
長文総論
6
1
1
計
18
8
4
3
9
17
47%
21
26
19%
1
11
21
48%
9
17
47%
1
50
81
38%
表1の「%」の部分、楚簡に存在する章の割合
をみると、王弼本における「短文総論」の部分が、
低いことがわかる。これが、楚簡の欠損部分によ
るものか、それとも帛書へと「成型」されるまで
の間に付け足された章がこの部分に多いからなの
か、問題が残る。
また、各論 18、総論 13 と量的には各論に属
する章が多く出土している。
2) 全依存章
次に、文書頻度 1 の語を含まない章、つまり
順位
1
2
3
4
5
章
12
53
55
20
11
平均 IDF
33.06
28.62
26.83
25.52
24.61
章長
49
52
81
132
49
種別
短各
短各
長各
長各
短各
楚簡
平均 IDF
4.79
7.65
8.00
8.81
8.89
章長
20
76
40
67
49
種別
短総
長総
短総
長総
短総
楚簡
甲
甲
乙
平均 IDF
4.79
16.02
24.19
13.26
10.64
章長
20
25
26
28
36
種別
短総
短総
短各
短総
短総
楚簡
甲
丙
平均 IDF
22.89
25.52
11.60
16.74
15.22
章長
134
132
129
125
117
種別
長各
長各
長総
長各
長総
楚簡
甲
乙
(表3)総論上位
順位
1
2
3
4
5
章
40
66
48
3
7
(表4)短文上位
順位
1
2
3
4
5
章
40
6
18
71
47
(表5)長文上位
順位
1
2
3
4
5
章
39
20
38
64
31
乙
甲丙
丙
これら周辺章の上位 3 位までに入っている章
のうち、楚簡にある章は、1 章重複しているので、
章を構成する語がすべて他の章にもある章(これ
7 − 1 = 6 章である。したがって、周辺第 3 位
を以下「全依存章」と呼ぶ)について見てみる。
までの楚簡出土は、
全 依 存 章 は、3・40・43・48・56・71 と 6
= 6 ÷(3 × 4 − 1) = 54.5 %
章ある。楚簡では 40 は甲に、48 は乙に、56 は
である。第 3 位以下の中心にある章の楚簡の存
甲に、それぞれ存在する。48 については前半部
在は、楚簡全体では王弼本の 31 章が存在するので、
分しかないが、後半部分は武内義雄『老子の研究』
[17]
によって、既に他からの混入と見られている。
3) 周辺章
図3の散布図に楚簡における章の有無を書き込
=(31 − 6)÷(81 − 11)= 35.7 %
である。周辺章を、第 5 位にまで拡大した場合、
重複している章は 2 章になるので、
周辺存在=(10 − 2)÷(5 × 4 − 2)
= 44.4 %
んでみると、散布図の周辺に位置する章が、楚簡
中心存在=(31 − 8)÷(81 − 18)
に存在する場合が多いという印象をうける。そこ
= 36.5 %
58 ● 漢字文獻情報處理研究 第 3 号
TFIDF の漢文テキストへの応用(齊藤)
これらの研究では、科学論文から実際にキー
となる。周辺章への偏在は、残りの部分よりも、
8% ∼ 18%ほど優位にあることになる。
ワードを抽出し、著者にじかに索引語の精度を判
周辺章について王弼本の平均 IDF との関係を見
定してもらうという評価方法をとっている例もあ
てみると、総論 3 位までがすべて出土している
る。方法の精度を高めていくには重要な作業であ
のが特徴的である(表3)。しかも、40 と 66 は、
ろう。
仮借同音の字が用いられているものの、ほぼ全文
しかし、本稿で扱った『老子』の著者は誰とも
が残っており、48 も他からの混入と指摘されて
知れず、いずれにしろ既に没しているので著者に
いる部分を除けば、ほぼ楚簡にある。
よる判定は不可能である。さらに帛書の時点では
各 論 上 位 を み て み る と( 表 2)、1 位 2 位 の
『老子』と老子とは関係がなかった[24]という説
12・53 は楚簡に存在しない。12 は、武内義雄『老
があり、
『老子』の背後に統一的人格の存在を認
子の研究』によれば、押韻から古い道家者言であ
めるかどうかにも深刻な意見の相異[25] がみら
るとされるものの、『荘子』天地篇・『淮南子』精
れる。
神訓と酷似しており、しかも二書とも老子の言と
このような特徴をもつ中国古典の書物において、
はしてないので、「老子の口から出たか否かは疑
方法論を先行させ、情報検索技術の成果を応用し
わしい」[18] としている。53 は『韓非子』解老
ても、その是非や精度を評価する原理的な方法に
に出ているが、王弼本の通りではなく、古い注文
乏しいのは、深刻な問題といわざるをえない。
の竄入が指摘されている[19]。3 位の 55 は楚簡
だが、古典を新たな根拠により解釈したり、従
甲に残っている。『老子の研究』では、『荘子』庚
来の解釈を新たな根拠から再確認するための照明
桑楚との関連が指摘されていて、「衛生を説いた
装置としては、一定の価値を持ちうるだろう[26]。
[20]
古い記録から材をとったものであろう」
とさ
れている。
つまり、IDF によって分類された王弼本の特性
の上位 3 位までに限定すると、
「総論」は「各論」
参考文献
武内義雄 「老子原始」「老子の研究」(『武内義雄全集』巻
より楚簡に存在する章が多く、「各論」は先行研
五所収)角川書店 1978
究によって、他の文献からの影響がうかがえるの
木村英一 『老子の新研究』創文社 1959
である。
木村英一訳注・野村茂夫補『老子』講談社 1984
島邦男 『老子校正』汲古書院 1973
まとめ
本稿で紹介した TFIDF は、Namazu などの検索
システムでも使われており、新たな自動索引語抽
注
[1] TFIDF に は、tfidf,TF-IDF,tf・idf な ど、 様 々 な 表
出方法の評価が、TFIDF との対比でなされるほど、
記がある。本稿では、Salton&Yang1973(注 5 参照)
一般的である。
にしたがい、TF と IDF はそれぞれ Term Frequency ,
現在では、「語の性質」を単に頻度からみるだ
[21]
けではなく、語の共起関係
[22]
や、語の活性度
Inverse Document Frequency の頭文字を取った言葉
として理解するので大文字を用いる。また、添え字を
を数量化する手法が提起されている。すでに自動
つけ TF と IDF の積を一つの説明量として用いるので、
索引語抽出は、コンピュータによる文書検索・文
TF と IDF の間に中黒やハイフンなどの区切り記号はつ
書分類・要約作成などを支える基礎技術の一つで
けない。
あり、増え続ける資料から有益な情報を選び出す
ための「テキストマイニング」には欠かせない技
術[23]となっている。
[2] 北研二・津田和彦・獅々堀正幹『情報検索アルゴリズ
ム』共立出版 2002p27
[3] David Ellis 著(細野公男監訳・斎藤泰則・鈴木志元・
Journal of JAET vol.3 ● 59
論 文
村上泰子訳)
『情報検索論』丸善株式会社 1994 参照。
ルーン (Hans Peter Luhn:1896-1964) の事跡について
[16] 郭店楚簡老子の釈文については、同前 p163-334 ま
での「釈析部分」を参照した。
は、テキサス大学 Susan Soy の資料 http://www.gslis.u
[17] 『武内義雄全集』巻五老子篇 p350 を参照
texas.edu/~ssoy/organizing/l391d2c.htm を参照した。
[18] 同前 p283 参照
[4] Karen Sparck Jones, A Statistical interpretation
[19] 同前 p359
of term specificity and its application, Journal of
[20] 同前 p362
Documentation Vol28 No1,1972 参照
[21] 大澤幸生・ネルス E. ベンソン・谷内田雅彦「KeyGraph:
[5] G.. Salton and C. S. Yang, On the specification of
語 の 共 起 グ ラ フ の 分 割・ 統 合 に よ る キ ー ワ ー ド 抽
term values in automatic indexing, Journal of
出」『電子情報通信学会論文誌』D-I Vol.J82-D-I No.2
Documentation Vol29 No4,1973
pp.391-400 1999 年 2 月 を 参 照。http://www.miv.t
[6] 注 2 の文献 p34
.u-tokyo.ac.jp/~matumura/KeyGraph/ で は、 実 際 に
[7]「微軟件中国開発研究中心」のサイト、http://www.mic
KeyGraph を作成できる。
rosoft.com/china/rdcenter/info/result/chinese.asp を 参
[22] 松村真宏・大澤幸生・石塚満「語の活性度に基づ
照。なお、この点は愛知大学現代中国学部の吉川剛氏
くキーワード抽出法」人工知能学会論文誌 17 巻 4 号
に教示を承けた。
[8] 漢字文献情報処理研究会編『電脳中国学Ⅱ』好文出版
2001 p272 Proofing Tools の項参照
[9] 王應麟『困学紀聞』巻十諸子、
「首章以有無字下断句、
自王介甫始」参照
[10] 不要語については、注 2 の文献 p31 及び、神門典子・
清水美都子・橋爪宏達・山本毅雄『全文検索 技術と
応用』丸善 1998p39 を参照。
[11] 中国社会科学院語言研究所古代漢語研究室編『古代
漢語虚詞詞典』商務印書館 1999
[12] この点については、拙論「漢文典故表現の抽出につ
いて」情報処理学会報告 2002-CH-55p33-40 を参照
[13] ソフトウェアについては、筆者のホームページで公
開予定。http://taweb.aichi-u.ac.jp/saitom/
[14] 張岱年『中国古典哲学概念範疇要論』中国社会科学
出版社 1989 年参照
[15] 尹振環『楚簡老子辨析』中華書局 2001p11 参照
60 ● 漢字文獻情報處理研究 第 3 号
F2002
[23] たとえば、日本工業新聞のサイトでは、日東紡績と
筑波大学が共同で、「展示会でのサンプル要求データ
から、ファッションの流行を予測する技術」を開発し
たと伝えている(http://www.jij.co.jp/news/020204/soz
o/301.html 参照)。これは、KeyGraph を用いた成果で
ある。「テキストマイニング」という言葉については、
『日経コンピュータ』2001 年 8 月 13 日号の「埋もれ
た文書から“宝”を探す」を参照。
[24] 加地伸行編『老荘思想を学ぶ人のために』世界思想
社 1997p10 参照
[25] 山下龍二「『老子』には固有名詞がない」『日本中国
学会創立五十年記念論文集』汲古書院 1998 参照
[26] この点はすでに漢字文献情報処理研究会編『電脳中
国学Ⅱ』好文出版 2001p326 に、師茂樹氏が述べて
いる。
特集2
人文学
情報処理教育
数年前から情報リテラシーということばが盛んに使われはじめた。周知のようにリテラ
シーとは「読み、書き」といった基礎能力のことを指す。コンピュータには紙媒体とは全
く異なる扱いが必要で、それ独自の基礎知識の修養が重要になってくる。このため生まれ
たのが情報リテラシーという言葉なのだろう。
現在、ほとんどの大学における人文学系情報処理教育は、初心者向けのリテラシー教育と、
プログラミングやサーバ管理などの情報処理專門講座とに偏重している。しかし、本会が
これまでに『電脳中国学』
『電脳国文学』などを通じて訴えてきたように、人文学にコンピュー
タを活用するためには、単に情報リテラシーを身につけるだけではなく、その基礎の上に
研究領域や方法と密接に結びついた、人文学的情報処理のテクニックを身につける必要が
あると思われる。
この特集では、人文学情報処理教育の先進的な事例や参考文献について紹介する。また、
漢情研 BBS において展開された討論「オンライン討論―人文学情報処理教育はいかにある
べきか」を掲載している。人文学情報処理教育の理想や課題が凝縮された議論となってい
るので、是非ともご一読されたい。
電脳東洋学的授業の試み 授業の実践報告 ・・・・・・・・・・・・・・・・・・・・・・・山田 崇仁 ・・・・・・ 62
情報歴史学の課題
花園大学・情報歴史学コースのための主観的航海図 ・・・・・・・・・・・師 茂樹 ・・・・・・・・ 68
中国語教育と情報処理 コンピュータスキルをどこまで教えるか ・・・田邉 鉄 ・・・・・・・・ 73
人文情報処理および情報リテラシー関連書籍ガイド ・・・・・・・・・・・・・小島 浩之 ・・・・・・ 77
オンライン討論 人文学情報処理教育はいかにあるべきか ・・・・・・・・・・・・・・・・・・・・・・・・ 81
Journal of JAET vol.3 ● 61
人文学
特 集 2 情報処理教育
電脳東洋学的授業の試み
授業の実践報告
山田 崇仁(やまだ たかひと)
学習
はじめに
筆者は本研究会編集の『電脳中国学Ⅱ』に、人
 二回生時に黄宗羲『明夷待訪録』の中から
一つを選択して読み・訳・資料探源をさせ
る
文系情報処理授業についての実践報告及び将来的
 三回生時に顧炎武『日知録』の中から一つ
な課題についての一文を載せた。そこでは、文学
を選択して読み・訳・資料探源をさせる
部全体の学生が対象ということもあって、電脳中
 二 三回生時に、指定した漢文を訓読・訳・
国学に特化した内容の授業を行うにはそれなりの
制約があり、授業の内容設定や授業で学んだこと
を受講生がどう生かすかについて、こちらの把握
がむずかしかったことなどを述べた。
探源を行わせる講座の受講
 三四回生時に、東洋史の各テーマに沿った
講座を受講(特殊講義)
 四回生で自ら定めたテーマで卒業論文作成
その科目は本年度も担当しているが、別に立命
館大学文学部の 2002 年度前期セメスターで「電
本科目の正式名称は「東洋史特殊講義Ⅲ」で
脳東洋学」をテーマにした実習授業を行う機会を
ある。この科目は上記の通り東洋史にかんする各
得た。今回は、それについての報告が中心となる。
テーマについての講義を行うのだが、今回はコン
ピュータ関連の実習が中心という他の科目とはい
科目開設にあたって
まず、授業の前提となる立命館大学東洋史学
専攻の教育課程から紹介しよう[1]。立命館では、
ささか毛色が異なったものとなった。
受講生について
本科目は、東洋史学専攻の三回生以上の学生を
文献史学中心の教育内容を伝統的に採用してい
対象としている[2]。開講時の登録人数は 27 人
る。アジア全般を含むために東洋史と専攻名がな
だが、常時出席していたのは 20 人前後だった。
っているが、実際には設定科目の多くが中国を対
また、受講生には中国文学専攻の学生もいた。こ
象としている。
れは、漢字文献をコンピュータで取り扱うための
一回生からの具体的な教育プロセスを簡単に
示すと以下の通りである。
基礎的技術の習得を中心テーマとして設定したた
め、中国文学の学生も興味を持ったのが理由と思
われる。
 一回生時に東洋史学に必要な基礎的知識を
62 ● 漢字文獻情報處理研究 第 3 号
受講生のコンピュータスキルについては、かな
電脳東洋学的授業の試み(山田)
科目内容の設定
ここで、東洋学(ここでは漢文読解を中心とし
た伝統的中国学と同義と思っていただいてよい)
向けの発表用レジュメ作成の手順を思い浮かべて
みよう。おそらくこんな流れになるはずである。
1. 原文となる漢文を入力する。
図 1:教員用のシステム
2. それを書き下し或いは原文に返り点をつけ
る。
りの開きがあった。一応ほとんどの受講生は、カ
3. 現代語訳を入力する。
リキュラムの一環としてコンピュータ関連の講座
4. 注釈や他の資料を附してレジュメを作成。
を受講済みであり[3]、最低限度のオペレーティ
5. 印刷して配布する。
ングシステム・アプリケーション・Web ブラウ
ザ等の操作方法について了解しているはずである。
授業回数は 15 回だが、そのうち実質的に利用
ただし、実際にはその講座以来パソコンに触った
可能な回数は 13 ∼ 4 回程度である。その中で何
こともない受講生や、過去に筆者の担当した情報
を採り上げようかと、筆者が科目担当の依頼をう
関連科目を受講した学生も少なからず存在した。
けたとき、専攻主任にどのような授業設定をした
実習を主とする情報教育では、このレベル差の
らよいのか質問したが、その時以下のような回答
把握(加えて平均レベルの見極め)が必須である。
をいただいたと記憶している。
あくまで「実習」なのだから、時間がかかっても
実習で提示したプロセスを体得させること重要で
ある。もし課題のレベル設定が受講生にとって非
常に難しければ、受講生が授業についてこられず、
開講の意味がなくなる可能性もある。
筆者は、課題のレベル設定として「受講生の過
半数程度が授業時間内で課題の殆どを終える」と
 テキストの輪読の発表用レジュメは、縦書
きで読みたい。
 具体的には、Unicode 2.1 にある程度
の漢字は入力させ、訓読・訳・注釈や
資料探源等のレジュメは縦書きし、文
字化け無く印刷してほしい。
いう目標を設定しているが、パソコン習熟のレベ
 中央研究院漢籍電子文献を始めとするイン
ルを調査することは、その目標をどこに定めるか
ターネットリソースをうまく活用させたい
という参考となるので、この手の授業としては必
 デジタルデータベースの存在自体は知
ずやっておくべきだと言えるだろう。
また、パソコンにかんするスキル以外にも、東
っているが、うまく利用できない。
 利 用はできるものの、テキストの貼
洋史学専攻の学生が主たる受講対象である以上、
り付けやその後の加工や印刷ができな
最低限の東洋史にかんする知識及び知識を得る
い。
ための方法(『アジア歴史事典』や『大漢和辞典』
の基礎的辞書や辞典を引けるという程度でよい)
これを上の 1 ∼ 5 の流れに則して書いてみよう。
を理解しているというのは、言わずもがなである。
まず、1. の原文作成の段である。自分で入力
する場合、漢字をうまく検索・入力できない。ま
た、漢籍電子文献等を利用したとしても、JIS 未
収録字や外字をうまく表記できないかもしれない。
Journal of JAET vol.3 ● 63
人文学
特 集 2 情報処理教育
次に 2. の書き下し(返り点)云々の段である。
最近はワープロソフトのレイアウト能力の都合で、
原文に返り点を入れるよりも、訓読文を入力する
文章をむしろよく見るが、先の原文入力と同じく
漢字の入力でつまずくだろう。
また、レイアウト面でも縦書きができなかった
り、手作業で中国式新標点を日本風の句読点方式
に直せなかったりするかもしれない。
実際の授業プロセス
では、実際の授業の顛末を紹介しよう。毎回の
授業内容は、立命館のオンラインシラバスの本科
目の項[4]を参照していただきたい。
教科書には『電脳中国学Ⅱ』を指定した。それ
に加えて、当該書ではスペースの都合で割愛した
更に返り点を入れようとしても、レ点や一二点
部分や、立命館大学の情報システム(各受講生用
はまだしも、それらと送りがなの組み合わせ、或
のコンピュータ)に特化した部分は、別にレジュ
いは再読文字にどう返り点と送りがなを振るかで
メ(プリント・Web)として配布[5]した。
パニックになってしまう。
授業形式は、以下の通り
結局、それらの部分の入力はあきらめて手書き
になってしまうのである。
1. 課題を配布する。
4. の資料探源では、コードセパレートや外字
2. 課題についての実習方法を説明する。
の問題で漢籍電子文献の如きデジタルデータベー
3. 実際に受講生がその課題に取り組む。
スの存在を知っていてもうまく利用できない、検
4. 課題が完成した受講生は、教員のチェック
索結果が膨大でどれが目的のものかわからない、
を受ける。
見つかったのはいいものの、コピーして貼り付け
5. 全問正答なら合格。
たら文字が化けてしまった…という問題が立ちは
6. 不合格の場合は、3. に戻る。
だかって、結局これもコピーした原稿を切り貼り
7. 授業時間内に完成しなかった部分は、次回
することになってしまうかもしれない。
最後に 5. のレイアウトと印刷の段である。最
近は中国大陸で横組み簡体字の書物が一般的に
以降提出。遅延提出減点はなし。
8. 各課題の最終締め切りは、本科目の最後の
授業時(15 回目)とする。
なった関係上、漢文の横組み自体にはさほど違和
感がなくなったとはいえ、書き下しや返り点付き
このような授業形式を採用したのは、
「スキル
漢文はやはり縦書きで印刷したい。しかし、まず
を身につけさせる」のが第一の理由である。筆者
始めに縦書きの設定自体を知らないし、どのフォ
が、時間内に求められた課題をこなすのではなく、
ントを利用したら文字化けが無くなるのかについ
時間がかかっても構わないから、スキルを身につ
ての知識もない。更にプリンタフォントを持った
ける方が重要だと考えるからである。
レーザープリンタで印刷する際の注意事項につい
て何も知識がないために、文字化け印刷されてし
まう。化ける可能性について知りもしない以上、
化けたまま提出或いは発表をして、間違いを指摘
されるという結果になってしまうのである。
これらの問題を基本に、他の東洋史教員や大学
院生の意見や講義回数との兼ね合いを勘案して、
「インターネットリソースを利用して情報を検索
し、ワープロソフト等でレイアウトを整えて印刷
する」という点を中心に、その解決方法を提示・
学習させることを授業の目的として設定した。
64 ● 漢字文獻情報處理研究 第 3 号
図 2:受講生用のパソコン
電脳東洋学的授業の試み(山田)
各受講生用の端末は、Windows NT 4.0 をオペ
昨年度まで一太郎も選択対象として存在したが、
レーティングシステムとする。また、アプリケー
本年度から Word 2000 のみとなったため、本講
ションについては『電脳中国学Ⅱ』当時と殆ど変
座でも Word 2000 を使ってレジュメ作成の実習
化がないが、本講座関連では、cWnn の如きバー
を行った。
ジョンアップしていないものもあれば、Internet
初心者用のワープロ講座では、基礎的な文字の
Explorer の如きバージョンが 6 にアップしてい
装飾→画像を交えた複雑な装飾・それ以外のテク
るものもあった。
ニックへと段階的にステップアップすると思われ
立命館の情報システムは、本年度より WebCT
るが、本科目でもこの基本的な流れに則しつつ、
というオンライン上での科目毎の Web 掲示板・
東洋学向けの授業という性格上、課題に少々の工
メール・ファイル公開などの豊富な機能を持つ授
夫をしてみた。たとえば、内容に漢文や東洋学向
業支援システムが稼働しているが、稼働初年度と
けの文章を利用したり、また漢文入力用の特殊な
いう事情もあり、在学生への十分な説明及び利用
テクニックを実習したりという点などがそれであ
法解説がなされていないため
[6]
、本年度は積極
る。以下が実習内容の要約である。
的な利用を控えた。もっとも、将来的に在学生が
WebCT の利用について十分理解したと判断した
段階で、本システム導入も考慮している。
基礎的学習
 縦書き二段組の文章。上段には訓読文、下
段には現代語訳
 画像・脚注附き文章
 見栄えのよいレジュメの作成方法
『電脳中国学Ⅱ』にも書いたことだが、筆者
 白文に返り点を附けて訓読文を入力させる
はこの類の講座を行うにあたって、本題に入る前
 中 央研究院漢籍電子文献のデータを検索・
に文字コードについての解説や、JIS 以外の文字
置換機能を駆使して加工
を入力・印刷する方法についての実習を行うこと
にしている。特に入力・印刷の実習は基礎中の基
課題には、毎回補助漢字相当部分までの文字を
礎であるため、なるべく早い回にやっておいたほ
含んでいるため、自動的に入力・印刷方法の実習
うがよい。実際の内容としては MS IME 2000 の
をも毎回行うことにもなり、これらの方法につい
IME パッドを利用しての多漢字入力と印刷のほ
ては、実習状況を見る限り(時々印刷の方法を忘
か、今昔文字鏡の Mojikyo Character Map の利用
れる受講生が見られたが)
、ほとんどの受講生が
方についての実習も行った[7]。
このスキルを身につけたといえよう。
ワープロ講座
立命館で利用可能なワープロソフトとしては、
図 3:返り点入力課題の一部
ワープロ関連の課題は、大学の共用コンピュー
タで実行できる範囲で方法を教えているため、実
際にはマクロなどを利用すればもっと楽に実行可
能な場合も多いが、授業では裏技を駆使した手順
で実習することにした[8]。本来なら授業でそれ
らの代替手段を紹介すべきだったのだが、そこま
で手が回らなかった点を反省している。
インターネットリソースの活用
ワープロ講座で文字の入力・加工について一通
りのスキルを身に付けさせ、次にインターネット
リソースの活用実習を行った。
ここでの学習目的は、中国語 Web サイトの閲
Journal of JAET vol.3 ● 65
人文学
特 集 2 情報処理教育
覧・検索方法や、学習に役立つ・あるいは東洋学
に特化したオンラインデータベースの紹介と利用
業論文に向けての利用促進が期待される。
当然、中央研究院漢籍電子文献も利用した。初
めに漢籍電子文献についての説明を行い、二種類
方法を学ぶことである。
中国語 Web サイトを利用するためには、ブラ
ウザのエンコード変更と、各エンコードに応じ
ある検索システムそれぞれについて検索方法を説
明し、両システムについて実習させた[14]。
た文字入力の方法とを学習する必要がある。立命
人文系の講座では、単にキーワードを指定して
のシステムには WWW ブラウザとして Netscape
検索し、結果を Word に貼り付けて印刷させただ
Navigator 4.7 と Internet Explorer 6 がインストー
けだったが、今回は、外字部分(立命の共用パソ
ルされている。授業では、中国語入力環境との兼
コンには外字ファイルをインストールできないの
ね合いで IE6 を利用した。
で、その部分は中黒「・」表示される)を、入力
ただし、IME の cWnn のバージョンの都合で、
原本を見て外字部分の文字を埋めさせ、入力原本
文字入力の方法が IE への直接入力ではなく、一
のコピーと合わせて提出させたり、検索結果の文
旦メモ帳に入力してそれをコピーし、IE 上に貼
書中から、答えとなる部分のみ抜き出させたりす
り付けるという、手間のかかる方法を取らざるを
るなど、やや高度な問題を課してみた。
[9]
。今後ソフトウェアのバージョン
漢籍電子文献の利用実習は受講生にも好評だっ
アップで、この面倒さが解消されることを望みた
たようで、他の授業の調べもので、自分が調べた
いが、2002 年度中はこのままだろう。
以外の用例を見つけて喜んでいる受講生もいた。
得なかった
さ て、 実 際 に 採 り 上 げ た Web サ イ ト は、 中
国語 Yahoo! と Google である。Yahoo! は中国語
Web ページの表示と入力について実習するため、
Google は日本語ページからでも中国語検索が可
能だということを実習するためにそれぞれ選択し
たが、課題としたコードセパレート文字「黄」と
「黃」との違いをよく理解していないために、意
図した検索結果が得られない受講生が多かった。
この辺りをどう教えるかが今後の課題である。
学習に役立つ日本語 Web サイトとしては、
『平
図 4:漢籍電子文献解説の一部
凡社世界大百科事典』の Web サイト「ネットで
百科@ Home[10]」等を利用した。『平凡社世界
大百科事典』は、同社の『アジア歴史事典』と同
様、初学者が参考すべき資料として認識してもら
[11]
いたいという意味も含めて利用させてみた
終わりに―授業の結果と反省点―
初年度ということもあり、はじめはどうなるこ
。
とかと心配もしていたのだが、授業は事前に設定
東洋学に特化したデータベースとして、「全国
した通りに進み、内容についてはおおむね理解し
[12]
漢籍目録データベース
」と『東洋学文献類目
[13]
てくれたと思っている。
』を利用させた。立命館では、一二回生の時
さすがに東洋史の科目のためか、『電脳中国学
点で漢籍解題や論文検索の実習を行うが、これら
Ⅱ』で問題点として指摘したような漢字の読み能
は何れも書籍利用の実習のため、オンラインデー
力不足は見られなかった。ただし、漢文の訓読間
タベース利用実習はそれなりに有意義だと思われ
違いが見られたり、後漢を中国大陸で東漢という
る。特に『東洋学文献類目』は、量が膨大なため
ことを知らなかったりと、東洋学で知っておくべ
学生はあまり利用しないが、オンライン版で簡単
き用語や漢文訓読の用法についての基礎的教養に
に検索可能になったため、今後レポート作成や卒
欠けると思われる場合も見られた。
66 ● 漢字文獻情報處理研究 第 3 号
電脳東洋学的授業の試み(山田)
それでも、常時出席していた受講生の多くは課
題のほとんどをこなし、よい評価を与えることが
できた。結果として、事前に建てた目標はほぼ達
成できたと思われる。
当初は、「こんなワープロ&インターネット講
座に毛が生えたような設定でよいのだろうか?」
という疑念を持たないではなかったが、実際に開
講してみると「とりあえずはこの辺りから啓蒙活
動を始める必要があった」ことを実感させられた。
学生のほうも初めは苦労していたが、授業アン
ケート[15]の結果では「理解できた」「ほぼ理解
できた」という学生が大半であった。ただ、一部
に「課題が難しかった」という回答も見られた。
先に述べた通り、授業ではレジュメの一部を
html ファイルで作成した。受講生はインターネッ
注
[1] 実際の開講科目や内容については、立命館大学のオン
ラインシラバスを参照されたし。
[2] 東洋史学専攻の詳細については、東洋史学専攻の Web
サイトを参照のこと。http://www.ritsumei.ac.jp/kic/lt/
eah/index-j.html
[3] それより下の学年は、入学時の最初の前期セメスター
で基礎的情報処理講座を全員受講している。
[4] http://viewer:[email protected]:8900/SCRIP
T/LT000389/scripts/student/serve_syllabus.pl?START
[5] 一部筆者の Web サイトで公開。http://www.ritsumei.a
c.jp/kic/~tyv07679/index-j.html
[6] 希望者対象に利用講座が開催、オンラインで PDF の
マニュアルが配布されている。
ト接続環境である限り、どこからでもレジュメの
[7] レジュメは、筆者の Web サイトで掲載。
参照ができるメリットがあるが、教員の側からす
[8] 例えば、返り点つけについては、『電脳中国学Ⅱ』所
ると、授業中にレジュメを見ているかどうかすぐ
収の千田大介氏の Word 用マクロや各種返り点用外字
にわかるという思わぬ利点もあった。ただし、一
フォントを利用する方が効率よく入力できる。授業で
画面上でレジュメと課題とを同時に見る形態が効
利用した裏技は、筆者の Web サイトを参照されたし
率的かどうか、意見が分かれるだろう。これらレ
[9] メモ帳を選択したのは、Unicode 対応アプリケーショ
ジュメの作成・提供手段・説明方法などについて
ンという以外に、動作が軽いのが理由である。
は、今後に更に工夫が必要と思われる。
[10] http://ds.hbi.ne.jp/netencyhome/index.html
結果として、受講生の大部分に良い評価を与え
[11] 『アジア歴史事典』よりも発行年が下るために、そ
ることができたが、この科目はスキルの習得を目
れよりも新しい情報を含んでいる。特に近現代史は『ア
的とするため、最終的には身につけたスキルを他
の科目で発揮してもらって完結すると考えている。
その成果を確認するのは難しいが、筆者としては
授業で身につけたスキルを、後期セメスターや来
年度以降に十分に発揮してほしいと願っている。
ジア歴史事典』よりも参考にすべきだろう。
[12] http://www.kanji.zinbun.kyoto-u.ac.jp/cgi-bin/kanseki.
cgi
[13] http://www.kanji.zinbun.kyoto-u.ac.jp/db/CHINA3/ind
ex.html.ja
最後に、東洋学関連の電脳講座を開設したいと
[14] バージョン 1 の検索方法について説明したレジュメ
考えている方が、この文章を読んで多少でも益に
は、筆者の Web サイトで公開。バージョン 2 につい
なることがあれば、なによりの幸いである。
ては、『電脳中国学Ⅱ』掲載の拙稿を利用した。
[15] 立命館では全学的に「授業評価アンケート」を実施
しており、ここではその集計結果を参考にしている。
Journal of JAET vol.3 ● 67
人文学
特 集 2 情報処理教育
情報歴史学の課題
花園大学・情報歴史学コースのための
主観的航海図
師 茂樹(もろ しげき)
た雑用にまで駆り出され、いくつものプロジェク
はじめに
トをかけもちしているというのが現状ではなかろ
うか。思うにこれは、情報化しなければならない、
花園大学[1]にはこの春、文学部史学科の一コー
コンピュータを使わなければならないという認識
スとして、考古学、民俗学、美術史、禅文化史な
の多くが、学界の内側から自発的に沸き起こった
どの諸コースと並び、日本初の「情報歴史学コー
ものではなく、世情や国の文教政策、海外の学界
ス」が開設された。本稿は、船出したばかりで明
の動向などといった外圧によるものであって、そ
確な見取り図をまだ持たない本コースが、どこを
の結果人材育成という面が疎かになってきていた
目指しどのように舵取りをしていくべきか、若干
ためではないかと思う。
の主観的かつ理想論的展望を述べたいと思う。
このような人材不足は、大学の外でもしばし
ば起きていることではないかと思われる。昨今の
歴史学におけるコンピュータ利用の現状
人材不足
IT ブームのおかげで IT 技術者は増加し、IT ユー
ザも増えた。しかし、非常に大雑把に図式化すれ
ば、情報をやり取りする IT ユーザのほとんどが
情報処理の専門的な知識を持たない文系であるの
今さら言うまでもないが、現代は情報化社会で
に対して、IT 技術者は情報処理の専門家ではあっ
ある。歴史学に限らず、人文科学一般においてデー
てもやりとりされる情報についての専門的な知識
タベースをはじめとするコンピュータ技術の利用
を持たないために、コミュニケーションがうまく
がこれからますます重要となるであろうことは共
とれないでいるという場面は少なくない[2]。情
通認識となっている(なりつつある)のではない
報化、環境問題、バイオテクノロジーといった理
かと思う。しかし、個人で既存のソフトウェアや
系的な問題と、歴史観、宗教、多文化といった文
データベースを活用するというレベルであればと
系的な問題とが複雑に絡み合う今日、文系・理系
もかく、データベースを設計、制作し、世界に向
それぞれの知の伝統を踏まえ、それぞれに習熟し
けて情報を発信することができるような人材は決
た上で、両者を対話させ融合することができる人
定的に不足しており、一部のたまたま“できる”
材が現在求められているのではなかろうか。
人間が情報収集やらマシンのセットアップといっ
68 ● 漢字文獻情報處理研究 第 3 号
情報歴史学コースは、規模も小さく、上記のよ
情報歴史学の課題(師)
うな現代社会の課題についてもごく一部しか扱う
タばかりに夢中になって、本来の勉強をしていな
ことができない小さなコースではあるが、大きな
い」という批判を撥ね返すためにも)疎かにされ
現代的意義があると確信している。
てはならない。
したがって、大学のカリキュラムにおいても、
新しい知の可能性
情報歴史学のゼミが従来のゼミからまったく独立
加えて、今日の急激な情報化が我々のものの見
して開かれるのは望ましくないだろう。文献史学、
方、知のあり方を少しずつ変えてきている、とい
美術史学、考古学といった各ゼミにおいて読まれ
う状況を無視することはできない。このような変
ている史料を情報歴史学のゼミでも同時に扱い、
化は、かつて写本から印刷へと移行する時期にも
学生がその間を往復するというのが効果的ではな
見られたことであるが、今日においてグーテンベ
いかと思う。例えば、
とあるテキストに異本があっ
ルク革命に相当するものとして、我々の認識の範
たとして、それを通常のゼミでは文献学的に精読
囲を遥かに凌駕する巨大なデータベースの登場を
し、内容や形式面で比較する一方、情報歴史学の
[3]
あげてもよいのではないかと思う
。
ゼミでは同じ異本に対して確率・統計的な手法に
東洋古典に限ってみても、中国学、仏教学、日
よる比較分析を行い、それぞれのゼミで両者の結
本史などで公開されているデータベースの規模は
果をつきあわせる、という作業はたいへん興味深
現在億単位の文字数、ギガバイト単位の画像デー
く思われる。
タを誇り、技術さえあればそれらに如何様にもア
このような考えに対して、従来からのゼミを持
クセスすることが可能になっている。これまでで
つ教員がそれぞれのゼミでコンピュータを利用し
あれば、四書五経のような古典体系や伝統的な入
た授業をすればいいのではないか、わざわざ情報
門書などによって読書の進め方がある程度決定さ
歴史学コースを新設する必要はないのではないか、
れていたし、あるいは関心のあるテキストからそ
という意見もあろう。しかし、筆者はそう考え
の周辺のテキストへとコンテクストに沿って読書
ない。もちろん、従来のゼミの中でコンピュータ
を進めていくのが普通であった。しかし、データ
を積極的に導入することは望ましいことであろう
ベースの場合であれば、時代や地域、研究史といっ
(し、むしろそれをしていかなければ競争に負け
たコンテクストをまったく無視して検索や比較分
てしまう恐れさえあるわけだ)が、それは文献史
析をし、その結果からテキストのつながりを見出
学の研究で考古学の成果を参考にするのと同じで、
し構成していく、というように、これまでの知識
そこから文献史学と考古学とを一緒にしてしまえ、
獲得のプロセスでは見えなかったものが、見えて
という結論にはならないはずだ。文献史学等と同
くる可能性があるのである。
様に、情報歴史学にもまた固有の課題があり、そ
こに焦点を絞って深く突き詰めることによってこ
求められる能力とその教育
歴史学
そ見えてくることがあるはずだ。
固有の課題、という点で言えば、コンピュータ
を使った研究で特に重要になってくるのが、方法
論的な問題であろう。例えば、確率・統計的なモ
情報歴史学というと兎角“情報”の面だけが注
デルを使った史料分析、あるいは史料の作者が参
目されがちであるが、中心になるのは言うまでも
照していたコンテクストとはまったくかけ離れて
なく“歴史”の方である。史料を読み、研究史と
いる大規模データベースを検索しながらの読みな
方法論についての知識を身につけてこそ、処理す
どを通じて、それが果たして“正しい”読みなの
べき情報を見出し、それを処理しようとする問題
か、さらにはここで言う“正しさ”とは何なのか
意識が涵養されるのであるから、人が史料を読む
といった方法論的な問題に遭遇する。
という根幹の部分の訓練については(「コンピュー
また、テキスト・データベースを作ったりそれ
Journal of JAET vol.3 ● 69
人文学
特 集 2 情報処理教育
に XML でマークアップをしたりしていると、文
マティクス)で解決する場合に必要なコラボレー
字(旧字 etc..)とは何なのか、文書構造とはど
ションのためには不可欠だ。
のような構造なのか、といった認識論的な問題も
発生してくる。コンピュータの利用は「伝統的な
テキスト観を明らかにすることにもつながる」[4]
データベースを活用するための技術
歴史学におけるコンピュータ利用というと、兎
のである。同様な問題は、画像処理などをして
角、テキスト・データベースを検索したり、史料
いる場合でも、解像度や色情報をどのようなパラ
を読むうちに見つけたメモ類をデータベース化し
メータでクォンタイズすべきか、などといった場
たり、といったような、従来の索引やカードの延
面で顕在化するはずだ。
長線上にあるようなことが多かったように思う。
このような方法論的な反省は、コンピュータ以
もちろんそれだけでも、データベースが大規模
前にも、写本を翻刻、活字化したり、文化財を修
化している今日では、これまでにない成果をあげ
復したりといった作業の中で研究者がこれまで何
ることはできよう。しかし、情報歴史学と言うか
度も遭遇してきた問題である。それに対して、個
らには、従来の文献学的方法では発見することが
人個人のレベルから哲学的な課題としてまで、こ
困難な読みの可能性を提示したり、肉眼では識別
れまで様々な研究や提案がなされてきたわけであ
不可能な色調の違いを画像データから炙り出した
るが、コンピュータという異質なものを経由して
りすることこそが醍醐味であろうし、また他人の
テキストを読むという行為が日常化し、史料をデ
作ったデータベースに不満があれば、文献史学に
ジタル化することでトライ・アンド・エラーを気
おいて史料批判が当たり前なように、自らデータ
軽に何度も繰り返すことができるようになること
ベースを作成するということもなされるべきであ
によって、より身近で実践的な問題になってくる
ろう。
のではなかろうか。
また、数十億という文字数のテキスト・データ
情報歴史学コースに入る前段階で、従来の方法
ベースが世界各国から発信されつつある今日、
「テ
論的な諸研究について知識を深めておくことは肝
キストエディタ+ grep」レベルの活用にとどまっ
要であろうし、ゼミにおける実習などでも折に触
ていては、とても使いこなすことは不可能だ。そ
れて議論しなければならないだろう。
のためにはデータベースを扱うための一般的な知
コンピュータ・サイエンス
情報歴史学におけるコンピュータ・サイエンス
は、中国文学における中国語に相当する、と言え
ばわかりやすいだろうか。中国文学の表現が中国
語というメディアに強く規制されるように、デジ
識・技術[5]に加えて、大規模データ処理、多言
語処理、計量的なデータ分析、データ・マイニン
グ、プログラミングなどについても学ばなくては
ならないだろう。
コラボレーションの技術
タル化された史料を適切に扱うにはコンピュータ
大規模データベースの時代においては、利用範
という離散機械の原理(=コンピュータ・サイエ
囲をごく一部に限ったとしても、個人作業だけで
ンス)、特にデジタル化、モデル化、正規化など
やろうというのは現実的でない。一ユーザとして
といった考え方を身につけなければならないし、
の参加から開発者としての協力まで、様々な面で
そのためにはある程度の数学的なセンスが必須だ。
の共同作業が不可欠であり、加えて、それを可能
またコンピュータ・サイエンスは、情報処理
にする標準化や国際化などについてもそれなりの
の専門家とつっこんだやりとりをするためにも大
知識と取り組みが必要となってくる。共同作業の
切な教養となる。このような能力は、国家試験の
相手は、当然のことながら同じ業界の人だけでな
システムアドミニストレータなどでも求められて
く、ソフトウェアの開発者や販売会社、文字コー
おり、文系的な課題を高度な情報処理(インフォ
ドなどの規格を制定している人などが多くなるだ
70 ● 漢字文獻情報處理研究 第 3 号
情報歴史学の課題(師)
ろうし、インターネットを通じて国境を越えたコ
という意義だけでなく、場合によってはクラッ
ラボレーションも活発である。
シュするかもしれないα版、β版のソフトウェア
特にソフトウェアの開発においては、Linux に
を使えるような環境でなければ国際的なコラボ
代表されるオープンソース運動に見られるように、
レーションの最前線に立てない、という面もある。
多くの人が参加するための土壌ができあがって
また、有望なプロジェクトが始まろうというとき
いて、単なるユーザから開発者まで数多くの人材
に即座に場を提供できれば、そのプロジェクトの
が集まり大きな成果を生み出している。人文系の
成果を通じて大学の名を世界にアピールすること
データベースを作る場合にも情報系のスタッフが
ができよう。そのためには、ドッグイヤーと言わ
加わるのは海外では当然のことだが、中国におい
れる世界にふさわしい柔軟な対応能力が必要なの
ては、国家規模で大規模データベースのプロジェ
だ。
クトを立ち上げ、半ば強制的に研究者、学生を動
評価
員することで、結果的に共同作業が可能な人材の
育成につながっている[6]。中国のような国家事
前述したような共同作業や“学外活動”をして
業を期待できない我々としては、学生を積極的に
いる学生や研究者を如何に評価するか、というの
メーリングリストや共同開発の輪に参加するよう
は今後の課題であろう。理系と異なり、人文学で
に導くのも大切なことではなかろうか。
は共同研究の伝統に乏しく、また企業との連携な
また、このようなコラボレーション技術を身に
どもほとんどない。
つけるためには、ネットワーク論や前述した“語
また、例えば学生が卒業制作としてソフトウェ
学”としてのコンピュータ・サイエンスなどの
アを作った場合、それを歴史学研究(の一環)と
知識が必要であるが、さらにはゼミの演習などで
して認めることができるか、さらにはその著作権
ネットワーク上でのデータベースの共同開発をす
はどこに帰属し、どのようなライセンス形態にな
ることも考えられる。
るのか、と言った問題も同時にクリアされなけれ
ばならないだろう。
克服すべき課題
注
研究・教育環境
現在はどこの大学でもコンピュータの導入に
積極的であるが、どうしても Windows ベースの
ワープロ・表計算の操作やインターネットの活用、
[1] 京都府京都市中京区西ノ京壺ノ内町 8-1、http://www.
hanazono.ac.jp/
[2] 文系と情報系とのコミュニケーションが破綻してい
た例として思い出されるのは、日本文芸家協会による
Visual Basic などといった最小公倍数的なものに
「日本語が危ない!」キャンペーンである。彼らの主
重点が置かれがちで、情報歴史学の研究・教育に
義・主張はともかく、その主張の仕方が「文字はたっ
は必ずしも向いていない。ハードウェアやソフト
ぷり欲しい」「日本の文化を守れ」というような、よ
ウェアの予算の多寡はもちろん重要な問題である
く言えば文学的、悪く言えば稚拙な表現でしかなかっ
が、それよりもいろいろな OS やツールを自由に
たのは、その後の議論を混乱させる大きな要因になっ
試すことができるパソコンがネットワークでつな
たように思う。「文字はたっぷり欲しい」によって文
がっている“解放区”を作ることが――ネットワー
字コードの爆発がおこり(その弊害については本誌所
ク・セキュリティ上の問題や備品管理の問題など、
収「CHISE プロジェクト」参照)、
「日本の文化を守れ」
課題は多いだろうが――研究・教育上とても大切
によって“日本の漢字”なるきわめて近代的な概念が
なことではないかと思う。
幅を利かすようになってしまった(拙論「タグ付き言
ここには、試行錯誤を経てこそ真の実力がつく、
語と文字コード」〔『インターネット時代の文字コー
Journal of JAET vol.3 ● 71
人文学
特 集 2 情報処理教育
ド』、共立出版、2001〕参照)。
[3] 拙論「データベースがもたらすもの」(『日本史の脱領
域(仮題)』、森話社、2002 年 11 月刊行予定)参照。
[5] データベースと言うと関係データベースになりがちだ
が、テキストのような半構造的なデータを扱うための
SGML/XML 等も当然、学ばれなくてはなるまい。
[4] Huitfeldt, Claus. "Multi-Dimensional Texts in a
[6] 千田大介「中国における古典文献データベースの構築
One-Dimensional". Computers and the Humanities 28
書同文公司へのインタビューを通じて」(『漢字文献
(1995)
情報処理研究』2、2001)
コラム
紙媒体資料と電子資料
小島 浩之
これまで日本で発行されてきた紙媒体資料の中で
が、これは穿った見方なのでしょうか。
最も電子化が進んだものは、政府刊行物や地方公共
さらに次のような変化も出てきました。冊子と
団体の刊行物ではないかと思います。ここでは政府
CD-ROM というように紙媒体資料と電子資料がセッ
刊行物等を例に「紙媒体資料と電子資料」について
トになって出版されているものが一気に増加したの
現状把握を試みることにします。政府刊行物等の電
です。これまでも一部に CD-ROM 等の付録はあり
子化が進んだのは、政府の IT 化政策に加え財政難
ましたが、機能的にはあくまで冊子体を補完するも
も大きな要因ではないでしょうか。総務省統計局統
のでした(例えば統計データだけがエクセルで収
計センター(http://www.stat.go.jp/data/index.htm)や
められているというように)。しかし最近のものは、
各省庁の Web サイトを検索すれば、最新のものは
冊子体の内容が全て電子データとして収められてい
もちろんのこと、ものによっては昭和期の統計書や
ます。もはやどちらが主でどちらが従(付録)なの
白書まで Web 上で公開されていることが解ります。
か解らない状態になっているのです。
中には紙媒体の方を廃止し Web 公開のみとなった
では、電子資料が紙媒体資料を陵駕する時はすぐ
ものも出てきました。これについては東京大学経
そこまで来ているのでしょうか。筆者はこの問いに
済学部資料室のサイトにナビゲートページ(http://
明瞭に解答できる自信はありませんので、ここでは
www.lib.e.u-tokyo.ac.jp/shiryo/net-shiryo.html)が設け
そのヒントとなる(と思われる?)例を示すに留め
られています。興味のあるかたはご覧ください。
ておきます。総務省自治財政局が自治省時代より毎
省庁改変に伴い平成 13 年度より発行が開始され
年刊行している『地方公営企業年鑑』の市販本は、
た『国土交通白書』(http://www.mlit.go.jp/hakusyo/
平成 11 年発行分(47 集)より CD-ROM のみとな
mlit/index.html)の冊子体には、“全文プリント版”
るはずでした(事実、47 集の市販本には冊子体が
との版表示が入りました。些細なことに思われるか
存在しません)。しかし翌年の平成 12 年発行分(48
もしれませんが、これは非常に大きな変化です。こ
集)は再び冊子と CD-ROM のセットに戻ってしまっ
れまで政府刊行物が紙媒体であることは普通のこと
たのです。このことは何を意味しているのでしょう
でした。従って特に紙媒体であることを明示する必
か? 懇意の書店にそれとなく理由を尋ねたところ、
要は無かったのです。ところが『国土交通白書』は
「CD-ROM だけでは売れなかったらしい」との返事
この常識をうち崩したのです。筆者はここに、Web
でした。これは非常に興味深い事実と言わざるを得
版が通常の形式で冊子体は特殊な出版形態だとする
ません。さてみなさんはこのことをどうお考えにな
意識が働き始めているのではないかと考えるのです
りますか? 72 ● 漢字文獻情報處理研究 第 3 号
人文学
特 集 2 情報処理教育
中国語教育と情報処理
コンピュータスキルをどこまで教えるか
田邉 鉄(たなべ てつ)
内容を紹介することによって、中国語授業でコン
0.はじめに
本来、中国語のような初習外国語の学習におい
て、コンピュータの利用は必須ではない。インター
ピュータスキルを教える意義と課題を明らかにし
たい。なお、コンピュータ「で」中国語を教える、
いわゆる CALL については別掲「中国語 CALL の
十年」等を参照されたい。
ネットの広がりとともに、コミュニケーションの
「入口と出口」は確かに増えたが、対面コミュニ
ケーションにおける数々の「古典的」手口、合意
形成を目指すマインドといったものは依然として
1.何を教えるか
中国関係諸学の専門課程を持つ大学であれば、
有効なばかりか、一層重要になっている。そして、
「電脳中国学」のような授業を設定し、研究者基
それらはパソコンとにらめっこすることではなく、
礎教育の一環としてコンピュータスキルを教え込
教師と、あるいは学生同士で丁々発止と渡り合う
むこともできよう。ここで取り上げるのはそれと
中で身につくものであろう。
は違って、いわゆる「第二外国語」の授業でコン
しかし、近年大学の外国語教育に要請される任
務はますます多様化しており、限られた状況下で
はパソコンを積極的に利用すべき局面が生じる可
ピュータスキルをどれだけ獲得させるか、という
話である。
ごく普通の外国語の授業でコンピュータスキル
能性はある。さらにツールとしてのパソコンが、
を教えることは、大学における「職業教育」に対
現在のノートや鉛筆のようなありふれた学用品と
する社会的要請に応えることにおいてのみ意義が
みなされる時代が訪れることは十分に想定できる。
あると思われる。
現在、多くの人文・社会科学系分野で、コン
近年、学生の就職活動は電子メールの利用と
ピュータを活用した教育の必要性が叫ばれている。
Web ブラウズが前提となっている。企業は、コ
同じように「中国語教育のためのパソコン利用法」
ンピュータ、インターネットの利用はもはや大学
を探求する余地はあるだろう。
において獲得すべき技能ですらなく、それ以前に
本稿は、外国語教育において、コンピュータス
獲得しているはずの「読み書きソロバン」(リテ
キルの「何を」「どれだけ」「どのように」教える
ラシ)であるとみなしている。必然的に大学での
かについて検討する。筆者は 1998 年度から、毎
情報処理教育は、単なるコンピュータスキルの訓
年中国語Ⅰ・Ⅱ(第一年次配当)で、コンピュー
練を単一の科目で取り扱うのではなく、あらゆる
タで中国語を扱う方法を取り上げている。その
分野の教育・研究においてコンピュータ、インター
Journal of JAET vol.3 ● 73
人文学
特 集 2 情報処理教育
ネットが活用されていてしかるべきだ、という
キュラムは、第一学年の前期に情報処理Ⅰを配当
認識が生じる。特に、外国語教育については、今
している。現在のところ、履修率は 95% を超え
後企業の対外コミュニケーション活動の非常に大
ている。
きな部分がコンピュータネットワーク上で展開さ
この授業でパソコンの起動やマウスの使い方、
れることを考えると、「読む、書く、聞く、話す」
ブラウズ、電子メール、ワープロといった基本的
のヴァリエーションとして、「コンピュータで読
なスキルを学び、Web ページの制作などの実習
む」「コンピュータで書く」ことを採り入れるこ
を行う。7月ごろには Unix の使い方やプログラ
とが期待されるのは当然である。
ミングの基礎などもアイテムに加わるが、特に人
企業活動における外国語の必要性は、今や国際
文系の学生について、その部分は(残念ながら?)
企業間の商取引に限られていない。むしろ海外進
ほとんど身につかない。中国語の授業で取り上げ
出時のトラブル回避や、在日外国人コンシューマ
るべきコンピュータスキルとは、この情報処理Ⅰ
への対応など、広報・危機管理部門で、外国語に
の前半、基本スキル獲得の部分で、例を全て中国
よるコミュニケーション能力を持つ人材が渇望さ
語に置き換えたもの、と言える。
れている。そして、今日ではこれらの企業活動の
もちろん、同じ授業を日本語と中国語で二重化
ほとんどに、コンピュータやインターネットが絡
するのは無意味である。日本語(とごくわずかな
んでいる。外国語の電子メールを受け取り対応す
英語)で展開される情報処理授業で獲得するスキ
る、外国語版の Web ページを企画・管理すると
ルを前提に、中国語固有のノウハウを付け加える
いった仕事は、どの部門でも「通常業務」になり
だけでいいだろう。この時、知識の定着を優先す
うるのである。慢性的な不況下、従来の OJT に
るのであれば、
情報処理の授業で例えば「電子メー
よる新人教育を企業自身で維持するのが難しくな
ルの送受信」が取り上げられた直後に、中国語の
るとすれば、コンピュータで外国語を扱うスキル
授業で「中国語で電子メールを送る方法」が取り
を教育する任務は大学が担わざるを得ないであろ
上げられるのが望ましい。だとすれば、まとまっ
う。
た授業ではなく、中国語授業の 2 ∼ 3 回に一回、
以上の要請に応えるために必要な教育内容はそ
授業の頭 10 分程度をコンピュータスキル教育に
れほど多くはない。従来の情報処理教育のもとで、
あてる、といった方法が考えられる。もしも情報
文字入力、ワープロによる文書作成、Web ブラ
処理の授業と十分な連携が取れるなら最も好まし
ウズ、電子メール利用のスキルを獲得済の学生を
い方法かもしれない。
対象とするなら、だいたい次の三つないし四つで
十分だろう。
ただ、一般に CALL 以外の中国語の授業ではコ
ンピュータ教室を使わない(使いにくい)し、情
報処理教育との連携も、常に情報系教員の協力が
中国語 IME の使い方(文字入力)
Web ブラウザでの中国語表示
得られるわけではない。
したがって、現実的には中国語に割り当てられ
中国語メールの送受信
ている授業時間の枠内で、ある程度まとまった時
(必要なら)Web 検索
間を一コマなり二コマなり、コンピュータスキル
教育にあてることになる。
2.どれだけ教えるか
さて、中国語の授業で上に挙げた三つないし四
北海道大学の情報処理Ⅰの授業は、第一週がガ
イダンスと履修登録、第二週は登録作業とクラス
分けのため休講、第三週から通常の授業が始まる。
つの技能を教育するために、どれくらいの時間数
週二回の授業があり、せいぜい一回のオリエン
が必要だろうか。
テーションの後、すぐ教科書の内容に入る中国語
筆者が勤務する北海道大学の情報処理教育カリ
74 ● 漢字文獻情報處理研究 第 3 号
の授業と、時間の使い方が大きく異なっている。
中国語教育と情報処理(田邉)
情報処理の授業である程度のスキルを獲得して
かにも操作してます感」が強いキーボードをい
いることを前提にするなら、今の場合、一年生の
じっている時なのである。結構ハードな中国語の
第一学期には展開が難しい。けれども第一学期と
キーボード入力は、その「シアワセ」を維持して
比べて教科書の内容が格段に難しくなる第二学期
いる早い段階で取り組むに越したことはない。そ
には、従来の「中国語」授業以上の内容を実施す
して文書作成や文字入力の延長に、Web での検
るのはますます難しくなる。学期あたり 30 コマ
索があれば、
「パソコンで中国語を扱うスキルを
は変わらなくても、ある程度時間的に余裕がある
獲得する」という授業の目標をはっきりさせるこ
第一学期にやってしまいたい。
とができるだろう。
そこで、コンピュータスキルの授業を 6 月の
最終週と 7 月の第一週にそれぞれ一回ずつ設定
することにした。この時期であれば、情報処理Ⅰ
の受講者は、パソコンを起動し、Web ブラウズ
で情報収集し、ワードでレポートを書いて、FTP
3.どのように教えるか
第一回「中国語入力と電子メール送受信」は全
体でおよそ 60 分の講義として行った。
か電子メールで課題を提出する程度のことは十分
マスターしている。中国語の方も、半年用の教科
書ならほぼ終わっている。7 月の第二週は授業の
(1) 中国語(簡体字)IME の概要と、日本語
と中国語の切り替え方法説明(5 分)
まとめ、第三週は定期試験に当てているので、ま
(2)MS Word の起動、IME の切り替え(3 分)
あぎりぎりの選択である。
(3) ピンイン入力の説明と単語の入力(5 分)
それぞれの回に割り当てた内容は次の通り。
(4) 教科書のダイアログの書き写し(15 分)
(5) 電子メールソフト(Outlook Express)の
第一回:中国語入力と電子メール送受信
起動、メールの新規作成、IME 切り替え、
第二回:Web ブラウズと検索
エンコードを中国語(簡体字)に切り替え
(10 分)
電子メールのような「発信系」よりも、まず
(6) メール本文の入力、アドレス(田邉の授
簡単な「受身系」であるブラウズを先に教えた方
業用アドレス)の入力、件名(英数字)の
がいいのではないか、という異論をお持ちの方も
入力(15 分)
いるかもしれない。だが、「読むだけ」(正確には
(7) 送られたメールを開いて提示、まとめ
「見るだけ」)というのは意外と授業にならないの
だ。検索の方法を教えるにしても、専門課程では
特にハンドアウトを用意せずに、各々の作業を
ないので、何を例にひけばよいのか迷ってしまう。
全体で確認しながら行った。全ての実習が終わっ
一時期流行した東京ディズニーランドの中国語版
てから、IME の切り替えと、ピンイン入力、電子
Web は結構使えるが、最近は日本語版をプリン
メール利用時のエンコード設定について、簡単に
トアウトしておいて、中国語版と引き比べるとい
まとめた資料を配布した。
う便法が普及してしまったので、あまり使いたく
翌週実施した「Web ブラウズと検索」の授業
ない。いきおい「時事ネタ」を拾ってきて、中国
では、確認も兼ねていきなり Yahoo! China で検
語で何と言っているか調べさせるような授業にな
索文字列の入力を行った。この時点で既に前回学
る。そうなると今度は、語彙や表現が初級中国語
んだ入力方法について忘れてしまって手も足も出
で扱う内容から大きくはみ出してしまうことが多
ない学生が 35 名中 13 名いた。やむを得ず、予
い。
定を変更して入力方法のおさらいをしたのだが、
何より、授業アンケートによれば、学生が一番
「パソコンを使えるシアワセ」を感じるのは、「い
今度は 20 分程度で電子メールを送信できるよう
になった。
Journal of JAET vol.3 ● 75
人文学
特 集 2 情報処理教育
やはり一回の説明と体験だけで、普段あまり使
うことのない中国語入力、表示のやり方を覚えろ
というのは酷なようだ。今年度は夏休み中に近況
まとめ
報告を中国語メールで田邉に送る、という宿題を
以上の実践を通して、通常の中国語授業の範囲
課している。執筆時点(8 月 12 日)で、既に 10
では、パソコン上で中国語を入力、表示する、と
通ほどが届いているが、内容はともかく、中国
いうごく基本的なスキルを教えるのが精一杯であ
語での電子メール送信の方法については、しっか
り、またそれで十分であることがわかった。
り身についたようだ。学生同士でノウハウを教え
ただ、中国語履修者に求められる中国語コン
あったり、留学生に聞いて解決したりするケース
ピューティングのスキルが、いつまでも変わらな
もあるようだが、それはそれで「パソコンで中国
いとは思えない。近年、高校の情報科目が新設さ
語を利用するための知識を自分の力で得」ている
れ、小中学校でも教育の「情報化」が一つの柱と
のであり、一つの達成であると言ってよいだろう。
なるなど、情報リテラシ教育が教育の目玉として
二回の授業のあと、時間が多少余ったので、文
脚光を浴びている。反面、情報教育は、学校裁量
字コードの概要の講義と、UTF-8 での Web 作成
で行われる「総合的な学習の時間」での実施を推
などの実習を含む、三回めの授業も行った。こち
奨するなど、教育全体の中での「情報」の位置づ
らは案に相違してめちゃめちゃ不評だった。Web
けは未だ流動的である。
ページ作成は、情報処理Ⅰの授業では一つの目玉
今後は情報系教員とも連携し、「外国語教育の
で、毎年多くの学生が「ハマ」る、と聞いていた
中の情報処理」だけではなく、「情報処理教育の
だけに、意外だった。学生の多くが「中国語の授
国際化・外国語対応」や、「広い意味での情報教
業にそんなことまで求めていない」という意味の
育の一環としての外国語教育」といった異なる視
ことを言っていたのが印象的だった。学生の行動
点から、外国語教育と情報処理教育の双方をとら
をつぶさに観察することなしに、授業開発はでき
えなおし、再構築する作業が必要になるだろう。
ないのだとあらためて思い知らされた。
76 ● 漢字文獻情報處理研究 第 3 号
人文学
特 集 2 情報処理教育
人文情報処理および
情報リテラシー関連書籍ガイド
小島 浩之(こじま ひろゆき)
本稿では、人文科学を専攻する学生への情報処
本書は“インターネットは全ての人のもの”
、“ボ
理教育および情報リテラシー教育に有用と考えら
ランティアと共有の精神”という考えに裏打ちさ
れる書籍を紹介する。編集委員から推薦された書
れている。このためインターネット利用の際のエ
籍に、筆者が書誌情報と若干のコメントを付して
チケット(ネットエチケット=ネッチケ)だけを
いる。基礎編ではコンピュータや情報の基礎・基
採り上げた部分が無いにもかかわらず、一読すれ
本を、応用編ではコンピュータの人文科学への応
ば自然とこれが身に付くように配慮されている。
用ということで、特にデータベースの構築に関す
エチケットを教えるというのは難しいもので、そ
る書籍を中心に紹介する。
れだけを採り上げて書けば下手をすると説教じみ
情報リテラシー教育に携わる教員、そして人文
てしまう。あまりに厳しく要求されれば、初心者
科学を専攻する学生双方に是非一読してもらいた
の興味や意欲を失いかねない。この点、本書は読
いものばかりを集めてみた。
者にネット上のエチケットを自然に受け止めさせ
ることに成功している。
1 基礎編
1) インターネットの基礎
中村正三郎編著『新版 インターネットを使いこ
なそう ( 岩波ジュニア新書 391)』( 岩波書
店 , 2002.2) ISBN 4-00-500391-5
ちなみに筆者のように必要に迫られ、よく解ら
ないまま漠然とインターネットを始めた人には、
よい復習教材となるだろう。
2) 情報収集の基礎
長尾真監修 ; 川崎良孝編集『大学生と「情報の活
用」: 情報探索入門 [ 増補版 ] 』( 京都大学
図書館情報学研究会発行、日本図書館協
本書が岩波ジュニア新書の一冊ということで違
会発売 , 2001.4) ISBN 4-8204-0026-6
和感をいだく読者も少なからずあるだろう。しか
し著者も自負しているように、本書は誰にでも読
本書は京都大学における全学共通科目「情報探
みやすい、非常に優れたインターネット世界への
索入門」の講義・演習内容をまとめたもので、こ
手引書だと言える。具体的にはインターネットの
の授業のテキスト教材として出版されたものであ
しくみ、歴史、技術、利用のポイント、そしてセ
る。1998 年の第1年目の講義・演習内容をまと
キュリティーに至るまで、努めて平易に解説する。
めた初版本は、1999 年 3 月に出版されている。
著者の中村氏はオープンソースを推進する
増補版は初版の内容に加え、その後講師陣に加
Ring Server プロジェクトの代表である。それ故、
わった教員の講義録を収録し、演習部分の資料を
Journal of JAET vol.3 ● 77
人文学
特 集 2 情報処理教育
増補したものだという。京大で「情報探索入門」
ある。特に後半の Q&A は実例に則した内容で非
が始まった 1998 年頃は、大学図書館で“情報リ
常に参考となるだろう。著作権の基礎から内在す
テラシー”への取り組みが真剣に議論され始めた
る問題まで素人でも十分理解することができる好
時期で、京都大学のこの取り組みは非常に注目を
著である。
集めた。講義は輪講形式で複数の教員が受け持ち、
講義に対応する演習は図書館員が担当するという、
教員・図書館員のタッグマッチによる授業は大き
なインパクトを与えた。本書を通読し、演習を経
4) ライティング技法
木下是雄著『理科系の作文技術(中公新書 624)
』
(中央公論社 , 1981.9)ISBN 4-12-100624-0
ることで大学生の学習に必要な情報収集能力の基
礎は、ほぼ備わると言える。また情報リテラシー
情報の収集ということでは、1)
、2)の図書
教育に携わる者にとっては、授業の進め方や、そ
を読めば、基礎を押さえることができるだろう。
の方向性といった面でよき参考書になるだろう。
では情報の発信ということになるとどうだろうか。
なお本書の内容を含めた京都大学附属図書館の
法的な問題は3)の図書が解決してくれる。他
取り組みに対し、平成 12 年度の国立大学図書館
に重要なのは HTML などの技術的問題だろうか。
協議会賞が授与されたことを申し添えておく。
確かにこれも忽せにはできない。しかし情報を発
3) 著作権問題
半田正夫著『インターネット時代の著作権 : 実例
が解る Q&A 付(丸善ライブラリー 350)』
(丸善 , 2001.10)ISBN 4-621-05350-7
信する側になったとき、最も重要なのは他人に情
報を伝えるための文章力、表現力ではないか。な
ぜならば、インターネットといっても、結局は文
字が情報伝達の手段として大きな位置を占めるこ
とは変わりないからである。もちろん、ここでラ
イティング技法に言及するのは、学生が論文を作
著作権とはそもそも複製権(正しく言えば他人
に無断複製をさせない権利)が出発点で、だから
成するためのエクササイズという意味もある。
論文技法・作法に関する書籍はこれまた多い。
こそ Copy right と言うのである。ところが近年
その中でどれを選ぶか悩むところなのだが、今回
のデジタル技術の進展により、我々は簡単しかも
は名著の誉れが高いにもかかわらず、人文系では
正確に複製を作ることが可能になった。則ちこの
なじみの薄い本を採り上げよう。本書は 21 年前
著作権の根本権利が今揺らいでいる。
に出版され、現在書店に並んでいるものは 42 刷
またインターネット上は、いわば無法地帯で、
を数える。書名から明らかなように、本書は「ひ
著作権上問題のあるものも非常に多い。あなたが
ろい意味での理科系の、わかい研究者・技術者と
よく利用するサイトは本当に著作権処理がなされ
学生」向けに書かれものである(著者の“あとが
ているものだろうか? あなたがインターネット
き”より)。しかし本書は一部を除き文系にも十
で発信している情報は他人の著作権を侵害してい
分参考となる内容を含んでいる。特に著者の考え
ないだろうか? 有用なサイトに関するノウハウ
る表現方法や論理展開の組立は一読の価値がある
や、HTML を書く能力も大切だが、デジタル資源
だろう。
やインターネットに関わる以上、著作権に関する
知識は押さえておかねばなるまい。
本書の著者は国の著作権審議会にも関与して
筆者は文章が上達する最も良い方法は、他人に
朱を入れてもらうことだと思っている。添削の効
用は誤りをはっきり気づかせてくれる点にある。
おり、著作権に関する本を多く執筆している。著
実際、筆者も諸先輩の添削指導を受け、生来の
者はデジタル化と著作権についての日本の第一人
悪筆が多少まともになった。しかし現状のリテラ
者であり、書名から解るように本書ではインター
シー教育で教員が学生全員に添削指導を行うこと
ネットやデジタル資源に対して細かく目配りして
はほとんど不可能であろう。そんな中で、読むだ
78 ● 漢字文獻情報處理研究 第 3 号
人文情報処理および情報リテラシー関連書籍ガイド(小島)
けで自分の文章の良し悪しを自覚させられる本書
は、添削の効用に近いものをもたらしてくれる。
したがって講義形式の授業や自習用には最適の教
2) 文学とデータベース
中村康夫著 ; 国文学研究資料館編『古典研究のた
材と言えるだろう。
めのデータベース(原典講読セミナー5)』
なお本書の出版時点では電子資料の引用という
(臨川書店 , 2000.7)ISBN 4-653-03638-1
ことが想定されていなかったため、この点は他の
文献等で補う必要がある[1]。
本書は国文学研究資料館で行われている大学院
生向けの原典講読セミナーでの著者の講演を活字
2 応用編
1) 歴史学とデータベース
イ ー ヴ ァ ン・ モ ー ズ リ ー , ト ー マ ス・ ム ン ク
化したものである。
国文学研究資料館が所有するデータベースや、
同資料館が作成し市販されているデータベースを
題材として話が展開する。従ってこれらを実際に
利用する人にとってはよき解説書にもなり得る。
著 ; 安 澤 秀 一 [ ほ か ] 訳『 コ ン ピ ュ ー タ
ただし本書の真骨頂はデータベースの解説では無
で 歴 史 を 読 む 』( 有 斐 閣 , 1997.4)ISBN
く、いかにしてこれらのデータベースが開発され
4-641-07590-5
たかという部分にある。
先に紹介した『コンピュータで歴史を読む』や
本書は歴史学で数値データを用いた分析をする
次に紹介する『計量言語学入門』は、どちらかと
際に、いかにしてコンピュータを活用するかを述
言えば個人研究用のデータベースを前提としてい
べたものである。歴史学の中でもとりわけ経済史、
るのに対し、本書は多くの研究者が広く利用でき
社会史分野を対象としているようで、扱う素材も
るデータベースを前提としている。多数の利用者
19 世紀の西洋における国勢調査の記録となって
を満足させられるデータベースを構築しようとす
いる。歴史研究でのコンピュータ利用の歴史から
る場合、本書に盛り込まれた内容は非常に参考と
始まり、データベース使用法、分析法を平易に解
なるだろう。
説する。同時にハードウェアに関する話題から、
ワープロ、表計算、データベースの各種ソフトウェ
アの具体的使用法に至るまで、丁寧に述べられて
いる。
3)
計量言語学
伊 藤 雅 光 著『 計 量 言 語 学 入 門 』
(大修館書店 ,
2002.4)ISBN 4-469-21271-7
原書の著作権年は 1993 年であるから、ハード、
ソフトともに最新の状況を論じているわけではな
昨年の本誌第2号では“N-gram が開く世界”
い。しかしこれが本書の存在意義を減じることは
と題した特集が組まれ、確率・統計的自然言語処
ないだろう。なぜならば、本書が単なるハウツー
理の分野で用いられていた N-gram を文献学に応
本ではなく、歴史研究に道具としてのコンピュー
用する衝撃的で重厚な論考が集まった。こういっ
タをいかに駆使するかという明確な目的意識に根
たコンピュータによるテキスト論を展開するため
ざして書かれているからである。著者の姿勢は、
には、計量文献学さらには計量言語学の基礎が必
コンピュータを便利な道具として捉え、その利用
要となる。
を肯定するが、決してそれに溺れて歴史学の本質
本書は計量文献学の入門書である。著者が「まっ
を見誤っているわけではない。従って本書は安心
たくの初心者を想定した内容となっている」と述
して読むことができる。加えて本書は歴史学にお
べている通り、懇切丁寧しかし簡潔明瞭に書かれ
けるコンピュータ利用の歴史を記した本としても
ている。筆者のような門外漢でも、自然と文章に
大きな意義を有するだろう。
引き込まれ、実践編の演習問題以外は一気に読み
Journal of JAET vol.3 ● 79
人文学
特 集 2 情報処理教育
本書はこの XML についての平易な入門書であ
通すことができた。
各章には冒頭に“この章で学ぶこと”というイ
り、XML の特徴、使い方の基礎を順を追い丁寧
ントロダクションがあり、章末には要点が箇条書
に説明してくれる(ただし HTML の理解がある
きでまとめられている。つまり重要な事項はイン
ことが前提である)。万葉集を題材に二人の万葉
トロ、本論、要点と三回も繰り返されるため、嫌
人のやりとりで話が展開してゆくので、読者は
でも頭に入ってしまう。初学者が陥りがちな誤謬
二人のコミカルな会話から知らず知らずのうちに
へのフォローも行き届いており、参照すべき先行
XML の基本を押さえるころができるだろう。イ
研究へもきちんと導いてくれている。また全体の
ラストも豊富なので、楽しみながら気楽に読むこ
約半数が演習問題に当てられており、読者は演習
とができる点も嬉しい。
を通して確かな力を付けることができるだろう。
なお本書は著者が自身の Web サイトで公表し
コンピュータよる文献分析を行おうとする者だけ
ていた内容を活字化したものである。従って本書
でなく、文献学に携わる方に広く読んでもらいた
の前身の下記サイトにアクセスをすれば、サポー
い図書である。
ト情報や BBS などでさらに深い内容に触れるこ
4)
マークアップ言語
とが可能となる。
http://www.cityfujisawa.ne.jp/~yanai/xml/
index.html
屋内恭輔著『たのしい XML : 図解とイラストでみ
るみるわかる !』( ソーテック社 , 2001.5)
ISBN 4-88166-220-1
マークアップ言語で最も馴染みの深いものは
注
[1] 電 子 文 献 の 引 用 に つ い て は 科 学 技 術 振 興 事 業 団 の
HTML(HyperText Markup Language) だ ろ う。
Web サイトに「科学技術情報流通技術基準 : 参照文
インターネットの急激な普及に HTML が果たし
献の書き方(補遺) 電子文献参照の書き方(案)」(
た功績は大きい。しかしながら、近年 HTML に
http://www.jst.go.jp/SIST/sist02sup/sist02sup.htm ) が
代り大きく注目されているのが XML(eXtensible
あり参考になる。
Markup Language)である。XML は構造化テキ
[2] XML のデータベースへの活用については『漢字文献
ストとして非常に幅の広い機能を有している。こ
情報処理研究』第 1 号に、師茂樹氏の「仏教学データ
れは換言すれば、XML はデータベースの作成に
ベースにおける XML の活用」があるので是非参照さ
非常に有用なマークアップ言語だということにな
れたい。
[2]
る
。
80 ● 漢字文獻情報處理研究 第 3 号
人文学
特 集 2 情報処理教育
オンライン討論
人文学情報処理教育は
いかにあるべきか
コンピュータの重要性を訴えてきました。実際、
もはや、インターネットを通じた情報交換は中国
はじめに
語圏でも常識化していますし、データを集積・分
本誌編集部では、「人文学情報処理教育」特集
析し、構想をまとめ、論文を執筆する上でも、パ
の総括として、人文学情報処理教育はいかにあ
ソコンは欠かせないツールになっています。また
るべきか、またいかなる問題点があるのかを討論
近年、台湾中央研究院漢籍電子文献や『四庫全書』
することを計画し、会の活動の中心である掲示板
『四部叢刊』などの大規模データベースが次々と
(BBS)上でこれを行おうということになりました。
出現したことで、それらをうまく使いこなし、研
本年の 8 月 11 日に編集長の千田が BBS 上で呼び
究に有用なデータを効率的に引き出すことができ
かけたところ、6 名の参加がありました。以下は、
るか否かが、直接研究の質に結びつきかねない情
約一ヶ月間に及んだ討論の全記録です。
況も生まれています。したがって、人文学専門教
なお、注意点は次のとおりです。
・ 発言者の氏名に続く数字は発言日時です。
・ 内容に基づく排列のため、必ずしも発言日
時順にはなっておりません。
育の一環としての人文学情報処理教育の必要性は
ますます高まっていると考えられます。
多くの大学では新入生を対象とした、数回、も
しくは半期程度の情報処理入門授業を課してい
・ 段落構成、表現等、編集部において文意を
るようですが、ブラウズ・メール・ワープロなど
損なわない範囲で改めた部分があります。
の基礎的なリテラシー教育に終始しており、多言
語処理や多漢字処理、さらにはデータベースサイ
トの利用方法などは含まれません。一方、中級以
討論
千田 大介
上の情報処理教育は、プログラミングやインター
(02/08/11 09:04:26)
ネット管理などのコンピュータ技術者養成の基
礎コース的なものがほとんどで、人文学・社会科
まず、「人文学情報処理教育」というコトバで
学などの各学問分野の研究を展開する上でのコン
すが、これは、人文学を研究・学習するための手
ピュータの使い方を教授する講座が設置されてい
段として、情報処理の理念・技術などを教育する
るところは、まだまだ少数にとどまっているのが
ことである、と定義しておきます。
現状です。
本誌や『電脳中国学』の刊行を通じて、漢字文
では、これからの人文学情報処理教育はいかに
献情報処理研究会では中国学研究ツールとしての
あるべきでしょうか?本来、専門講座を担当する
Journal of JAET vol.3 ● 81
人文学
特 集 2 情報処理教育
教員それぞれが、専門研究に必要な技能の一つと
して授業でコンピュータの使い方を教えるのが理
の産物であるかもしれません。
ただ、昨今は OS やツールなどの発展により、
想でしょう。しかし、中国学研究におけるパソコ
多言語を扱うことなどに特別な労力は不要になり
ンの意義への理解が十分でないばかりか、パソコ
つつあります。また、膨大な資料や論文がインター
ンアレルギーの蔓延すらも見られる現状では、数
ネットや CD-ROM の形で提供され、環境は整い
少ないパソコンを使える教員が全てを引き受けて、
つつある、というより、これを使うことは不可欠
専門分野で必要とされるコンピュータスキルの
になりつつあると言えるほどかもしれません。恐
最大公約数的内容を教えるしかないのではないで
らく、今後は人文学に携わる研究者の多くが、自
しょうか。
分の分野のコンピュータ処理に何らかの形で関わ
このような人文学情報処理教育の実施には、し
らざるを得なくなるでしょう。
かし、さまざまな課題があります。例えば、既存
ところが、そのような状況になりつつあるにも
の情報処理講座や専門教育講座との整合性の問題
関わらず、教育現場における、人文学のための情
があります。また、授業で対象とする学術分野の
報処理教育は、あまり重視されていません。これ
範囲をいかに限定するか、つまり、中国学全般と
には幾つかの原因があると思いますが、やはり情
するのか、文・史・哲で分けるのか、あるいは、
報機器自体が、主に理系で使われるものであると
古代・近現代のように時代で分けるのかという問
誤解されていること、それから、教えられる人材
題もあります。なにより、人文学情報処理教育は、
が不足していることが大きいと思います。
何をどの程度まで教えるべきなのでしょうか?
以前、人文系の情報教育は、各分野での情報
漢情研には、この方面での経験やお考えをお持
教育に埋没していくべきだ、ということを述べま
ちの方が多いと思われますので、実例やご意見を
した。(「人文系情報教育の実践を通じて」http://
挙げて頂けたら幸いです。
nika01.hum.ibaraki.ac.jp/~nikaido/jinbun_jyo.html)
でも現状はどうでしょう。各分野での情報教育が
二階堂善弘
(2002/08/11 17:23:28)
このオンライン討論にはなるべく多くの方が発
言してくださるとありがたく思います。
行われるどころか、「過渡的な人文情報処理授業」
を行う人材すら不足しているという、かなりお寒
い状況ではないかと思います。
いま大学など各研究機関は、情報機器を充実さ
以下、まずは現状に対する感想からです。
せることを売りとして宣伝に努め、施設の拡充を
さて、いまや人文学の研究においても、情報化
進めています。しかし、たんにハード面を充実さ
ツールを使うことは一般化しつつあると思います。
せるだけでは、教育面で機能しないまま終わるで
ツール自体は、これまで使われてきた紙の書籍や
しょう。パソコンは、
「ソフトがなければタダの箱」
辞典や索引などと本質的に変わったものではあり
ですが、それと同じような状況をわざわざ作りだ
ません。資料や論文を探し、分析するに当たって、
そうとしているとしか思えません。まるでムダな
紙媒体の他に電子ツールが加わった、それだけの
公共事業のようです。
ことです。
しかし、なんだかんだ言ってパソコンを中心と
する情報機器を使いこなすことは容易ではありま
もっとも、上に書いたような、情報系の教員と
いうと、理系に限るという固定観念の影響もある
でしょう。
せんでした。特に多くの漢字を使いこなすことが
ここ数年のうちに、このような状況が改善され
求められる東洋学においてそれは顕著です。これ
なければ、おそらく将来の人文系の研究・教育に
により、使いこなし自体が研究の対象となってし
かなり深刻な問題が発生すると予想します。何を
まうような、やや本末転倒的な状況も生まれまし
おいても、まず人文系情報処理のための人材を育
た。ある意味、『電脳中国学』もそのような現象
成し、配置することが必要になっていると思いま
82 ● 漢字文獻情報處理研究 第 3 号
オンライン討論:人文学情報処理教育はいかにあるべきか
す。
ストの読み、あるいはテキストの作者が参照して
いたコンテクストとはまったくかけ離れているで
師 茂樹
(2002/08/12 01:21:59)
今、二階堂さんは「(コンピュータ等の)ツー
あろう大規模データベースを検索しながらの読み
などが、果たして“正しい”読みなのか?、さら
にはここで言う“正しさ”とは何なのか?と言っ
ル自体は、これまで使われてきた紙の書籍や辞典
たような方法論的な疑問にすぐに突き当たります。
や索引などと本質的に変わったものではありませ
また、テキスト・データベースを作ったりそれに
ん」と述べられましたが、私もほぼ全面的に支持
XML でマークアップをしたりしていると、文字
します。ただ、コンピュータがこのように普及す
(旧字 etc..)とは何なのか?、文書構造とはどの
る前と後では、大きく変わることが少なくとも二
ような構造なのか?と言った認識論的な問題も発
つはあると思います。
生してきます。このような方法論的な反省は、研
一つは、コラボレーションの重要性が飛躍的に
究者個人個人のレベルから哲学的な課題としてま
増したと言うことです。我々がこれまで参照して
で、これまで色々な研究や提案がなされてきたこ
きた辞書や索引は、基本的には自分の業界の内部
とではあるのですが、コンピュータという異質な
で流通しているもの、少なくとも人文学界という
ものを経由してテキストを読む、という行為が日
枠内を出ることはほとんどありませんでした。し
常化することによって、より身近で実践的な問題
かし、ワープロ云々レベルはともかく、コンピュー
になったのではないかと思います。
タやデータベースを本格的に使うようになると、
人文学情報処理授業においては、このような
ソフトウェアの開発者や販売会社、文字コードの
部分についてこれまで以上に触れざるを得ないで
規格などを制定している人など、人文学の世界の
しょうし、それは人文学全体にとってもよいこと
外にいる人々と接しなくてはならない機会が多く
だと思います。
なってきます。また、インターネットの普及によっ
て国境や専門の壁は崩れつつありますし、データ
ベースや研究成果をオンラインで公開しようと思
二階堂
(2002/08/12 14:09:38)
うと、否が応でも標準化、国際化の問題にぶちあ
確かに、自分は「本質的な変化は無い」と書き
たります。これまでも狭い学界に閉じこもること
ましたが、これは裏を返せば、それ以外の部分で
の弊害は色々言われてきましたが、コンピュータ
は大きな変化がある、という意味で言っています。
の導入によって格段にその重要性は増してきたの
またその変化は急激かつ広範囲に及ぶもので、人
ではないかと思います。
文学のみならず、各分野での対応が急がれると思
したがって、人文学の教育においても、このよ
うな問題を考慮しなければならないと思います。
います。とはいえ、改革の動きはかなり鈍いよう
ですが。
具体的には、異業種の人々と対話をするための基
師さんご指摘の「コラボレーションの重要性」
礎知識、例えばコンピュータサイエンスやソフト
も早急に対応がなされるべき問題だと思います。
ウェア工学などを身に着けたり、あるいはゼミの
特に文系・理系といった垣根がものすごく低く
演習などではネットワークをつかったデータベー
なってきていること、これは大きいと思います。
スの共同開発をすることなどが考えられますが、
情報処理の知識は、もう新しい基礎教養となった
もっとよいアイデアがあればぜひともご教授いた
とすら言えるのかもしれません。
だきたいです。
それから二つ目は、方法論的な問題です。確
ただ、各研究機関や各教員の姿勢の違いからか、
「何が情報処理の授業に必要か」という点につい
率・統計的なモデルを使ったテキスト分析などを
ては、結構意見がばらばらであるように思えます。
していると特に感じるのですが、そのようなテキ
卑近な例から考えてみますと、ある情報処理の授
Journal of JAET vol.3 ● 83
人文学
特 集 2 情報処理教育
業で、ひたすら Unix のコマンドと vi などのテキ
ことを自覚し、本来のテキスト処理を志向する必
ストエディタを教えて、一切ワープロは使用しな
要があるのでしょう。とはいえ、資料講読の授業
いなどということもありました。当然、文系はも
で、「見てきたか」を問うだけで終わってしまう
とより、理系の学生ですら、終わった後はかなり
ものもかなりあります。これなど、資料のオンラ
困ったようです。むろん Unix のコマンドは少し
イン化ではほとんど意義を失うでしょう。むろん、
は覚える必要があるでしょうが、それだけで普通
調査方法自体を教えることはこれからも有効です
のパソコンを使いこなすことはできないでしょう。
が。
これはもちろん、教員の側の問題もありますが、
膨れあがる資料をどう処理していくのか、ここ
どうも情報処理授業の位置づけが、今ひとつ明確
も、そもそもスタート地点が変わってしまったよ
でないという要因もあるように思われます。その
うな感じです。
教員にとっては、vi を扱うことこそが「情報処理」
だったのでしょうから。
以前に「各分野の授業に情報処理は埋没すべき」
それにつけても、こういった変化に対応できる
人材は決定的に不足していることは変わりません。
問題を考える上でも。
ということを書いたのは、このようなこともあり
ます。もし各分野で情報の授業が行われるならば、
使う目的はかなり自明のこととなって、混乱が生
じにくいかと思ったわけです。日本や中国の資料
を扱うならテキスト処理をメインに、数式を扱う
師
(2002/08/13 12:37:51)
「ひたすら Unix のコマンドと vi」というのは
ひどいですね(苦笑)。
なら数学処理ソフトをメインに、といった目的に
ネットワーク管理なんかを見据えれば必要なス
沿って、その上で周辺知識が展開される方がより
キルかもしれませんが、Windows で言えばエク
効果的ではないかと。おそらく、最も基礎となる
スプローラとメモ帳の使い方だけをひたすらやっ
べき「ワープロ・表計算」ソフトの指導でも、も
ているのと同じかもしれません。
うこの相違は出てくると思います。
それはともかく、情報処理授業についてのコ
もっとも、それとともに、授業を始めた時点で
ンセンサスみたいなものが得られていない、その
のスキルの開きなども解決すべきことかと思いま
結果授業内容にばらつきが見られる、というのは
すが。これはまた習熟度別クラスを作って対応す
大きな問題だと思います。この問題に対するひと
る必要があるかと。
つの解答として、情報処理学会が文部科学省から
あと、ご指摘の「方法論の問題」ですが、これ
受託して調査・研究をしている「大学等における
もなかなか大変な問題であると思います。まあ、
一般情報処理教育の在り方に関する調査研究委員
認識論などについては、人文学全体が再考してい
会」のカリキュラム案がひとつの叩き台となるか
かなければならない問題なので、かなり長期的な
もしれません。
スパンで考える必要がありそうですが。
何が変わったかというと、まず情報化によって、
ここで提案されている案は、“一般”教育と
いうこともあって、割とまじりっけのないコン
我々は膨大な量のテキストを扱うことができるよ
ピュータサイエンス入門だという印象です。コン
うになったということです。これはおそらく、前
ピュータ・サイエンス、特にデジタル化とは何か?
人未踏の領域に達しつつあるのだと思います。過
とか、離散数学的な考え方などは先に述べた方法
去のいかなる研究者よりも、多くの資料を扱うこ
論的な問題を考える上でも非常に重要だと思いま
とができる。
すし、情報処理= Word・Excel・インターネット
しかし「量的拡大」が「読みの質の向上」につ
という偏った状況を、もっと一般的な知識の方へ
ながっているかというと、そうでもありません。
戻していかなければならないとも思います。しか
資料を集めるだけの研究は無意味になりつつある
し、このカリキュラムで提示されたものが、人文
84 ● 漢字文獻情報處理研究 第 3 号
オンライン討論:人文学情報処理教育はいかにあるべきか
学なら人文学への、あるいはもっと狭く東洋学、
でも、教科書の内容自体は情報系に偏ることな
中国学、歴史学といった専門課程に接続する部分
く、コンピュータの活用事例や著作権なども幅広
がとても弱いように思われます。また、就職率が
く取り上げていて(これ自体は文部科学省の指導
気になる大学職員の人からは「資格やスキルにつ
要領によるものですが)、さらに図版を駆使して
ながるのか」と言うような意見も出されていまし
見やすく工夫している点なども、まずまずの出来
た。
ではないかなと思っています .... 最初から完璧を
話を戻しますと、この問題は二階堂さんの仰る
「各分野の授業に情報処理は埋没すべき」という
ご意見とつながるかと思います。情報“処理”の
部分は一般化できても、処理すべき“情報”の部
求めるよりも、まずは一年でも早く開始すること
に意義があると思いますので。
ただ、個人的に「問題だなぁ」と思っているの
は、以下のような点です。
分は学科、専攻における教育とリンクしないとい
・特定の会社や製品に依存してはいけない
つまでたっても空回りするだけではないでしょう
という趣旨から、教科書には Windows も
か。
Word も登場しませんが、実際には(検閲
「習熟度別クラス」については高校で情報処理
を受けない)副教材を用いて、これらのソ
授業が行われ、センター試験にも導入されるとい
フトを使った実習授業がバンバン行われま
うことなので、ある程度は楽観しています。ただ、
す。そこでは、「特定の製品に依存しない」
「5 年後には学生の質も揃ってくる」と言われて
という趣旨がすっかり忘れ去られて、「∼
も、それまで待ってられん!というのが正直なと
するには」といった操作方法の説明に終始
ころです。
しています。別に、Windows や Office ソ
フトがいけないというワケではないです
清水 哲郎
(2002/08/13 20:13:34)
ちょっと論点がズレるようで申し訳ないですが、
が、もう少しファイルやフォルダとか、ワ
ープロのページ、書式といった、どんな製
品にも、どんなバージョンにも通用する基
わたしも千田さん・二階堂さん・師さん・小川さ
本的な仕組みについてしっかりと解説すべ
んと同様の問題意識を持っており、最近はちょう
きだろうと考えています。もちろん、言う
ど来年からはじまる高校の「情報」教科に注目し
は易しく、行うは難しでしょうけど ...
て、色々と調べたり、取材していますので、師さ
んの投げかけに便乗して ....
・コンピュータの活用事例として、人文系や
社会科学系の学問においてもコンピュータ
実際に来年から使われる検定済み「情報」教科
は必需品となりつつある点を、たとえば「著
書(の内、6社分)にも目を通してみました。ほ
者不明の文学作品の著者を推理する」とい
かの科目とは異なり、なにせ史上はじめて(!)
った、高校生にも受けそうな事例で紹介し
作成される教科書で、前例や見本がないため、会
てほしいなと考えています。高校の「情報」
社によって結構解説内容の詳しさにバラツキが大
でほんのわずかでもそういった授業をして
きく、正直、こんなに差があって、センター試験
おいてくれれば、彼らが大学に進学したと
なんて出来るんだろうか?と素朴な疑問を抱くほ
きに「俺は文学部だから、コンピュータは
どです。あと、教科書内容自体からも、また、教
関係ないや」と目を背けてしまうこともな
科書会社に取材した折りにも感じたことですが、
くなるかなと(ちょっと楽観的ですけど)。
編集者が「情報」科目の内容に不慣れだという事
情もあるのか、内容に誤りや不適切な表現が少な
くなく、全体的にはドタバタと即興でまとめ上げ
たという印象がぬぐい切れません。
小川 利康
(2002/08/13 18:38:07)
千田、二階堂、師諸氏のコメント拝見、人文学
Journal of JAET vol.3 ● 85
人文学
特 集 2 情報処理教育
情報処理教育がどうあるべきかを論じようとする
して有用なデジタルアーカイブは今後いっそう充
と、これまでの人文学そのものについても検討が
実してゆくでしょう。でも、現在のところ思った
必要になってくるので、話が相当広くなってしま
ほど普及していませんね。理由は価格面で購入が
いますね。こりゃ、相当な難題だわな (^^;)
難しいという問題だけでなく、恐らくは慣性の法
今後も教育研究のデジタル化は事の是非はさ
ておき否応なしに進んでゆきそうです。研究室は
則
(笑)とでもいうべき阻害要因があるからでしょ
う。
もちろん、あらゆる教室でもネットワークが利用
その一つは従来から工具書の習熟自体、授業の
可能になり、授業のリソースもネットワーク上か
中に埋没するどころか、日常的な授業や研究会の
ら取り出すのが常態になってくるでしょう。ペー
活動の傍らで習得するのが一般的であったわけで
パーレスに対する心理的な抵抗感も、電子ペー
すから、同じ研究室にいるメンバーのなかでデー
パーの普及により相当緩和されるのではないかと
タベース利用が一般的になっていなければ普及し
予想します。
ないということ。また、新しいツールには確実性
どうもバラ色の未来と笑われそうですね。「各
が期待しにくいうえ、全てをデジタルアーカイブ
分野の授業に情報処理は埋没すべき」(二階堂さ
で代替できないため、伝統的工具書、デジタルアー
ん)という意見には全く同感ですが、その実現の
カイブの双方に習熟しなければならないという負
ために必要なのはハードウェアの進化であって、
担の大きさもあるでしょう。
人間の側のスキルではないだろうと予想します。
ここでは専ら若い世代、大学院生達を念頭に置
つまり、「使いこなし自体が研究の対象となって
いて話をしていますが、彼らには目の前に修士論
しまうような、やや本末転倒的な状況」(同じく
文、博士論文という明確なゴールがあるだけに、
二階堂さん)も、過渡期であるからこそであって、
常に効率性を求めざるを得ないでしょう。ところ
遠からず相当程度までハードルは低くなると思い
が、現状で見る限り、デジタルアーカイブが必ず
ます。
しも確実に研究効率を高めるという保証はないよ
いわゆるソフトウェアやハードウェアの扱いに
うに思います。ましてやデジタルアーカイブが完
おけるスキルの問題は相当楽観して良いのではな
備された大学など、日本中を探しても数えるほど
いかと言うことですね。これが、まず一つですね。
ではないでしょうか(笑)。
次に楽観できない問題です。伝統的中国学の世
だとすれば、それなりに安定した伝統的工具書
界ではいわゆる工具書の扱いに習熟することが研
の世界にどっぷり浸かる院生諸君が居ても不思議
究者となるうえでの必要不可欠な条件でした。ほ
はないでしょう。急いでも人間は急には変われな
かの人文学の分野でも文献調査が大きなウェート
い、ということでしょうか(ため息)
。慣性の法
を占める分野では同様だろうと思われます。
則というのは、制度改革のなかなか進まない日本
私の個人的な体験で恐縮なのですが、このよ
全体の状況にも通ずるものがあるような…
うな知識は何らかの文献調査の必要に迫られるた
その意味で、人文学の研究と教育両面において
びに、一つずつ覚えていったように思います。時
変化を求めるのは実に大変な事だと思いますね。
としては授業のなかで触れられたこともあったで
でも、特効薬がないわけではありません(笑)
しょうし、研究会、読書会、様々な場のなかで繰
実は、これが一番難しいのですが、デジタルアー
り返し工具書を使うなかで覚えるものなのでしょ
カイブを利用した良い論文がたくさん出てくるこ
う。
とです。それもおざなりにデジタルアーカイブを
近年はそうした工具書よりもデジタルアーカイ
利用しました…というのではなく、デジタルアー
ブを利用した方が遙かに便利です。千田さんご指
カイブを使わなければ生み出し得ない論文が出て
摘の台湾中央研究院漢籍電子文献や『四庫全書』
くる必要があります。
『四部叢刊』などの大規模データベースを始めと
86 ● 漢字文獻情報處理研究 第 3 号
手前みそですが、漢情研第2号で特集された
オンライン討論:人文学情報処理教育はいかにあるべきか
nグラムの手法は良い例だと思いますが、そうし
の下調べなどの研究教育の基盤インフラとして機
た手法によって大きな研究成果が生まれれば、雪
能するフェーズ、最後に研究手法そのものに数理
崩を打って若い世代が追従すると思います。そー
的な要素などを取り入れ、従来にない手法を開拓
ゆー論文が書けていない、我が身を省みれば、
するフェーズという風に分けられそうな気がしま
「逝ってよし」と言われるしかないのですが(笑)、
すね。考えてみると、漢情研は二兎どころか三兎
情報教育のなかで何を教えるべきかという議論
追おうとしているわけですね (^^;) 大変だぞ、こ
も必要でしょう。でも、人文学という専門領域で
りゃ…
の情報教育を考えるならば、まず、どのような研
究手法においてデジタルアーカイブが有効なのか
をより多くの人に納得してもらうことが最優先課
題であるように思います。
小川
2002/08/14 15:23:50
二階堂さんからコメントをいただいて、もう少
二階堂
(2002/08/14 18:25:43)
小川さんが「情報教育の分野でも二つの方向性
が確かにある」とのご指摘くださったように、自
分の論ではその二つの方向性をごっちゃにしてい
た面があると思います。或いは、それは「二極分化」
し明確にすべきだと思った点を補足しておきます
といってもよいのかもしれません。つまり、電脳
ね。
利用は、教育レベルでは今後ますます普及し、イ
◆普及か向上か
ンターフェイスも改良され、「コピー機」化して
なんだか文芸講話みたいですが(汗)、情報教
いく一方、研究レベルでは、手法自体に文理融合
育の分野でも二つの方向性が確かにあると思いま
といった新しい観点が加わり、より複雑化してい
す。前回の拙文で指摘したことを二つの言葉で括
く、と。
るならば、ハードウェアの進歩によって、ユーザー
むろん、単純に分かれるのではなく、師さんが
インターフェースは格段に向上するでしょうから、
ご指摘の通り、新しい手法はどんどん教育現場に
教育レベルで情報機器の使いこなしが問題になる
フィードバックされていく必要があるでしょう。
ことは恐らくなくなるでしょう。その意味では普
すそ野が広がれば、また自ずから別の変化がある
及そのものに懸念を感ずることは余り意味がない
かと。
と思います。
◆遠ざかる目標
そして現段階と言えば、まずは人文学におけ
る「コピー機」化が推し進められている時期なの
とはいえ、昔のように「人民文学」一本やりと
だと思います。おそらく、現在の人文学の教育現
いうわけには行きませんから、常に高次元の利用
場でも、もっぱら期待されている機能はそちらで
方法は今後も存在し続けるでしょう。そして、そ
しょう。このレベルの浸透については、楽観視さ
のテクノロジー向上に追従できるのは常に少数派
れるわけです。便利なものであるから、いろいろ
になります。その意味では「つねに遠ざかってい
障害があっても、いずれは普及するであろうと思
く目標として設定された」(田邊さんが PCC での
われます。ただ、それにしても教育現場で使いこ
発表で引用したマービン・ミンスキーの言葉:本
なせる人材は決定的に不足していますが。
来は人工知能についての言)という言葉が図らず
もう一つの手法の変化ですが、これは着実に進
も当てはまるかもしれません。そのゴールを老百
んでいくとは予想しておりますが、かなり時間と
姓全員に求めるというのはそもそも無理な話です。
労力が必要になるかと。人文学の新しい研究スタ
◆二兎、いや三兎…
イルが作られるまでには、かなりの試行錯誤が必
その意味では、一部のデジタルアーカイブが「コ
要になるのではと思っています。また、そういっ
ピー機のような存在」(二階堂さん)として教育
た手法が認知され、広まるにはやはり時間が必要
レベルで普及するフェーズ、それから、調査研究
かとも思われます。しかし、ここが発展しないよ
Journal of JAET vol.3 ● 87
人文学
特 集 2 情報処理教育
うであれば、人文学自体が、退嬰的になりかねな
・あるセクションで一人二人しかいない情報
処理技能を持った教員が
いわけで。
・既存のカリキュラムの補完的な人文学情報
千田
処理授業を行う
(2002/09/05 12:14:48)
という最低限の情況の確立が、まず第一に急がれ
小川さんのご意見、興味深く拝読致しました。
るべきだと考えます。実際、教職過程で情報が必
しかし、ソフトウエアの進歩という面については、
須となったことで、この種の授業へのニーズも生
予測が少々楽観的に過ぎるのではないでしょうか。
まれつつあるようです。
ここ数年で、確かにパソコンの普及が進み、多
小川さんは、人文学情報処理のフェイズという
くの人がまがりなりにもメール・ブラウズ程度は
ことを仰いましたが、それはおそらく大学から大
こなせるようになりました。しかし、それは批判
学院にかけて、専門教育が深化する過程と、ほぼ
はありますが、Windows という OS 本体が備え
シンクロすると思われます。私は、人文情報処理
た機能を使いこなす、つまり、買ってきたものを
を三つにカテゴライズし、
そのまま使うという家電的使い方が可能な部分に
限られていると思われます。パソコンは汎用的な
作業プラットフォームです。汎用、ということは、
家電的な機能の押しつけに最もそぐわない機器で
ある、ということが言えます。それだけに、パソ
収集
分析
教養教育
学部専門教育
発信
○
○
○
大学院教育
○
コンのソフト・ハードの進化に過剰な期待はかけ
このようなカリキュラムが現実的かと考えていま
られないのではないでしょうか。
す。人材確保を考えると、学部はそれぞれ半期科
特に、パソコンの人文学的な使いこなしは、一
般的なパソコンの利用方法とは若干異なります。
目で、大学院は通年科目で、というのがせいぜい
でしょう。
学生が放っておけば使い方を覚えて駆使するよう
もちろん、情報処理をカテゴリ分けしても、そ
になる、というものでもありませんから、やはり
れぞれのカテゴリに基礎から応用までさまざまな
教育カリキュラムでの特別な対応が必須になると
フェイズがあります。しかし、専門分野の研究方
思われます。もちろん、二十年後はどうなってい
法に直結する分析手法に比べて、データベースの
るかはわかりません。しかし、十年程度はまだま
使い方や Web を通じた情報収集方法、あるいは、
だ現在のような情況が続くでしょう。
ワープロの長文編集・レジュメ作成・簡易 DTP
特に問題なのは、教える側がパソコンを使えな
用途や Web を通じた多言語・多漢字情報発信の
い、という情況がまだまだ続きそうなところです。
方法などは、中国学全体というくくりで最大公約
中国語のメールが打てる中国学教員は、まだまだ
数化することが比較的容易であると思います。こ
少数にとどまっています。だから「各分野の授業
れについては、何をどの段階で教えるべきなのか、
に情報処理は埋没すべき」という理想の実現は、
このあと掘り下げていきたいですねえ。
日本の大学の人事制度そのものが大変革されない
限り、解消されることはないでしょう。
大学院レベルの教育は、しかし現在の教育で
あっても、新たな方法や対象を切り開くための
本来なら、人文学情報処理は、わが国の人文学
訓練としての面を持っているはずです。そのうち
のあり方そのものを問い直す好機であり、師さん
の一つの講座が、情報処理技法を多用する専門授
が花園大学でやられる、情報歴史学科のような基
業に切り替わるのが好ましいと思います。データ
本コンセプトからあらたに組み上げた試みが積み
ベース構築実習授業も可能ですし、あるいはコラ
重ねられるべきでしょう。しかし、多くの大学の
ボレーションの試みもいいでしょう。各大学の中
現状では、
国学セクションに一つずつ、このような講座が設
88 ● 漢字文獻情報處理研究 第 3 号
オンライン討論:人文学情報処理教育はいかにあるべきか
置されれば、関東圏・関西圏であれば、単位互換
いるように、人材不足が決定的な要因です。また、
制度などを使って、あるいはモグリ出席でも、か
大学などの研究機関の対応も不十分です。
なりのニーズをカバーできるようになるのではな
何よりも解消すべきは、人材不足です。これ
いでしょうか。これについては、さまざまな試み
だけ IT の強化が政府によって叫ばれながら、現
を積み上げるしかないでしょう。
在の人文系教員の採用においては、ほとんどそれ
が意識されているとは思えない。これが長期的に
二階堂
(2002/09/06 12:45:18)
見て、人文系諸研究の足腰を弱くすることは明ら
かです。もっとも、これはすぐに解決される問題
さて、確かに、現在の情報機器の普及のペース
ではないのでしょう。採用する側の意識が変わら
からすれば、おそらくメールやブラウザなどを「使
なければどうにもなりませんし、人事の硬直化は
いこなす」ことについては、特に教育機関で教授
何も IT に限ったことではありません。そのため、
することは不要になるかもしれません。もっとも、
現在ではまだ、ある程度汎用性のある人文系授業
ここでも、生徒や学生の間で格差が出る可能性も
をも考えなければなりません。これはジレンマで
ありますが。しかし全体の傾向として、フォロー
すが、やむを得ない状況ではあります。
の必要がある学生の割合は、今後は減少化するこ
とになるでしょう。そして、高校では情報の授業
それでは、汎用性のある人文系情報処理の授業
とはなんでしょう。
が必修になります。すると、まず現在の大学の情
まず、「仕組みを教える」ことが重要だと思い
報課程で教えられている、ワープロやブラウザの
ます。学生は、なるほどワープロもメールも使
使い方、といった授業は、あまり意味をなさなこ
えますが、中身については理解していません。む
とになります。そして、人文学には人文学にふさ
ろん、中身といってもいきなり OS の原理やブー
わしい情報の授業が必要になるわけですが、問題
ル代数の話をするのではなく、人文系ならば文字
はその中身です。「人文学情報の授業は、それぞ
コードや、多言語処理、多漢字処理の実際を、仕
れの専門課程に埋没すべき」と主張したのは、理
組みと実例双方を理解させながら進めるのがいい
念というよりも、むしろ実践的なものを意識して
でしょう。いきなりコンピュータの原理部分をや
いました。
ると、そこで意欲を喪失する学生も多いと思いま
これまで出た人文系情報処理の解説書を見ても、
例えば国文学なら国文学、英米文学なら英米文学
す。
それから、やはり「電子テキスト処理」です。
と、
「人文」と称していながら、実際にはかなり「そ
これも、汎用性の高いものということで、まずは
の専門」に偏った内容を持ったものが多かったと
日本文学の諸作品から始めるべきでしょう。ただ、
思います。これは、やはり人文学が「全体」をカ
正規表現やスクリプトについては、何処まで踏み
バーしにくい分野であることが要因であると思い
込めるか、難しいところです。
ます。それぞれの地域文化や言語と密接に絡む分
あとは、やはり情報検索の基礎でしょう。書誌
野であることから、始めからある程度扱うものが
情報の探し方、また、いまはネットに論文など、
分かれている必要がある。だから、
「ワープロ・メー
資料そのものが掲載されている場合も多くなって
ルの使い方」の次に来るものは、次にはもう「国
きました。
文学情報処理」や「フランス語情報処理」である
それから、あまりにも基礎的ですが、論文・レ
べきではないか、と思ったわけです。「トータル
ポートの書き方も必要でしょう。いまの学生は、
な人文学情報処理授業」は、現在はともかく、先
ほとんどがレポートをワープロで書いてきます。
行きは難しくなるだろう、と。
しかし、例えば引用の場合のインデントのやり方、
しかし、現状はまだまだはるかにその手前の段
注釈の付け方など、単にワープロが使えるだけで
階であることは確かです。これも何度も指摘して
は分からない面が多いですので。もっとも、URL
Journal of JAET vol.3 ● 89
人文学
特 集 2 情報処理教育
の引用や示し方などは、まだ確立されていないか
もしれません。そこも、教員の腕の見せ所ですが。
たされていないのでしょう。
いずれにせよ、先の「中身」の話と、この論理
それから、プレゼンテーションのやり方も必要
的思考を養うと言う話はパラレルだと思いますの
でしょう。意外にこれが企業に就職したあとには
で、これから大いに求められるところではないで
一番役に立つかもしれません。むろん、プレゼン
しょうか。というか、求められて欲しいです。
テーションソフトの使い方、また、よいプレゼン
とは何か、これを教授する必要があります。これ
も当然、そもそもよいプレゼンが出来ない教員は
失格です。
二階堂
(2002/09/07 17:46:17)
師さんのおっしゃる通り、コンピュータサイエ
かなり卑近な例になりましたが、おそらく現状
ンス的な内容の授業も、むろん教授されるべきで
ではこのレベルが充足される必要があると思いま
あろうとは思います。問題は、それを何処でやる
す。もっとも、このレベルのことですら、教えら
かです。コンピュータサイエンスの基礎、または
れる教員はほとんどいないと思われます。むしろ
情報処理の一般的な知識、こういったものは、特
そこがさらに深刻な問題なのかもしれませんが。
に「人文系情報授業」という場でなくても、別の
機会に教えられるのでは、と思っています。また、
師
(2002/09/07 13:03:40)
こういった内容であれば、むしろ文系・理系を問
わず、すべての学生が等しく受けるべきだと思っ
ワープロ、メールの使い方をやらなくてもよく
ています。むろん、人文系情報処理の授業「しか」
なるだろうという予想は、ぼくもそう思います。
無いのであれば、そこで教える必要がありますが
楽観的過ぎるかもしれませんが。人材不足の件に
…。
ついても大賛成。ただ、「中身」の話については、
高校の「情報」授業の内容が分からないので、
二階堂さんとはちょっと意見が違います。ぼくと
まだ何とも言えないのですが、そこでもカバーで
しては、きっちりと、コンピュータサイエンスと
きる内容なのではないか、とも考えます。
いうか、情報数学の基礎というか、そういうのを
もちろん、基礎的な内容に何処までふれるかは、
やったほうがいいと思っています。語学みたいな
かなり厄介な問題ではあります。しかし例えば、
位置づけと言いますか、ある程度の苦しみを伴い
文字コードの問題をやるなら、まずやはり 2 進
ますし、今の学生に受けないであろうことは重々
数、16 進数から話を始めるでしょう。さもないと、
承知の上で、あえてやるべきだ、と言いたいです。
文字コード番号が説明できませんから。
情報検索とそのアウトプット(レポートやプレ
「ある程度人文系に特化した授業」というのを
ゼンの How to など)についておっしゃっている
考えると、やはりそこには優先順位が出来てくる
ことは、(ご承知の上であえておっしゃっている
と思います。それが、前にふれた内容ですが…。
んでしょうけど)実はコンピュータとは関係のな
プレゼンテーションについては、むろん情報に
いことですよね。ただ、情報処理、特に全員必修
限ったことではありません。しかし、昨今は会議
のリテラシー的な授業で、論理的な読み、分析、
でも学会発表でも、圧倒的にソフトを使ってのプ
出力の訓練をやってしまうというのは大いにあり
レゼンテーションが多くなってきました。そして、
だと思います。これは、早稲田大学で情報基礎の
おそらくここでも、人文系に傾斜した内容を発表
授業をやらせていただいた時に、そういうコンセ
するに当たっては、「特殊な手法」が必要になる
プトでやって欲しいと言われて、大いに共感した
のではないか、と考えます。
記憶があります。論理的な文章を書く訓練は高校
いずれにせよ、「人文系に特化」ということを
以前に少しずつされているはずですが、現在の大
中心に考えています。しかし、もちろん「それだ
学受験をゴールにしている状況ではその機能が果
け」で完結しようとは思っていません。とはいえ、
90 ● 漢字文獻情報處理研究 第 3 号
オンライン討論:人文学情報処理教育はいかにあるべきか
繰り返しになりますが、それも現状ではとても実
現不可能かなあ、とも思ってます。大学の人事で、
こなせ」ませんから。
ある世代から下の教員は、情報機器を、基礎知
情報系教員の必要性がほとんど顧慮されていない
識を踏まえた上で、「使いこなせる」ようになら
のは、怒りを通り越してあきれるほどです。
なければ、教員失格と言われるでしょう。それは、
もうたぶんすぐ近くにまで来ている動きです。い
小島 浩之
(2002/09/08 00:53:56)
みなさまのご意見を興味深く拝読しております。
やもう、うすうす皆気が付いているはずです。で
も、そのための人材確保や、再教育については、
嫌がって避けている。それが現状だと思います。
千田さんも、二階堂さんも、教える側の問題に
でも、対策は一つです。「情報化に対応した人
ついて言及されていますが、この点はもっと考え
材を増やすしかない」これは自然に増えていくと
ねばならない問題だと思います。
思ったら大間違いです。ちゃんと研究機関が対応
いま、人文系の教員の中で自分の専門分野に関
する情報関連授業を受け持てる人間がどれくらい
しなければ、決して増えることはありません。そ
のための施策を考える時期に来ていると考えます。
いるでしょうか?これって本当に問題だと思いま
す。学生もさることながら実は一番、情報リテラ
シー教育を必要としているのは、教える側だった
りするんじゃないでしょうか?
この点について実際に授業を受け持たれている
皆様のご意見を伺いたいのですが…。
おわりに
人文学研究に求められる情報処理教育とは何か。
単純なスキル習得だけでは足りないとすれば、
その先に求められるものは何か。デジタルアーカ
イブの発展とともに、必要なスキル、研究手法は
二階堂
(2002/09/08 17:52:28)
大きく変わりつつある。教育カリキュラムとて例
外ではあり得ない。今後はソフトウェア工学の基
小島さんの「人文系の教員に、どれだけ情報処
礎知識等、広い意味での学際的な素養が必要(師
理関係の授業を担当出来る人がいるか」という指
氏)になろうが、とうてい伝統的な文献講読の枠
摘は、実はかなり深刻な問題に絡むものかもしれ
内に収まりきるものではない。
ません。
むろん人文学研究の基礎が「テキストをいかに
例えば、自分の専門分野について、辞書や索引
読み解くか」にあることは変わらない。「神は細
の引き方を知らない学生が来たらどうするでしょ
部に宿る」以上、デジタルアーカイブにおいても
う。当然、勉強しろ、と怒るはずです。今後は、
変わらぬ真実である。だが、「読む」ための方法
電子化ツールを使いこなすのが当たり前、という
論はデジタル化のなかで変わらねばならない。も
状況が出現するはずです。というより、現にそう
し今後の人文学研究の情報化が、「コピー機」的
なりつつあります。また、レポートにしても論文
な普及(二階堂氏)だけに止まり、文字通り最後
にしても、多漢字処理について知らなければ、ほ
は紙媒体に還元し、昔ながらの赤鉛筆を片手にテ
とんど書けなくなるでしょう。もっとも、いまだ
キストを読むスタイルを墨守するものに終わった
にちょっとした漢字を手書きにしているレジメを
ら、情報化の意味は半ば以上失われる。現状を見
よく見ますが。
る限り、杞憂とばかりも言えないようだ。
そして、こういったツールは、実は「単に使え
専攻科目における情報化の試みは本誌掲載の師
る」だけでは不十分です。それはそうで、索引に
氏、山田氏の報告にあるように、すでに始まって
しろ、辞書にしろ、専門の教員であれば、それが
いる。今後、テキスト処理の基礎科目が過渡期的
作られたバックグラウンドを知っている必要があ
な施策(千田氏)としてであれ、より多くの研究
るでしょう。さもないと、本当の意味では「使い
機関において導入されることを願ってやまない。
Journal of JAET vol.3 ● 91
近代型 CAI と教育革命
− CAI は教育の何を変えるのか−
平林 宣和(ひらばやし のりかず)
まず話のとっかかりとして、少々長い引用にな
1,はじめに
「コンピュータが教育に革命をもたらす」と
るが、以下の二つの文章を読んで頂こう。
教育ということを考えるとき、私はまず、
いわれて久しい。ここ十年ほどのパーソナルコン
三つの方向、つまり三つの「力のベクトル」
ピュータの普及と高性能化、さらにインターネッ
から今の現状を整理することができると思
トの急速な拡大は、確かに革命ということばにふ
うんです。まず第一のベクトルは、子ども
さわしい勢いを感じさせはする。しかし何度も繰
を白紙と見なして大人がそこに然るべき知
り返し説かれる割には、ここでいう革命とはいっ
識を書き込んでゆくという、いわゆる注入
たいどのようなものなのか、また革命後にどのよ
主義的な方向ですね。
うな世界が現れるのか、いつまでたっても曖昧模
注入主義と言うと、そんなことはいけな
糊としたままである。スローガンとして用いられ
いと誰でも思うし、今どきそんなことを文
る回数の膨大さに比べ、コンピュータがもたらす
字通りの意味で実行している先生はいない
という教育革命について、その具体的内容を明ら
というかも知れません。(中略)
かにしようという議論は極めて少ないといってよ
コンピュータと教育ということを考えて
い。いったいコンピュータによって教育の何が変
みても、いわゆるコンピュータに先生の肩
わるのか、あるいは変わらないのか。
代わりをさせようといった CAI は、やは
小論はコンピュータと教育との主要な接点の一
[1]
つである「CAI」
りその系統の上に乗っている。子どもにい
を対象に、それがそもそも
やな思いをさせないで、楽しくしかも効率
どの程度「革命的」たりうるのか、その機能と原
的に、特定の知識をいかにうまく身につけ
理に関して若干の検証を行いつつ、その今日的な
させるかを目指すわけですね。それが技術
意義とあり方について考察することを目的とする。
主義だとか言われて批判を受けた。
(佐伯
そのためにはまず CAI に組み込まれた作動原理
+三宅、1990、40-41pp.)
を歴史的に考察し、その素性を明らかにする作業
から始めなければならないが、むろんここには非
カリキュラムを構成する第一の様式は
常に多くの要素が絡まるため、いささか乱暴な整
「階段型」である。「階段型」のカリキュラ
理作業とならざるを得ないことをあらかじめお断
ムは、効率性と生産性を追求する様式であ
りしておく。
り、最終のゴールに向けて小刻みの階段が
92 ● 漢字文獻情報處理研究 第 3 号
近代型 CAI と教育革命(平林)
準備され、その階段を一段一段のぼって
である。その根拠を探るためにも、まずはこの近
ゴールに到達するよう、教育内容と学習内
代型 CAI の素性を、歴史をさかのぼりつつ辿っ
容が組織されている。(中略)
てみよう。
「階段型」は、さらに、個人主義的で心
理主義的な学習の見方を前提とし、子ども
相互の教え合いと学び合いの社会的過程を
軽視したカリキュラムである。(中略)近
年コンピュータ教育における CAI ソフト
の多くは、この「階段型」を原理として
2,近代型 CAI の原理
行動主義心理学とプログラム学習
さて、機械によって教育を行おうという試みは、
デザインされており、学習者の孤立化と
CAI の出現よりだいぶ前、20 世紀初頭にはすで
学習内容の要素化に陥る危険を含んでいる
に始められており、1920 年代に製作されたテス
ことを指摘しておこう。(佐藤学、1995、
ト用機械、
「プレッシーマシン」がその先駆とさ
147-149pp.)
れている(詳しくは平林、2000 を参照)
。さら
にこの試みが本格化するのは、20 世紀半ばにハー
以上二つの文章は、それぞれ教育学者の佐伯胖
バード大学の心理学者スキナーが、教育する機
と佐藤学の二人によって書かれたものである。佐
械「ティーチングマシン」の普及を唱えてからで
伯、佐藤はともに現時最も発言の多い論者であり、
ある。このティーチングマシンはプログラム学習
特に佐伯は『コンピュータと教育』その他、この
(programmed learning)という原理に基づいて
領域について多くの著作を公にしている。その二
製作されていたが、その理論的基盤は当時心理学
人に「学習者の孤立化と学習内容の要素化に陥る
の支配的パラダイムであった「行動主義」にある。
危険」があり、「子どもを白紙と見なして大人が
行動主義心理学は主に 19 世紀末から 20 世紀
そこに然るべき知識を書き込んでゆく」技術主義
前半にかけてアメリカで盛んに研究されていた分
として批判される CAI とはいったい何なのか。
「今
野で、その名称の由来は、人間の心理は所詮外部
どきそんなことを文字通りの意味で実行している
から伺い知ることができないのだから、心理学は
先生はいない」ような教育を、CAI はいまだに実
外部に現れた観察可能な行動を基盤として科学的
践しているのであろうか。
に構築されるべきだ、とするコンセプトにある。
ここで批判の矢面に立たされているのは、CAI
の一形態、最も古くからあるドリル・テュートリ
さらに同時代の支配的思想であった進化論の影響
が根強く、動物と人間とは一連なりのものとされ、
アルタイプの CAI である。とりあえず小論では
近代型 CAI と呼んでおくが(何故こう名付ける
かは小論を読み進めるうちに理解していただける
と思う)、具体的に語学学習用のものを例に挙げ
れば、文法を易しいものから難しいものへと段階
的に解説し、さらにドリルによってその定着を図
1924 年に S.L. プレッシーにより製作されたテスト・
採点・教授用学習装置「プレッシーマシン」。「テスト
の施行や整理というありきたりの機械的・事務的な仕
事から教師を解放」することを目指したが、思ったよ
うに普及せず、1932 年にプレッシーはこの領域の研究
を断念する。
『学習プログラミングとティーチングマシン』
(参考文
献参照)より。
るというおなじみ CAI コースウェアである。いっ
たいそれのどこが悪くて批判の対象にされるのか、
文法を易しいところから順番に解説し、ドリルで
その定着を図るなんてあたりまえのことではない
か、と思われるかも知れない。しかしそうした常
識、すなわち近代型 CAI を作動させている原理
そのものを二人の論者は批判の対象としているの
Journal of JAET vol.3 ● 93
論 文
動物実験で得られた結果は人間にもそのまま適用
可能と考えられていた。
プログラム学習は、動物に対する数多くの学習
行動実験によって理論化された「刺激・反応・強
化」のプロセス、すなわち個体が特定の刺激に対
する反応としてある行動を取った際、それに対し
て適切に賞罰を加えれば、その行動は強化されて
一つの学習が成立するという発想を基盤としてい
る。刺激に対する反応に即座に強化を与え(即時
的フィードバック)、それらを段階的に難度が増
すよう的確に並べていけば(スモールステップの
原理)、複雑な行動も効率的に習得が可能となる。
さらにこれを機械に仕込んで学習者に一人一人に
配布すれば、各々が自分の能力にあった速度で学
習を進めていくことができるとする。これがプロ
グラム学習の根本原理であり、この学習理論に基
づいて設計されたのがティーチングマシンであっ
た。この教育機械の大流行のきっかけとなった論
文で、スキナー自身は以下のように述べている。
1960 年前後に開発されたティーチングマシン「テュ
ーター」。「記録器つきの完成した自動教授のシステム
を持つ」テュートリアルタイプのティーチングマシン
である。35 ミリフィルムで作られた一万枚の教材画
像・映像をスクリーンに投影する機能を持っていた。
『学習プログラミングとティーチングマシン』
(参考文
献参照)より。
教師は、このような装置によって学習を
している学級の全児童を同時に監督するこ
したがって近代型 CAI は、ここに示されたエッ
とができ、各児童は各自の速度に応じて進
センスの最も正統な継承者といえるだろう。そし
み、授業時間内にできるだけ多くの問題を
て冒頭の佐伯、佐藤の二人が批判の対象としてい
解くことができる。(中略)この教材にお
た近代型 CAI の作動原理とは、これらの計算さ
いて、ある問題はその前の問題の答えに基
れた学習プロセス、学習者の個別化、効率の追求、
づいて作られ、それ故に最も効果的に進む
教師による一元的管理といった特質にほかならな
ことができ、最後には複雑な領域まで達す
いのである。綿密に計算されたプログラムによっ
ることができる(スキナー、1954)。
て、学習者それぞれにふさわしい速度で効率的に
学習する、そのことのどこがいったい悪いのか。
教師は教育機械の導入によって学習者を「同時
それはプログラム学習に代表される学習理論が、
に監督」し、学習者は「各自の速度に応じて」、
「で
佐伯がいうように完全な「注入主義」、最も純化
きるかぎり多くの問題を」効率的にこなすことが
された「詰め込み教育」理論だからであり、そこ
できる。そしてそのプロセスは漸進的ステップに
には近代が生んだ人間操作の様々な原理が組み込
よって綿密に計算されており、それは複雑なレベ
まれているからである。このあたりの筋道をもう
ルに達する「最も効果的」な方法である。このス
少し追いかけてみよう。
キナーのことばには、プログラム学習のエッセン
スが余すところなく集約されている。
教育工学の時代
ティーチングマシンの流行した 1950 年代末か
さて、プログラム学習理論の出現と連動して
ら 60 年代という時代は、CAI 研究開発の開始時
成立した学問分野に「教育工学」がある。ティー
期とほぼ重り、両者には明確な継承関係がある。
チングマシンが流行し、近代型 CAI が出現した
94 ● 漢字文獻情報處理研究 第 3 号
近代型 CAI と教育革命(平林)
1950 年代から 60 年代にかけては、物理的実体
原理的にはこれらの時代精神をいわば正統な継承
のある機械だけにとどまらず、ものごとを動かす
者として受け継いでいるのである。
「システム」そのものを工学的に扱おうという学
問が次々に誕生した時代であった。最も代表的な
テーラーと社会的効率主義
ものの一つが「管理工学」であり、職場という物
では教育における効率の追求は教育工学ととも
理的環境とそこに置かれた機械、さらに生身の労
に始まったのか、というと実はそうではない。実
働者を一まとまりのシステムと見なし、労働の場
際にはさらに早い時期、1910 年前後には、工業
における効率化を極限まで推し進めることが目指
生産と同様の効率化を唱える動きがすでに芽生
された。このほか「何々工学」という複数の学問
えている。
「社会的効率主義」として知られるこ
がほぼ同時期に産声を上げたが、教育をよりシス
のムーブメントは、特にボビットとチャーター
テマティックに思考、実践していこうとする「教
ズという研究者によって先導された。ボビットは
育工学」も、その支流の一つに位置する。
1910 年代初頭に関連する二編の論文を発表して
これらの学問分野に共通しているのは、人間の
いる。
組織的行為は観察、操作の可能な単位によって出
来上がっており、それらを工学的に研究し、組み
このふたつの論文は、一九一一年に発表
立て直すことによって、効率のよい最適化された
された労務管理の基礎原理であるテーラー
作業プログラムが作り出せるという信念である。
(Tayler)の「科学的経営の原理」
(Principles
プログラム学習が目指した効率化も、これと全く
of Scientific Management) に も と づ い て
同じ発想を基盤としていたといってよい。教育工
執筆されていた。生産工程とのアナロジー
学はティーチングマシンやプログラム学習ととも
は明らかである。彼の叙述において、子ど
[2]
、一時期は「日本学習オー
もは「原料」、教育目的となる「理想の大
トメーション連盟」等、今日では少々信じがたい
人」は「完成した製品」とされ、教師は「作
名称の組織が出現、膨大な数の教員が最も効率的
業員」
、視学官は「職長」、教育長は「経営
なカリキュラムの作成に没頭していたという(当
者」と表現された。そして「原料」
(子ども)
時の状況については、佐伯、1999、14-33pp. を
から「製品」(教育結果)にいたる過程を
参照)。
いかに合理化し効率化するかが、「教育エ
に日本に持ち込まれ
ここには科学的な観察者兼システム設計者、お
よびそのシステムの実施者というテクノクラー
ンジニア」としての教師の中心課題とされ
ている。(佐藤学、1990、78-79pp.)
ト的人間が、労働なり教育といった人間の組織
的行動を計画し、オペレートすべきであるという
このように、20 世紀初頭に現れた教育の「社
発想が強固に見られる。テクノクラート支配とい
会的効率主義」は、工業生産における「テーラー
えば、ほぼ同時代に執筆された G・オーウェルの
主義」
をモデルとして取り入れた。F.W.テーラー
『一九八四年』(1949)、K・ヴォネガット・ジュ
は、労働の効率化を強力に推進した人物として著
ニアの『プレイヤーピアノ』(1952)といった
名であるが、彼の考案した『科学的管理法の原理』
ディストピア小説が思い浮かぶが、こうした作品
(1911)が、このように教育の方法論としてあか
を生み出した時代精神は、まさにこれらの学問分
らさまに採用されていたのである。そしてこの教
野とその土台を共有していたのである。学習はプ
育における効率追求の流れは、40 年近く後に現
ログラム可能であるという信念は、プログラム学
れる教育工学にも脈々と受け継がれており、事実
習固有のものではなく、20 世紀半ばに複数の学
両者の理念は双生児のごとく見事に酷似している
問分野として結実した時代のパラダイムの現れで
あったといえるだろう。そして近代型 CAI もまた、
(佐伯、1985、272-280pp.)。
ところでテーラーは熱心なクエーカー教徒で
Journal of JAET vol.3 ● 95
論 文
あった。彼が身をもって体現していたのは、勤
勉と効率を至上の価値とする「プロテスタンティ
ては、寺崎、1997、131-138pp. を参照)
。
さて、現時の日本における CAI 教室は、ほと
ズムの倫理と資本主義の精神」である(桜井、
んどが従来の教室と同様のデザインを採用してい
1984、117-126pp.)。多くの論者が指摘するよ
るが、より重要なのはそこで実現される管理の様
うに、工場と学校とは、近代の生み出した相似形
式である。CAI 教室では、モニターに邪魔されて
の大量生産装置であり、時間を極力無駄にせず、
学生とのアイコンタクトが取りづらいという指摘
勤勉に計画的に生産に取り組むという近代の理念
がなされるが、ある種の CAI 教室では、アイコ
は、生産の場としての工場と、教育の場として学
ンタクトというコミュニケーション手段のかわり
校とを同時にコントロールしていた。そしてその
に、ネットワークを介した管理技術が導入されて
エッセンスは、教育工学を介して近代型 CAI の
いる。学生が行ったドリルの成績をデータとして
中に極めて純粋な形で流れ込んでいるのである。
一元管理する機能を持つものもあれば、授業中に
▪パノプティコン原理
スキナーはティーチングマシンの導入によって、
勝手にインターネットのサイトにアクセスしない
よう、随意に学生の行為をモニターする機能が備
えられている場合もある。いずれにしても、この
「学習をしている学級の全児童を同時に監督する」
ようなシステムを介することにより、教員は学生
ことが極めて容易になると説いた。この監視・管
を密かに監視することができ、また学生もそうし
理機能もまた、近代型 CAI の作動原理を構成す
た教員の眼差しを半ば意識しつつ行動することに
る一要素となっている。
なる。スキナーの述べたティーチングマシンの導
現在我々が当たり前のように使っている学校
入による監視機能が、ネットワークを介してより
の教室も、実は完全な監視機能を追求することに
隠微な形で実現可能となったのである。先述の小
よって徐々に形を整えていったものである。この
説『一九八四年』には、テレスクリーンという監
プロセスはジェレミー・ベンサムによって考案さ
視システムがディストピアの象徴として登場する。
れた「パノプティコン原理」と密接な関わりがあっ
それとほぼ同じような一望管理システムを、少な
た。
くとも一部の CAI 教室は実装しているのである。
パノプティコンは「光の偏在」を意味する監獄
の名称だが、この原理において重要視されていた
のは、不可視の看守の「視線」である。その視線
■プロト近代
ここまで行動主義、プログラム学習、教育工学、
を囚人自身が内在化し、被監視の状態を自ら恒常
テーラー主義、パノプティコン原理と、近代型
化することがパノプティコンの基本原理だが、ベ
CAI に流れ込む諸原理を順を追って見てきたが、
ンサムがこれを考えたのとほぼ同時代に、我々が
これで近代型 CAI という命名の理由は、ほぼ理
現在ごく普通に使用している「教員からその場に
解していただけるだろう。最も効率の上がるよう
いる学生全員を見渡せる」、すなわち教員が学生
厳密に組織立てられた学習内容を、孤独にひたす
を一望管理することが可能な教室が出現した。両
ら頭に詰め込む学生たち。その作業の様子はモニ
者はどちらがどちらの影響を受けたというよりも、
ターの陰に隠された教員の視線によって常に監視
同時代的な発想として期を同じくして現れたもの
され続ける。近代型 CAI をその原理に忠実に運
で、ベンサムはこうした教室の出現を賞賛し、ま
用すれば、そこに出現するのはこのような「効率
た自身の教育論にこの一望監視タイプの教室を取
の帝国の中に築かれた電脳パノプティコン」であ
り入れている。以来、教員が学生を均等に見渡せ
る。ドリル・テュートリアルタイプの CAI をあ
る教室は、一種のユニバーサルデザインとして他
えて「近代型」と名付けたのは、そこにこのよう
地域へと伝播し、今日の我々の日常的な学校の風
な近代起源の人間操作の方法、
すなわち
「オペレー
景を形作ることになった(この部分の議論に関し
ティング・システム」が見事なまでに結晶してい
96 ● 漢字文獻情報處理研究 第 3 号
近代型 CAI と教育革命(平林)
なさなかった。この見方に対して批判的な態度を
とったのが認知心理学や発達心理学に基づいて生
まれた構成主義の立場である。学習者は外部から
受動的に知識を受け取るだけではなく、自ら環境
と対しつつ外部世界についての知識や態度を自律
的に構築し続けている。このように人間は自ら知
識を組織していく萌芽のようなものを持っており、
それがのびのびと育つようの環境を整えてあげる
のが教育の役目だ、とするのが構成主義の基本的
な考え方である。構成主義の基盤を作ったのは心
1980 年代半ばに商品化された CAI 教室「NEC 個別教育シ
ステム PC Semi」の広告。宣伝文からわかるように、近代
型 CAI の典型的機能を一通り備えている。
CAI &ニューメディアショー '85 編『教育はコンピュータ
によってどう変わるか CAI のすべて』(学)産業能率大
学総合研究所教育工学研究センター、1985 より。
理学者のジャン・ピアジェだが、一時期その同僚
となっていたシーモア・パパートは、構成主義の
原理に則った教育用プログラム「LOGO」を製作
した。このプログラムは、学習者がコンピュータ
の作り出す環境に能動的に働きかけつつ、自らの
知識を自律的に構成していくように導くことを主
るからにほかならない。社会学者佐藤俊樹の言う、
眼としており、プログラム学習の一方的な知識の
「情報化社会はプロト近代を繰り返す」(佐藤俊樹、
注入とは全く反対の方向を目指すものであった。
1995、220-234pp.)という命題は、おそらくこ
協同・参加型学習とインターネット
こにおいても有効であろう。
もう一つの方策は、パノプティコン原理が作り
だす一元管理型の秩序を突き崩す、協同・参加型
3,コンピュータによる教育革
命は可能か
近代型 CAI に対するオルターナティブ
学習の試みである。近代型の教室では、教師が一
方的に知識を伝達し、学習者は各々それをただ受
け取るばかりであり、そこには閉じられた一方通
行の知識伝達経路が出来上がってしまう。協調・
参加型学習は、この構造を二つの点で突き崩す。
一つは教師対学習者の関係、もう一つは教室と外
さて、近代型 CAI がこれまで述べてきた諸原
部との関係においてである。前者は知識の源泉は
理を体現するものであるならば、このタイプの
教師一人ではなく、その場に参加している全員で
CAI の導入は、革命というよりむしろ守旧と言っ
あり、学習者同士が協調して互いに学び合うべき
た方がより適切であろう。それはこれまでの学校
だ、という観点をとる。また後者は、教室の壁を
や教室で行われてきたことを、より純粋な形で再
乗り越えて、学校の外にある様々な文化的コミュ
生産することを意味するからである。一方近代型
ニティへと参加していくことにより、より開かれ
CAI の原理を突き崩す形で試みられる CAI は、旧
た教育と学習を組織していくというコンセプトを
来の価値観を覆すという意味で、ひとまず「革命
持つ。このような教育・学習のスタイルは、デュー
的」と呼んでかまわないのではないか。そうした
イの実験学校など、かなり早い時期から存在はし
タイプの CAI について、一般的には以下の二種
ていたが、インターネットという外部との接続経
類が言及されることが多い。
路の普及とともに、近年盛んに試みられるように
構成主義と LOGO
なってきている[3]。
行動主義は学習者を知識を書き込むための「白
以上のように、近代型 CAI に代表される教育
紙」と考え、主体的能動的に学習する存在とは見
システムを「教育革命」の主要な攻撃対象と考え
Journal of JAET vol.3 ● 97
論 文
れば、これらオルターナティブはひとまず現時
の中は効率や管理に抗う様々な「雑音」に満ちて
点における「コンピュータによる教育革命」を目
いる。たとえば学習者はわからないところを隣の
指しているといってよいだろう。では、敵と味方
人に聞いたり、あるいは疑問に思った箇所を参考
がこれだけはっきりしたのだから、革命の日はい
書等を用いて自分で調べたりする。また教員は教
よいよ間近に迫っている、と果たして言えるのか
員で、整序された知識をただ淡々と伝えるだけで
どうか。ここまでの記述から近代型 CAI は悪玉、
はなく、自身が外国に行ったときの思い出を語っ
それに対するオルターナティブは善玉という印象
たり、また時に留学生を連れてきたりして、学校
を持たれるかも知れないが、実際のところ事態は
の「外部」を随時教室に呼び込んでいる。つまり
それほど単純でもない。
学習者は密かに協同学習をしたり、構成主義的な
▪「革命」につきまとう困難
発達を遂げていたりするし、教員は教室の壁に小
さな穴を絶えず開け続けているわけである。これ
かりに従来の一元管理型の教育スタイルを「革
らは通常「私語」とか「余談」と呼ばれてイレギュ
命的」に廃棄するとするなら、それには相当の覚
ラーな行為と見なされるが、実際の教室の中には
悟が必要となる。パノプティコンをやめるという
絶えずこのような小さな「革命」の種が播かれて
ことは、全員が一斉に同じことを行うこれまでの
おり、それはそれで中和剤的な機能を果たしてい
教室の作法を捨て去ることを意味する。また教育
たりするのである。
工学的発想がいけないのだとしたら、全員に共通
また、確かに詰め込み教育の弊害は大きなもの
の数値化可能な到達目標の設定をあきらめなけれ
であろう。しかしそれに付随した効率を追い求め
ばならない。また段階的に作られたカリキュラム
ること、反復により定着を図ることまで一律に否
を採用しないというなら、学習の効率化もある程
定してしまってよいのか。本文中ではこの問いを
度は犠牲にしなければならないことになる。さら
何度か繰り返してきたが、近代型 CAI が原理的
に教室の壁を崩してネットに接続しても、ネット
に詰め込み教育となりやすいとはいえ、全くイ
上にいる人が善意に満ちた協力的な人間ばかりと
コールかどうかはもう少し議論が必要と思われる。
は限らない。要するに、うまく運営できればそれ
現実的にたとえば週1回の授業で 60 名の学生に
こそ革命的な成功を収めることも可能だが、下手
初歩の中国語を教えなければならない、という状
をすると単に無計画でアナーキーな状態を現出さ
況で、効率を度外視した授業を実施するのは相当
せかねないのである。たとえば先に述べた LOGO
に困難であろう。また、母語であれ外国語であれ、
は、開発当初は爆発的に広まったものの、これを
数多くの反復練習をこなすことは、その習得に必
ただ漫然と与えただけでは子どもたちは何も学ば
須のプロセスだといえる。先に述べた近代型 CAI
ないということがわかってくると、だんだんに教
の諸原理を見れば、なるほどこれはけしからんこ
室から姿を消してしまった。あとに残ったのは、
とだ、と思われるかも知れないが、しかし部分的
LOGO とはいわば双子の関係にあったアップルコ
にそれらは依然として必要なものである。我々自
ンピュータの膨大な数のハードウェアだけであっ
身が近代の作りだした世界の中で生きている以上、
た(佐伯、1999、31p.)。
そうした諸原理をやすやすと捨て去るわけにはい
一方、近代型 CAI をその諸原理に完全に忠実
な形で使用している人など、果たして本当にいる
のだろうか。これまで様々な CAI 関係の報告に接
かないであろう。
学習理論のトレンド
したが、「効率の帝国の中に築かれた電脳パノプ
以上、近代型 CAI の諸原理のそのオルターナ
ティコン」を完璧に実現した教員は、残念ながら
ティブ、および教育の革命とその困難さについて
存在しないようである。あるいはそのつもりで実
述べてきた。近代型 CAI の徹底批判になるかと
施している人もいるかも知れないが、実際の教室
思ったら、最終的には中途半端な、今ひとつ煮え
98 ● 漢字文獻情報處理研究 第 3 号
近代型 CAI と教育革命(平林)
切らない結論になっていると思われるかも知れな
作動原理について、常に自覚的でなければならな
い。それは実にその通りで、そこには学力をめぐ
い。
る二項対立の一方に極端に肩入れしたくない、と
いう筆者の意図がある。
なお、小論は冒頭で述べたように CAI をめぐ
るいくつかの立場をかなりに強引に整理したもの
近代型 CAI を「注入主義」の代表格とするな
である。各項目で述べられている事柄にはそれぞ
らば、構成主義や協同・参加型の教育は、教師が
れもっと多様な展開、あるいは批判的発展があっ
子どもに対して一方的に君臨することのない、
「子
たが、そこに詳細に立ち入る余裕はなかったこと
ども中心主義」の教育観と考えられている。そし
を付言しておく。
て学習理論、学力論議には常に「季節」や「風向
き」があり、時代ごとの状況に応じて、この両者
の間を絶えず揺れ動く。たとえば冒頭に引いた二
つの文章が書かれたのは 1990 年代初頭から半ば
頃だが、この時期の学力論議はまだまだ受験戦争
や詰め込み教育に対する批判に満ちていた。こう
した傾向の中では、子ども中心主義が声高に主張
され、反対に近代型 CAI の注入主義的特質に対
する批判も当然激しいものとなる。
参考文献
苅谷剛彦
2002『教育改革の幻想』、筑摩書房
木村忠正
2000『オンライン教育の政治経済学』、NTT 出版
佐伯胖
1985「教育と機械」、『ロボットと人間』、東京大学出
ところがこの原稿が書かれている 2002 年夏の
時点では、新学習要領の施行とともに学力低下
版会
1999「教育はコンピュータ文化をどうとり入れるか」、
論が盛り上がりを見せており、「基礎基本の徹底」
『マルチメディアと教育知識と情報、学びと教え』、
を唱えることがむしろトレンドとなっている。そ
太郎次郎社
の発端となったのは 1999 年に出版された『分数
佐伯胖+三宅なほみ
のできない大学生』とされるが、「詰め込み教育」
1991「状況的教育とは何か」、『現代思想』vol.19-6、
に対する世間の態度は数年前に比べ激変しており、
典型的注入主義教育を実に見事に行う教師が全国
から講演依頼を受けて大忙し、というような状況
青土社
桜井哲夫
1984『「近代」の意味−制度としての学校・工場』、日
も生まれている。こうした風向きの中では、近代
型 CAI への評価もまた以前とは異なったものと
なろう。
本放送出版協会
佐藤俊樹
1996『ノイマンの夢・近代の欲望』、講談社
「注入主義」も「子ども中心主義」も、いずれ
か一方に極端に偏ると大概は破綻してしまう。注
入主義に対する批判はすでにおなじみだが、子ど
佐藤学
1990『米国カリキュラム改造史研究』、東京大学出版
会
も中心主義も失敗した場合のダメージは相当に大
1995「学びの文化的領域」、佐伯胖/藤田英典/佐藤
き な も の で あ る( 苅 谷、2002、163-177pp. な
学編『シリーズ学びと文化1学びへの誘い』、東
らびにストール、2000、103-121pp.)。各種学
京大学出版会
習理論はおおよそ出そろった感があり、あとはそ
スキナー、B.F.
の時々の学力論議の影響を極端に受けず、いかに
1954「学習の科学と新しい教授法」、A.A.ラムズデ
様々な理論を巧みに使いこなすかという問題にな
ィン・R.グレイザー編『学習プログラミングと
るだろう
[4]
。今回挙げた複数のタイプの CAI に
対する扱いもまた同様であり、それらを使いこな
すためにも、そこに前提として組み込まれている
ティーチングマシン』、学習研究社
ストール、クリフォード
2001『コンピュータが子供たちをダメにする』、草思
Journal of JAET vol.3 ● 99
論 文
社
ずに総称として用いることにする。
[2] アメリカの教育工学は、それを真っ向から批判する認
寺崎弘昭
1997「教育と学校の歴史」
、
『子どもと教育 教育学入
門』
、岩波書店
平林宣和
知科学の登場とともに急速に衰退したが、一方の日本
ではその認知科学をも取り込んで、独自の発展を遂げ
ている。日本教育工学会のサイトは以下の所にある。
2000「語学学習とコンピュータ(1)−学習と機械の
歴史 ティーチングマシンから CAI へ−」
、
『広島
経済大学研究論集』第 23 巻第 2 号
三宅なほみ
1997『インターネットの子どもたち』
、岩波書店
http://www.japet.or.jp/jet/index.htm
[3] コンピュータネットワークを使った協同・参加型学
習の比較的早期の実践例としては、認知心理学者三
宅なほみによる英語の授業実践がある(三宅、1997、
119-143pp.)。単なる事例報告ではなく、「教室の壁
を乗り越える」ことからくる独自の困難を問題化して
いる点で非常に示唆に富んでいる。
注
[4] この点で、木村忠正の「これらそれぞれの理論的立場
[1] CAI の呼称については、CALL のように learning を使
うか、そのまま instruction とするかで学習をめぐる
立場の違いが表されてしまうが、ここでは特に意識せ
100 ● 漢字文獻情報處理研究 第 3 号
は、排他的に「真理の座」を争うものではなく、お互
いに補い合うものだろう」という主張には賛成である。
(木村、2000、62-63pp.)
中CAI
国語
実践レポート
CAI(CALL) は誰のためにあるのか?
この疑問に答えるべく、この特集では中国語 CAI の歴史と現状を報告する。
予想を超えるスピードでパソコンの増殖は止まることを知らず、端末室、CALL
教室ばかりか、一般教室でも学生たちは日常的にパソコンを使うようになった。
パソコンの利点は改めて言うまでもない。だが、性急な情報化により失った
ものも多い。授業の大規模化、遠隔化が CAI の美名のもとに推し進められ、教
師たちはお仕着せの CAI 教材で授業運営することになれば、彼らの情熱、創意
工夫は電子機器のなかに埋没せざるを得ない。学生たちには何が必要なのか、
CAI が必要だとすれば、どんな教材が必要なのか。お仕着せ CAI に魂を売り渡
す前に、もう一度問い直してみよう。
日本中国語 CAI 研究会について
本会(会長:田邉鉄北海道大学助教授)は「コンピュータ援用の授業方法
を中心とした中国語教授法の研究・開発・普及を推進し、同時に教員・研究
者・ソフトウェア開発者の交流をはかる」ことを目的とし、1996 年 11 月
に発足した。会員による研究発表・実践報告の場として、例会(年 1 ∼ 2
回)
、総会(秋、年 1 回)を開催するほか、常時メーリングリストで情報意
見交換を行っている。参加を希望される方は、中国語 CAI 研究会 Web http:/
/moli.cims.hokudai.ac.jp/~ccai/ を参照していただきたい。
中国語 CALL の 10 年 1990 年代の CALL プレーヤー ・・・ 田邉 鉄 ・・・・・・・・・・・・・・・102
「上海万華鏡」制作日記
ビデオ教材作成に携わって見えたこと ・・・・・・・・・・・・・・・ 田邉 鉄・横山 裕 ・・・・・109
「上海チェイス∼恋する中国語∼」
「中国語素人」による教材開発の試み ・・・・・・・・・・・・・・・・ 鈴木 愛 ・・・・・・・・・・・・・・・111
Journal of JAET vol.3 ● 101
中
国語 実 践
CAI レポート
中国語 CALL の 10 年
1990 年代の CALL プレーヤー
田邉 鉄(たなべ てつ)
おおむね上方安定の状態にある。相変わらず中国
✐ 0.はじめに
本当は「20 年」とすべきだったかもしれない。
語教員の大幅増員は見込めない。毎年新しく出版
される教科書も、文法項目を切り出したスタイル
をほとんど変えない。私だけかもしれないが、授
私の知る限り、日本で最初の中国語 CALL(当時
業の方法(朗読、対話練習、暗誦、訳読、作文添
は CALL とは呼ばなかったが)の実用システム
削など)も、1983 年に私が学部学生として取り
は、1986 年松村文芳氏が神戸商科大学で開発し
組んでいた課題から、大きな変化はない。何より
た「中国語自動研修システム」である。パソコン
も、学生の授業に対する関わり方が、10 年でい
で映像はおろか音声すらまともに扱えなかった時
かほども変わっていない。
代に、聞き取り練習を自習できるシステムを開発
したことは、驚嘆に値する。
パソコンや OS の機能強化によって、確かに
CALL 教材や授業の開発には、マルチメディアの
この偉大なる先駆的業績は、直ちに多数の賛
利用や、ネットワーク・コラボレーションといっ
同を得たわけではない。当時、多くの大学は中国
た新たな選択肢がもたらされた。だが、それは
語履修者の急増に対応しなければならない状況に
1990 年代初頭に私が―そう言うことが許され
あって、学習の自動化は本来もっと注目されてし
るなら、私を含めた CALL 担当者の多くが―求
かるべきトピックだったはずだ。(非常勤)教員
めていた中国語 CALL の姿とは少し違うように思
増が唯一の正統的な解決手段である、という信念
う。
の前では、画期的な技術革新も単なる「手抜き」
本稿は 1990 年代の CALL プレーヤーが、何を
にしか映らなかったのだろう。全てのテクノロジ
見て、何を考え、何を創り出したのかをあとづ
に言えることかもしれないが、先駆者の業績が、
けることによって、現在の CALL が抱える課題を
そのままメジャーなムーブメントになるのは、極
あぶり出し、来るべき時代の CALL の姿を描き出
めて稀なことなのである。
そうとする試みである。タイトルの「10 年」は、
面白いことに、「手抜き」と非難された方法が、
雑誌「東方」の裏表紙に載った松村氏の実践記事
今日「手抜きができる」ことを理由に、「大学生
を、目を輝かせて読んでいた「ワタシの 10 年」
き残りの目玉」として扱われている。問題は、中
という意味である。
国語教育をめぐる状況は、当時と何一つ変わって
いないことにある。
履修者数は漸減傾向が見られる大学もあるが、
102 ● 漢字文獻情報處理研究 第 3 号
中国語 CALL の 10 年(田邉)
秒である。これを、学生が「授業に参加している」
✐ 1.テストの自動化を目指して
ここでは CALL という言葉を「学生が直接コン
ピュータ端末を操作することで語学学習を進める
システムあるいは学習方法」という意味に用いる。
という実感を持ち、あるいは教師が「学生の学習
に関与している」と感じる時間が、一人当たり 2
分 15 秒しかない、と言い換えてもよかろう。
当時書いた講演メモから[2]、CALL 導入の目
的に関する部分を引く。
「教材提示」や「講義ビデオのオンライン配信」
などは含めない。もちろん、これらがコンピュー
もしも「評価」の部分を肩代わりしてく
タの利用方法として劣っていると言うつもりはな
れる「何か」を、クラスの人数分用意でき
い。ただ限定した方が、私が CALL に求めていた
れば、少なくとも量の面では十分な教育が
ものをより明らかにしやすいと思うのである。
できるのではないか。自分がこれまで英語
1993 年、私は最初の CALL ソフトを開発した。
や中国語を学んだ経験から言えば、外国語
MS-DOS 上で動き、Beep 音しか鳴らないスピー
の運用能力は、単純に学習の量に比例する。
カで無理やり音声を再生させる仕組みだった。中
やった分だけができる。できることが増え
国語の漢字は、外字と日本漢字の組み合わせで、
ると面白くなるから、さらにやりたくなる。
二週間の開発期間の大半は、四百余りの外字作成
教師の仕事は、できるかぎり余分なストレ
に費やした。半年のテストのあと、1994 年には
スを排除して、量がこなせるように導くこ
Windows 3.1 用にプログラムや外字を書き換え、
とだ。
同年から同志社大学の二年生を対象に利用し始め
た。
およそこのように考え、CALL 教材を設計し、
当時の私の目論見はテストの自動化にあった。
授業を行った。「評価」、すなわち大量のドリル問
初習外国語の授業は、
「手本を示す」
「(真似して)
題を与えることに限定した結果、教材は非常に単
やらせてみる」
「評価する」の繰り返しで成り立っ
純化された。全ての課題は解答が一意に決まる、
ている。これは職人が弟子を指導する際の「やっ
単純な質問に分解され、それを学生はマウスク
てみせ、手伝うてさせてみせ、ほめてやらねば、
リックによって 1 コマに 50 問、100 問とこなし
[1]
誰もせん」
という、職人の新人教育について
てゆく。
の言い慣わしそのものである。1 年生の拙い発音
このとき「評価の肩代わり」を任せるのは、も
を修正する作業は、朱墨で筆跡を修正する書道の
ちろん機械に限らない。中国人のチューターを
師範、あるいは、トレーシングペーパーに修正箇
人数分用意することができ、その一人ひとりに授
所を書き込む絵画教室の先生を思い起こさせる。
業の目標を徹底できるのであれば、それでも構わ
ここで難しいのは「ほめてやる」すなわち「評価」
ない、というよりむしろ、可能ならその方が望ま
の部分である。手本を示したり、真似してやらせ
しいだろう。だが、実際は 50 人 60 人、時には
たりする場合には「一斉に」ということもできよ
150 人といったクラスを一人で 20 以上担当して
うが、「評価」(と修正)は個別に対応しなければ
いる有様なのだ[3]。人的・経済的なコスト削減
図 1 初期のドリル型 CALL 教材
ならない。ク
はあり得ても、逆は考えられる状況ではなかった。
ラスサイズが
どうやら、1994 年当時の私は、まだまだコン
40 人ならば、
ピュータに過剰な期待を寄せていたようだ。パソ
90 分 の 授 業
コンに「個人教師」が務まる、と考えていたのだ
で一人に割け
から。当然のごとく、たちまち破綻した。
る時間は最大
破綻について言う前に、ドリル式 CALL の導入
で も 2 分 15
自体は、非常に大きな成果を上げたことを言って
Journal of JAET vol.3 ● 103
中
国語 実 践
CAI レポート
おかねばなるまい。また、その成果の大部分は今
発展している。教材コンテンツ制作のための簡便
日なお有効であると考えている。中国語検定試験
なソフトウェアも用意され、過去のプリント類な
や HSK の合格率の向上、といった目に見える成
どからの教材作成にも十分対応できる。他大学で
[4]
、何よりも学生が「量」を恐れな
の実践も行われており、ドリル練習ソフトウェア
くなったこと、そして「量」をこなすことで自信
のスタンダードとしての地位を占めることが期待
を手に入れたことが大きい。
される。
果もあるが
ところが、その「量」が破綻の原因になったの
だから、皮肉な話である。私は 90 分授業のおよ
そ半分を、コンピュータによる自習に充てていた。
樋口氏の実践が優れている点は、ソフトウェア
の出来だけではなく、運用の方法にある。
例えば、1999 年の実践報告[6]によれば、立
その時間で、「デキる」学生なら 100 問近いドリ
命館大学の週 4 コマの中国語コースでは、最後
ルをこなす。それに合わせて 100 問のドリルを
のひとコマを CALL によるまとめにあて、50 問
用意する。それでは、「デキない」学生は 50 問
からなる練習問題をやらせている。問題作成の
だけやって満足するのか、というとそうでもない。
ロードは依然として担当教員の負担になるが、教
やはり全問やろうとする。逆に「デキない」学生
材作成ソフトウェアの充実や、学生ボランティア
に合わせて 50 問だけ用意する。「出来た人は遊
の採用などによって、負荷分散を図っている。
んでていいよ」と言ったら「デキる」学生は遊ん
ここでは、CALL で何かを学ばせようとするの
でいるかというと、これもそうではない。「もっ
ではなく、あくまでも対面授業のまとめ、反復練
と問題をよこせ」と来る。もともと「量」をこな
習の補助として CALL を取り入れている。これは
させるのが目的なのだから、こういう反応が返っ
ドリル練習プログラムの理想的な利用法と言える。
てくるのは当たり前だし、成功した証拠、とみな
「CALL を使うとモチベーションが向上する」
すこともできるだろう。そこに落とし穴がある。
とは、よく言われることである。だが、「CALL
問題数を増やせば「全部デキナカッタ」という不
だけでモチベーションを維持」できないことは、
満が残り、減らせば「物足リナイ」不満が残る。
先の私の失敗から容易に理解できるはずだ。「立
CALL のドリル練習プログラムは、プログラム
命館 BKC(または慶應 SFC)と同じカリキュラム
学習理論を基礎にしていることは周知の通りであ
ではできない」とは言うまい。CALL は「学生の
る。目標に向けて、各自がそれぞれのペースで学
中国語能力向上のためなら、何でもやる」という
習に取り組むことができる、という理念はいい。
姿勢の延長にある。
「何でも」やっていればドリ
だが、段階的学習によって無理やり掻き立てられ
ル練習ソフトは役に立つし、
「何にも」やらない
た学習への「欲求」は、「学習目標」という教師
ところでは、CALL を使おうが使うまいが効果を
の思惑を達成した時点で止まるわけではない。
「こ
上げることはできないだろう。
れだけやれば十分」なポイントを十分認識して、
そこからの引き算によって学習進度を管理するこ
とを、学生自身に求めるのは、不健全であるとも
言えるだろう。
✐ 2.マルチメディアの利用
1996 年 11 月 30 日、中国語 CAI 研究会第一
コンピュータを利用した中国語ドリル練習授
回総会が帝塚山大学で開催された。研究発表は
業で、最も優れた実践は、間違いなく樋口昌敏氏
2 組、広島大学(当時)の山崎直樹氏と、東海大
が開発した「CALL98」「CALL99」シリーズを用
学福岡短期大学の李奉賢・伊津信之介両氏で、と
いた立命館大学の実践[5] であろう。「CALL99」
もに Hyper Card を利用した教材開発・授業実践
シリーズは、樋口氏の卓越したプログラミング能
であった。これより先、林要三氏が帝塚山大学
力によって機能の充実が図られ、画像・音声・動
で取り組んだ『実用漢語課本』電子化も、Hyper
画の利用も含めた、外国語学習用統合ソフトへと
Card を利用したものだった。Macintosh は IBM
104 ● 漢字文獻情報處理研究 第 3 号
中国語 CALL の 10 年(田邉)
PC アーキテクチャと MS-DOS ベースのマシンに
ち主だ。
伊津氏が手がけた、ユニークなネットワー
比べ、中国語の表示・入力という点でかなりリー
ク・インフラ、そして何より学生との強い信頼関
ドしていた―より正確に言えば、Macintosh で
係がある。
「ちょっと試してみる」には、いささ
しか日中混在文の作成ができない時代がかなり長
かキツすぎる条件だと当時は思っていた。
く続いた。さらに、Macintosh は外国語学習に欠
それはともかく、研究発表のあとの討論では、
かせない動画や音声といった、いわゆるマルチメ
「マルチメディアのような技術を利用した授業は、
ディアの扱いに長けていた。
李氏の開発した教材は、ファイルサイズ制限を
どうしても内容が幼稚になる」
、「LL の二の舞に
なる」という「挑発的」な意見をきっかけに、思
いっぱいまで使い、動画・画像・音声を駆使した「力
いもかけぬ激しい討論になったことを覚えている。
作」である。特に、発音時の唇の形を収めたビデ
新しい技術を従来の成熟した技術と比べて劣って
オが印象に残っている。ビデオなどのアナログメ
いるという理由で排除するのは、テクノロジにつ
ディアや、最近の CD-ROM 教材などでは珍しく
いて否定的に語る時の常套手段で、度が過ぎれば
ないが、当時の限られたコンピュータリソースの
気持ちのよいものではない。だが、中国語 CALL
範囲で「ここまでできるのか」と感動したものだ。
がようやく本格的に立ち上がろうとしている時に、
ただ、参会者から「ここまでは(自分は)できな
既にその凋落を予言するかのような発言があった
い」とも言われた。
のは驚いたし、ちょっと感動した。
質疑応答の際、李氏は「この教材を学生に最低
その予言が全て的中したとは言わないが、少な
三回(Home Work として)聞きなさいと指示し
くとも半面の真理があることは認めざるを得ない。
ている」と教材の利用法を説明している。李氏は
それは、
今日大量に生産・消費されるマルチメディ
その後対照実験も行い、この教材を利用した結果、
ア教材のほとんどは、1996 年当時の教材とほと
学生の中国語能力が相当程度向上したことを明ら
んど変わっていないという事実だ。もとより、生
かにしており、この教材の成果それ自体に疑いの
身の人間を相手にする限り、今のところ使えるの
余地はない。
は視覚情報と聴覚情報の組み合わせだけで、マル
ただ、「大部の教材を三回聞く」という宿題を
学生に課し、学生は真面目に取り組む、という関
チメディアにそれほど工夫の余地があるわけでは
ない。
係を前提にできる中国語の授業が、日本にどれく
もちろんマルチメディアが「様々なメディア
らいあるだろうか、と考えると悲観的な気分にな
の相互感応によって、人間の全く新しい感官を呼
る。
び覚ます」という本来の姿で、私たちの前に現れ
マルチメディアは基本的には「個人化したメ
た時、教育の全く新しい可能性が出てこないとは
ディア」である。専門家のものだったマルチモー
限らない。それまでは、「個人化されたメディア」
ド情報利用が、主としてデジタル化によって個人
らしく、部屋にこもって動画や音声をいじって遊
レベルまで降りたことが、マルチメディアの一番
んでいるのがいいのだろう。なにしろ楽しいのだ
の特徴と言えるだろう。
―それが学生のためになるかどうか考えなくて
したがって、マルチメディア教材を「自習用教
もよい時には。
材」と位置付けて授業の補助に用いたことは、そ
の特徴を活かした英断だと言える。ただ、それを
そのまま「先生が課題を出し、学生は唯々諾々と
✐ 3.ネットワーク・コラボレーション
それに応える」という従来の授業に当てはめるこ
1994 年の同志社大学で利用できた「インター
とができるのであれば、無理をしてマルチメディ
ネット」はターミナル上での mailx と gopher だっ
ア教材を使う理由もないのではないか。李氏は教
[7]
た。特に gopher はよく利用した。
「華夏文摘」
育者としても教材開発者としても一流の腕前の持
というオンラインマガジンをご存知の方も多いだ
Journal of JAET vol.3 ● 105
中
国語 実 践
CAI レポート
大学の BBS で、
学生のメール相手を募集したり
(結
局文字化けが解消せず、ノッてきた学生も英語で
文通していた)と、ネットワークを採り入れた授
業を盛んに試みようとしていた。
1994 年、私は特に「ネットワーク・コミュニ
ケーション」を意識して上記のような試みを行っ
たわけではない。インターネット・メールやケー
タイ・メールが「社会現象」とまで言われるよう
図 2 フリーの中国語 Viewer
になるまでには、まだ間があった。私の試みは「授
業のネタ」を増やそうとしたに過ぎない。
ろう。これを発行している China News Digest の
この授業では、ドリル教材ソフト 2 種の使い
gopher サーバには、古典から現代文までかなり
方以外に、中国語ワープロソフトの使い方や、
充実した「書庫」があり、現在の WWW と変わ
Unix でのメール送信の方法、gopher で必要なテ
らない手順でリンクをたどり、全文をダウンロー
キストを収集する方法など、毎時間 20 分ほどは
ドすることができた。
必ずコンピュータの使い方を説明していた。この
ダウンロードしたファイルは、フリーソフトの
20 分は、中国語の授業としてはほとんど無駄な
Chinese Viewer[8]や、DOS 版簡易中国語ワープ
時間と言える。学生からも「コンピュータは苦手。
ロ、シェアウェアの中国語簡易ワープロ DDWIN
何でこんな授業をするのか」と非難の声が聞かれ
[9]
など、中国語フォントを内蔵したソフトウェ
た。にもかかわらず、欠席者・脱落者は非常に少
アを使って学生に読ませた(余談だが、Chinese
なかった。私の中国語教育経験を振り返って、全
Viewer はテキストを画像に変換する機能があり、
く欠席のない週が、半数以上を占めたのはこの授
ドリル練習ソフトに使う外字を作成するのに随分
業だけだ。今振り返ってみて、そこに「ネットワー
役立った)。
ク・コラボレーション授業」の有効性に関する重
簡易中国語ワープロで作文をさせて、メールで
送る、あるいは学生同士でメール交換させる、と
要な示唆が含まれていたと思う。
ネ ッ ト ワ ー ク・ コ ラ ボ レ ー シ ョ ン 授 業 は、
いった実習も行っていた。当時は中国語を通すど
CALL の新しい「目玉」として、最近特に注目さ
ころか、まともな GUI ベースのメールソフトさ
れるようになっている。掲示板、チャット、テ
えインストールされていなかった。DOS 用のワー
レビ会議を組み合わせた早稲田大学の Chinese
プロソフトで作文させ、Unix のコマンドライン
Online[11] のような大掛かりなシステムは、ど
から、cat と mailx を組み合わせたスクリプトで
こでも導入できるわけではないが、チャットや掲
GB コードのテキストを直に送らせ、文字化けし
示板を使ってみた、あるいは使おうと思っている
たテキストを同じソフトで強引に読んでいた。
教員は少なくないだろう。私が勤務する北海道大
さらに、.forward ファイルに全員のメールアド
学でも、三次元仮想空間チャットシステム利用実
レスを書き連ねて、「簡易メーリングリスト」を
験や、国立五大学ネットワーク共同教育プロジェ
作り
[10]
、「中国語ディベート授業」の真似事ま
クトを進めている。
でやっていた。幼稚ではあるが、「ネットワーク・
これらのネットワーク・コラボレーション授業
コラボレーション授業」めいたものに取り組んだ
は、ほとんどがまだ実験段階にあり、成果を語る
のは、それが最初のことだった。同志社大学の授
ことができるようになるのはもう少し先になりそ
業では、その後(話だけに終わってしまったが)
うだ。ただ、同志社大学での経験と結びつけて考
名古屋外国語大学の三枝裕美氏と CUseeMe 用い
えると、見通しは十分明るいとは言い切れない。
た遠隔授業をやろうと盛り上がったり、上海復旦
106 ● 漢字文獻情報處理研究 第 3 号
ネットワーク・コラボレーション授業の多くは、
中国語 CALL の 10 年(田邉)
「中国語を実際に使用することによって、モチベー
る恐れがある。
ションが向上する」ことを利点にあげている。こ
外国語教育改革が必要とされる理由で、よくあ
の場合「中国語を使用すること」が、いわゆる「お
げられるのが「グローバル化」「情報化」社会へ
天気の会話」レベルを想定したものではないこと
の対応である。教育改革の一つの「目玉」として、
は明らかである。サバイバルのための初級会話で
CALL もそれを継承する。いったい、私たちはグ
あれば、対面授業で日常的に「使っている」。日
ローバル化、情報化の流れの中で何を学んだのだ
本と中国の学生が共通して興味を持つテーマを設
ろう。「『ホントウニ』つながること」が如何に難
定し、コーディネータとしての教師の指導のもと
しいか、すなわち異文化の理解不可能性と、それ
で、活発な議論が展開される。それはさぞかし刺
でもなおかつコミュニケーションへの努力を続け
激的な授業であろう。コンピュータ上で展開して
ることによって、ある種の合意形成が果たされる、
面白いかどうか、は別として。
かすかな希望ではなかったろうか。
掲示板システムはともかく、リアルタイムで
シャレや遊びならネットワーク・コラボレー
意見交換を行うチャットは、しばしば教師にとっ
ション授業もよかろう。だが、コミュニケーショ
てさえ難しい。上海復旦大学で学生が運営する
ン能力向上の「切り札」として、「繋がりたいけ
チャットルームに入る時は、中国語 20 年選手の
れど繋がれない」学生の不安や不満に迎合して、
私も「足がすくむ」。多くのチャットを利用した
擬似コミュニケーションに走るのは、もうやめに
授業では、相手校との綿密な打ち合わせを行い、
した方がいいと思うのだが、どうだろうか。
教師の指導を経て、ようやく短時間の「対話」に
成功する[12]。対話の中身が初級教科書の域を越
えることはまずない。それでもなお「実際に使う
ことで、モチベーションが向上する」とすれば、
✐ 4.おわりに
「中国語 CALL10 年史」を書くつもりだったが、
それは「苦労してネットワークを通して中国語
現在の CALL に対する不満たらたらの愚痴っぽい
で相手に繋がる喜び」「パソコン授業の目新しさ」
文章になってしまった。
が土台になっているものと考えられる。
もちろん CALL を否定するつもりはない(私の
ところが私が同志社大学で行った授業は、パソ
職責を考えると否定できない!)し、現在各大学
コンが十分に普及しておらず、毎時間パソコンの
で行われているコンピュータ利用教育に関する取
使い方を一から説明しなおさなければならない状
り組みには、大きな期待を寄せている。
況、ネットワークで中国語をやり取りすることが、
ただ、1990 年代に私が肌で感じていた CALL
まだ一般的ではなく、「生」のテクノロジである
への情熱や、夢と活気を含んだ空気、
「何でもやっ
ような状況だからこそ、受け入れられているので
てやろう」とする熱意、そして(そもそも教具と
ある。ネットワークが当たり前に利用される状況
してコンピュータを選ぶ)あっと驚く創意工夫と
では、「新しいテクノロジ」に触れた時の満足感
いったモノが、次第に失われているように思う。
は得られない。「パソコン授業の目新しさが学生
単なる「コンピュータオタクの郷愁」と言われ
のモチベーション向上に役立つ」という図式はこ
ればそれまでだし、
「ハコモノ行政」への対応と
こで破綻しないだろうか。
いう「お家事情」もある。外国語や情報は「教育」
ケータイの爆発的普及に見られる、今の若者の
ではなく、「教育インフラ」だ、という愚劣さと
「つながりたい」欲求は、企業やマスコミによっ
も絶えずケンカしなければならず、どうしてもヒ
てほとんどいたたまれぬほどに刺激され、時に「ホ
ステリックに「欲しいのは今の CALL じゃないん
ントウニ」つながらなきゃ、という強迫観念をさ
だ!」と叫んでしまう。はたから見れば、ずいぶ
[13]
え生む
。授業が安易にネットワーク・コラボ
レーションに傾斜すると、この傾向に拍車をかけ
んと滑稽な姿に写るのではないかと思う。
ただ、私の実践が常に「対面授業のネタ」とし
Journal of JAET vol.3 ● 107
中
国語 実 践
CAI レポート
て行われていることは、特に強調しておきたい。
[4] 例えば同志社大学で、中国語 CALL 授業を採り入れた
コミュニケーションを教授する立場にある我々語
1 年後の 1995 年、中国語検定の合格率は前年度に比
学教師は、自身が「コミュニケーションの達人」
べて随分高くなった。総受験者数がかなり違うので、
であってしかるべきであろう。コンピュータを「本
来あるべき場所」に戻し、授業でのパフォーマン
必ずしも意味のある比較とは言えないが。
[5]Wuniu's Web
スというコミュニケーション実践にもっと光を当
http://www5a.biglobe.ne.jp/~wuniu/call/index.htm
てること。それが 1990 年代の CALL プレーヤー
[6] 1999 年 3 月 6 日、日本中国語 CAI 研究会第 9 回例会
である私の任務ではないかと思っている。
発表「BKCの実践報告 (2)」
[7] China News Digest http://www.cnd.org/
[8] 当 時 使 っ て い た も の で は な い が、Hannet Chinese
注
Viewer http://home.hkstar.com/~hannet/hnview.htm
[1] 宮大工の方から伺った言葉である(ぜひ関西アクセン
などが現在も流通しているようだ。
トで味わって頂きたい)。米沢藩主 上杉治憲 ( 鷹山 )
[9] http://www.filelibrary.com/Contents/Windows/131/5.ht
の言葉と伝えられ、山本五十六が好んで口にした「や
ml などで現在も手に入る。同名の辞書検索ソフトと
ってみせ、言って聞かせて、させてみせ、ほめてやら
ねば、人は動かじ」と似ているが、「言って聞かせて」
の部分がない。「言い聞かせ(解説)」は外国語教師の
仕事たり得るのか、どうか。
[2] 1994 年 6 月、全国高校中国語教育協議会。
間違えないように。
[10] 同志社大学言語文化教育研究センター西納春雄氏の
示唆による。
[11] 国際漢語遠程教学 http://www.waseda.ac.jp/projects/
chinese/ksunaoka/guilin.files/frame.htm
[3] 1996 年のスケジュール帳を読み返してみると、5 大
[12] 英語のチャット授業は中国語よりも遥かに進んでい
学 6 キャンパスで、合計 21 コマ/週の授業を行って
る。それでも例えば北海道大学の西堀ゆり氏による英
いる。北大に来て同僚教官にその話をすると、一様に
語のチャット授業は、氏の巧みな話術による導入や、
驚かれる。だが、1990 年代半ばの「中国語非常勤バ
ブル」期には、私と同じかそれ以上の授業を抱えてい
る教員はいくらでもいた。現在も 20 コマを超える授
業を抱える教員はたくさんいるだろう。
108 ● 漢字文獻情報處理研究 第 3 号
パフォーマンスが欠かせない。
[13] 武田 徹、『若者はなぜ「繋がり」たがるのか―ケ
ータイ世代の行方』、PHP 研究所、2002 年
中
国語 実 践
CAI レポート
「上海万華鏡」制作日記
ビデオ教材作成に携わって見えたこと
田邉 鉄(たなべ てつ)・横山 裕(よこやま ゆたか)
に済むように、情報として供したい。
✐ 1.経緯
田邉と横山は平成 12 年度と 13 年度に文部科
✐ 2.メールでの打ち合わせには限界が
学省大学共同利用機関メディア教育開発センター
教材制作全般に携わったのは高津氏と筆者の他
の高津直樹氏を責任者とする中国語 CD-ROM 学
にプロデューサーの原田恒男氏((株)NHK エデュ
習教材「CALL 教材シリーズ中国語中級」制作プ
ケーショナル)とプログラマーの野沢光太郎氏
ロジェクトに参加し、2 枚の CD-ROM 教材「你好!
((株)ジークス)の5人であった。田邉が北海道、
我是刘庆国。」と「上海万花筒」を監修した。
横山が宮崎で、それ以外の3氏が東京ということ
我々の役割は教材のシナリオ執筆と学習プロセ
で実際に全員が顔を合わせるのは最終打ち合わせ
スの立案である。だがシナリオ一つ書いて終わり
時と撮影時の二回だけであった。それ以外は電子
ではなく、プログラマーや撮影スタッフなどとの
メールで話をつめていった。
制作会議に参加したり、スタジオ撮影に立ち会う
シナリオやドリル問題など具体的なコンテンツ
など、制作作業の一部も体験し、個人で教材作成
についてメールで打ち合わせるには、中国語を使
するのと全く違った「ギョーカイの仕事」の一端
用しなければならない。一応、『電脳中国学』を
を垣間見ることができた。
紹介し、中国語の表示はできるようになったので、
中国語の教材を作成するとはいえ技術部門のス
タッフは、中国語を全く知らない。また、逆にシ
中国語シナリオについては Web 上にあげてブラ
ウザで見てもらった。
ナリオを作成する我々は撮影の現場や CD-ROM
だが、コンテンツ制作を担当する野沢氏は中国
制作の現場を知らない。両者のコミュニケーショ
語ができるわけではない。メールだけでなく電話
ンギャップは、特にスタジオ撮影や CD-ROM の
で「第○課の○行目のニンベンに十!」などと怪
インターフェース作成の時に何かと問題を引き起
しげな符丁を飛ばしあうことになった。日中の文
こすことになった。
章に対応する番号を振る、とか、文書共有の仕組
本稿は平成 13 年度の教材制作、特にスタジオ
み、会議システムなどをきちんと工夫しておくべ
撮影とその前後の打ち合わせの経過をレポートす
きだったかもしれない。何しろ対面で確認しても
る。中国語 CALL が普及するにつれ、中国語教員
間違えるのだから。
なら誰でもこういった大規模プロジェクトに参加
する可能性がある。いざという時少しでも慌てず
これに対し、学習プロセスをつめていく段階は、
「1回目の聞き取りがあって、確認の問題、2 回
Journal of JAET vol.3 ● 109
中
国語 実 践
CAI レポート
目の聞き取り、練習」などと実際の学習過程をフ
あった。もちろんシナリオは作成段階でネイティ
ローとして書き起こすまではスムースに進んだ。
ブチェックは済んでいたのだが、言葉使いには個
細かな画面構成やユーザインタフェースの詳細は
人差があるので、学習させたい表現の変更でない
メールだけでイメージを共有するのは難しかった
限り書き直すことにしたが、その都度撮影が止ま
が対面ではあっさり解決した。
り迷惑をかけることとなった。
撮影段階までまったく問題になるとは思わな
✐ 3.スタジオ撮影の現場で
かったことで、実際の撮影時に最大の問題になっ
たことを最後に記す。それは、この「上海万華
制作した 2 つの教材はともに 15 スキットあり
鏡」第7スキットの「外灘公園の夜」を撮影した
約1時間分のビデオ映像を含む。「上海万花筒」
ときである。話は二組の恋人同士が一つのベンチ
の場合、1時間の映像を撮影するためにスタジ
をめぐって知恵を絞った争奪戦を行うというもの
オにまる二日間こもった。撮影スタッフはプロ
なのだが、シナリオ通りに撮影すると二組の恋人
デューサー、ディレクター兼監督、カメラマン、
同士の画面への出入りが多くなり映像として分か
照明担当、音声担当など総勢 10 名で、撮影はカ
りづらいと監督からクレームがついた。また役者
メラ二台を用い、後で上海の背景を合成するため
も動きづらそうで、結局より出入りの少ないシナ
にクロマキー撮影(背景を青にして撮影)で行わ
リオに書き直すことになった。もちろん当初この
れた。
スキットで予定した学習内容の重要表現も変更す
最初はただ黙って座って見ていればいいだろう
ることになり、練習問題も総書き換えした。この
と見物気分でいたのだが、1シーンごとに中国語
スキットを担当した田邉は一晩かけてシナリオや
のセリフのチェックを求められまったく気が抜け
ら練習問題やら重要表現やら書き換えた。撮影予
なかった。本来撮影の最終確認は監督が行うらし
定もかなり狂わせてしまった。普段からビデオ映
いが、セリフが中国語であるため最終確認が筆者
像に接していないと、なかなか「不適切な表現」
に任されてしまい、そのため映像的には OK でも
のイメージが持ちにくい。思わぬ「ダメ」に動じ
出演者のセリフで声調が微妙におかしかったりし
ない神経と、スタジオでじっとしていられる体力、
た時に「もう一度撮り直しお願いします」と切り
臨機応変に対応する能力などは養っておく方がい
出すのには、かなり気を使った。
いかもしれない。
予算の都合上、出演者は、日本人は東京外国
語大学の学生、中国人は同じく外大の留学生で演
技に関しては素人だった。中国人留学生はともか
注
く日本人学生にはカメラのまわる前で中国語を喋
[1] メディアセンターがあえて東京から遠い北海道と宮崎
りながら演技まで要求するのは酷だと個人的には
の筆者を起用したねらいの一つには、教材の共同制作
思っていたが、監督からはシナリオ(監督のイメー
にインターネットがどこまで使えるかを試すこともあ
ジ)にあった演技を要求されることがあり気の毒
ったようである。
であった。
シナリオは出演者に前もって渡してあったの
だが、撮影時に中国人留学生から実際に喋ってみ
ると言いづらいとか違和感があるとか注文が出て
その場で書き直しを求められることもしばしばで
110 ● 漢字文獻情報處理研究 第 3 号
[2] そもそも日本に中国語の話せるプロの役者は少ない
し、頼むにしても出演料が高いらしい。
[3] それでもきちんとやり遂げたのはさすが東京外国語大
学の学生さんである。
中
国語 実 践
CAI レポート
「上海チェイス∼恋する中国語∼」
「中国語素人」による教材開発の試み
鈴木 愛(すずき あい)
本稿は、ThinkQuest の「学習者による教材作
成コンテスト」という枠組みを用いて、専門外の
✐ 1.
「なんとなく」中国語
者が外国語教材を作る試みを紹介し、その利点と
大学に入ってから第二外国語で中国語をやった。
課題を明らかにする。
でももうほとんど忘れてしまった。毎日いろいろ
やることがあって、いまさらかっちり勉強しなお
す暇はない。だけど、せっかくだから、なんとな
く中国語に触れていたいような……。
✐ 2.ThinkQuest@JAPAN について
1995 年にアメリカでスタートした ThinkQuest
と、いう人をターゲットに、中国語学習のサイ
トを作ってみたかった。……私自身のために。
私は大学で二年間中国語を学んだ。卒業まで覚
は、中高生のグループを対象とする Web 教材作
成コンテストである。単に Web 制作技術を競う
のではなく、見知らぬ生徒同士でグループを組み、
えていられたのは、いくつかの挨拶を除けば「餃
学習し、成果を発表するという一連の「教育プロ
子太油膩。」という一言だけである。今回ウェブ
グラム」
として行われる点に特徴がある。優勝チー
[1]
に
ムに参加していた日本人生徒は、シンガポールや
応募するにあたって、本当に中国語教材でいいの
カナダ等の生徒とインターネット上の共同作業に
か、正直なところかなり迷った。
よって作品を完成させている。インターネットの
教材コンテスト ThinkQuest@JAPAN2001
五年間勉強してそれなりに自信のあるイタリア
特性を活かし、遠隔地に住む仲間とコミュニケー
語や、専門のケータイ・メディア論など、人に何
ションをとりながら学習・制作を進めることが評
とか「教えられる」ネタならある。あえて中国語
価される。
を選んだのは、「なんとなく」を大切にしたいと
思ったからだ。
1998 年 か ら は 日 本 版 プ ロ グ ラ ム
ThinkQuest@JAPAN もスタートした。本家では
中国語を学んだことのない人でも、中国語がど
中高生のみが対象となっているが、こちらは大学
んなものなのか、雰囲気がわかる。がっちり問題
生・社会人部門も設定され、生徒同士のコミュニ
集や教科書を開いて勉強するのではない。テレビ
ケーション活動よりも、作品自体の完成度の高さ
やラジオを続ける根性もいらない。気楽に覗くこ
を重視する、より「コンテスト」色の強いものと
とができて、中国語に触れられる。こういうコン
なっている。
セプトの教材であるなら、ウェブサイトは最高の
メディアであると思う。
私は当初、ネットワーク上で同じように中国語
のできない人と友達になって一緒に参加するつも
Journal of JAET vol.3 ● 111
中
国語 実 践
CAI レポート
りだった。本家 ThinkQuest の趣旨を汲み取った
つもりである。ところが、メーリングリストや掲
示板での呼びかけが間に合わず、あてにしていた
仲間にドタキャンをくらって、結局無理やり大学
の指導教官を引っ張り出して参加資格を満たすの
が精一杯だった。
エントリー締め切りから作品提出まで三ヶ月半
ほどあり、ラクラク提出できると思っていたが、
提出期限一週間前からほとんど徹夜作業で間に合
わせるありさまだった。
✐ 3.
「上海チェイス」のデザイン
図 1 主人公の紹介部分
さて、教材を作るにも材料がない。中国語教科
書をあれこれ見たが、「よくできているな」とは
そこに何かしら文法的な課題や、面白い語彙・表
思うが、まさか全て引用するわけにもいかない。
現を見つけるのは、さすがに難しかった。今回は
あれこれ悩んだあげく、「私と同じくらい中国語
手を抜く形になってしまったが、ストーリー作成
ができないキャラクタを設定し、中国を舞台に動
と教材化についての、違った取り組みも始めてい
き回らせることによって、予想されるトラブルや
る。それについては後に述べる。
出会いを、会話形式の教材にまとめる」という方
法を思いついた。
どこにでもいそうな大学生、として設定した主
人公鈴木一郎は、実は結構注意を払ってキャラク
主人公をあまり勉強熱心でない、中国語のでき
タを作っている。彼の研究室内での位置づけ、口
ない学生にすれば、感情移入が容易になるだけで
調、表情、それらから、飄々としたざっくばらん
なく、初心者が躓きやすい部分を効果的に示せる
さをにじませたかった(図1)
。中国語が全くで
だろう。
きないところからスタートすれば面白いだろうが、
ストーリー仕立ての教材は、いくつか市販さ
私の覚えている中国語の第一課といえば、
「ボポ
れているが、腰を据えて学習できるようにストー
モフォ」である。ストーリーと絡めるのが難しい
リーは「添え物」になっている。学習内容ばかり
ので、今回は割愛。一年以上の中国語学習経験あ
が目に付いて、ストーリーを楽しむには程遠い。
り、という設定にした。
第一、中国語教材のストーリーに出てくる日本人
ストーリーを読み進めるのに、学習部分の理解
は、私と違ってみんな中国語が話せる(当たり前
は必須ではない。たとえば第一話で一郎の行動は
だ!)。
次のように描かれている。
ストーリーは全六話とプロローグ、エピローグ
で構成した。第六話を除く一∼五話に、それぞれ
二つのダイアログ、語法・語彙の解説、練習問題
を配置した。
「気軽に中国語に触れる」ことが目的ならば、
ストーリーを十二話くらいにし、中国語学習部
分を各々一つずつ、というくらいの配分が適当で
あったかもしれない。だが、作ってみてわかった
が、ストーリーの流れに応じたダイアログを作り、
112 ● 漢字文獻情報處理研究 第 3 号
(1) 中国語の勉強と称して買い物に行かされ
る(日本語)
(2) 売店で大きい札を出す。小銭はないか聞
かれているのにわからず、そのまま帰ろう
とする(中国語)
(3) 行方不明の久保田茉莉をみかける(日本
語)
(4) 時間を聞く(中国語)
「上海チェイス∼恋する中国語∼」(鈴木)
(5)「列車に乗り遅れた!」(日本語)
レイアウトにはスタイルシートを使った。シン
プルを目指したので、あまり凝ったことはしてい
(1)、(3)、(5) の日本語部分だけを拾い読みし
ない。この点では他の「かっこいい」サイトに比
たとしても、ストーリーの読み取りには差し支え
べて、どうしても見劣りしてしまう。
「かっこいい」
ないが、(4) のようにストーリーの流れに密接に
のは単に見た目の問題ではない。学習者が安心す
関連した中国語は読み取れた方が面白い。また、
るために必要な仕掛けなのである。
「なんとなく」
(2) のように、一郎が中国語が苦手、先輩に使い
だからこそ、もっと学習者の気分を盛り上げる工
走りさせられて、いやいや買い物に行く、という
夫をしなければならなかったと思う。
日本語で与えられたストーリーから、理解が容易
になる中国語部分もある。基本的にはストーリー
を楽しむことと、簡単な会話表現を学ぶことは、
別々のラインとして設計されている。
この教材の狙いは、中国語を狭い意味で「学ぶ」
ことではなく、中国語に「触れる」ことである。
✐ 4.インタラクティブな「仕掛け」
今回はシステム的にはあまり凝ったことはして
いない。ただ、中国語表示に関しては少々てこずっ
た。
「ちょっと知る」「気軽に触れる」ことを、学習者
今や Windows や Mac 上で最新版のブラウザを
個人の気分ではなく、システム的に保障するため
使えば、中国の簡体字を表示、入力するのは難し
に、ストーリー部分と学習部分の間に微妙な距離
くない。だが、様々な OS やブラウザに対応する
を持たせた。
クロス・ブラウズを実現するためには、
中国語フォ
文法や表現の補足説明の部分では、基本文法に
は触れていない。基本文法は往々にしておもしろ
ントのインストールや、個々のブラウザ固有の機
能を前提とするのは望ましくないだろう。
くない。私たちは、いつか流暢に話せる、何の障
ここでは大多数のブラウザ(lynx など、画像
害もなく文章を理解できることを楽しみに勉強す
のインライン表示に対応しないテキストブラウザ
る。言葉を学ぶこと、それ自身の楽しみを否定は
は別として)で共通して利用できる「画像」を用
しないが、誰もがその楽しみを求めている、とい
いて中国語を表示しようと考えた。
う前提には立てない。「なんとなく」中国語に触
もちろんバリア・フリーの考え方に基づくなら、
れていられる、というのがこの教材の成果(アメ)
これでも十分とは言えない。画像の多用によって
ならば、そこに到達するための苦行(ムチ)は、
レスポンス速度が落ちてしまうと、確実にユーザ
それに見合った質や量があるだろう。
図 2 UTF-8 による中国語表示
この教材では、基礎を大切にして確実にわかる
ことを目標にするのではなく、正確にわからなく
てもいいから、その場の状況を手がかりに、「な
んとなくわかってしまう」喜びを大切にしたかっ
た。
「なんとなく」中国語を理解することに楽しみ
を感じられれば、もっと中国語をしっかり勉強し
てみたい、という気持ちにつながるかもしれない。
そうして始めて「苦行」にも耐えられるようにな
るというものだ。
ユーザ・インタフェースも、
「簡単に使えること」
を重視した。見やすい、速い、を身上に、あとは
徹底的にシンプルを心がけた。
Journal of JAET vol.3 ● 113
中
国語 実 践
CAI レポート
心残りだ。吹き込みを引き受けてくれたネイティ
ブスピーカーの都合がどうしてもつかなかったた
め、締め切りが迫る中で断念した。「なんとなく」
サイトとしては致命的な欠陥であろうと思う。
✐ 5.
「素人」による教材制作の意義
今回の活動から、
「素人」が教材作成を行うこ
との意義は、以下の三つがあると考える。
一つめは、自分自身の中国語学習に対するモチ
ベーションの向上である。「人にモノを教えるこ
図 3 CGI による練習問題
と」が、知識の整理や定着に役立つことはよく知
ビリティの低下を招くからである。また、検索機
られているが、
「よりよく教えたい」という気持
能の追加や引用の便を図ることができるテキスト
ちがさらに多くの知識を得ようとする強い動機付
の利点も捨てがたい。
けになることは、私にとって大きな発見だった。
そこでまず、中国語表示用の画像はモノクロ画
二つめは、学習成果の発表を多くの人に見ても
像とし、なるべくフレーズや単語ごとに細切れに
らい、シビアな評価を受けられることである。単
して表示速度の低下を防いだ。さらに、全く同じ
なる成果報告ではなく、
「教材」という形をとる
デザインの UTF-8 テキストのみのページ(図2)
ことによって、その分野について手っ取り早く伝
を作り、中国語学習部分のうちダイアログの部分
授してもらえる、という期待を持った学習者が集
を全て「二重化」することにした。
まる。彼らは私の学習成果に興味があるわけでは
練習問題は、CGI を使った。本当はユーザ・デー
タベースを作って、ランキングや成績表発行に使
なく、教材が役に立つかどうかが一番の問題であ
り、それゆえ「教材」の評価は厳しいものとなる。
いたいと思っていたのだが、教材を置くサイトで
実際、「上海チェイス」に対しては「体系的な
はデータベースサーバを自由に使えないようだっ
中国語教材としては物足りない」という専門家の
たので断念した。四択問題の正誤を判定するだけ
意見と並んで、
「
(難しくて)
やる気がおきない」
「テ
のプログラムで、あまり新味は出せなかった(図
ストのやり方に工夫がほしい」など、学習者から
3)。
の反応(文句)が多い。
課文をどう見せるかは、かなり迷った。わから
ない単語をクリックすると、説明のボックスが出
三つめは、学習者コミュニティ形成の可能性で
ある。
てくる、などといういたれりつくせりのサイトに
外国語学習の基本的なやり方は、30 年前の学
してもよかったかもしれないが、結局漢字とピン
生とほとんど変わらないだろう。だとすれば、
「現
インしか載せなかった。わからないところはわか
在私がつまずいている」ことは「過去何人もがつ
らないままでいい、なんとなく、わかるところを
まずき、現在も誰かがつまずいている」ことであ
読んでいってもらえれば、と考えた。ただ、内容
る、という前提を持ちうる。単語ひとつ、例文ひ
としては少し難しくなってしまったので、中国語
とつでもいい、自分の得意分野やつまずいた部分
文をクリックすると、対応する日本語文が出てく
をウェブページで紹介するだけで、それは多くの
る仕組みは作っておけばよかったと思う。「なん
学習者に共有され、現在またはかつての「素人」
となく」なのだから、中国語部分も、もっと簡単
から同様な体験や様々な解決法が示される。それ
に読める仕組みは必要かもしれない。
は全く新しい教材作成の方法を示唆してはいまい
音声を入れることができなかったのは、最大の
114 ● 漢字文獻情報處理研究 第 3 号
か。
「上海チェイス∼恋する中国語∼」(鈴木)
今回制作した教材は、いかにも素人が作ったも
院のオンライン会議室で教材共同執筆のプロジェ
のである。体系的に学習できるような工夫はなく、
クトを始めた。複数の「素人」がそれぞれのキャ
とにかく体当たりで中国語にあたり、ちょっとわ
ラクタを担当し、教材から学んだことを書き込む。
かったらうれしい、そんな「気分」を共有できる
その学びの過程がそのまま、新たな教材となる。
「場」をまず設けること、ネットワーク教材の役
今年もまもなく ThinkQuest の季節になる。今
割をそのように考えている。そうすると、次に一
年は素人による教材作成の、より大きな枠組み作
つの教材を核として、様々な学びあい活動が起き
りにチャレンジしたいと思っている。
る、コラボレーションの枠組みが必要になるだろ
う。
これが全国的、あるいはウェブ世界全体といっ
た大きな規模で可能になるかどうかは、今年の
注
[1] ThinkQuest@JAPAN http://www.thinkquest.gr.jp
ThinkQuest の結果を見なければわからないが、
「上海チェイス∼恋する中国語∼」 http://contest.thin
限定的な範囲で可能かどうか検証するため、大学
kquest.jp/tqj2001/40589/
コラム
ウェブ・アーカイヴィングの現状【続】
小島 浩之
筆者は本会のメールマガジン第四号(2002.3.1
カイヴィングのサイトです。これらの中には、本誌
発行 http://www.jaet.gr.jp/mag/004.txt)のコラムで
で千田氏が言及している国立国会図書館の WRAP
“ウェブ・アーカイヴィングの現状”と題し、Web
のように Web ページを収集し保存してしまう(アー
サイトを文化資産とみなして保存しようという内外
カイヴ)ものもあれば、保存はしないが該当サイト
の動きを紹介しました。ここではその続編に少しば
へ的確にリンクしてくれる(ナビゲート)ものも
かりおつき合いいただきましょう。
あります。これらのサイトは、特定主題のもとに
この半年間で、図書館とくに大学図書館を中心
Web サイトのアーカイヴもしくはナビゲートを行
にウェブ・アーカイヴィングへの取り組みが顕著に
い、それぞれその主題に特化したメタデータを付し
なってきました。次の表は現在の主なウェブ・アー
検索の便をはかっている点で共通しています。中に
機関名
名称
国立国会図書 WRAP
収集対象
URL
立法機関、行 未公開
は Web ウェブ・アーカイヴィング
だけにとどまらず、広範囲な情報提
館
政機関など
国立情報学研 メタデータ・データベ 学術情報全般 今秋公開予定
供を行うサイトも見られます。今後
究所
ース
東京学芸大学 教育系電子情報ナビゲ 教育学関係
おいて、Web 情報のポータル・サイ
ーションシステム
東京工業大学 TDL
http://library.u-gaku
gei.ac.jp/navi.html
理工学系
http://tdl.libra.titech
はこういったサイトが各学問分野に
トとしての役割を担っていくと考え
られます。しかし全般的に見て、人
文科学がこの方面での取り組みで遅
.ac.jp/
附属図書館
東京大学附属 インターネット学術情 日本語を中心 http://resource.lib.u れているのは否めず残念でなりませ
図書館・情報 報インデックス
とした学術情 -tokyo.ac.jp/iri/url_s ん。本誌では情報の発信という特集
を組んでいますが、発信だけでなく
earch.cgi
基盤センター
報一般
図書館情報大 図書館情報学関係メタ 図書館情報学 http://avalon.ulis.ac その情報の保存にも、本腰を入れて
学
データ検索システム
.jp/UDL/
取り組むべき時が迫っているのです。
Journal of JAET vol.3 ● 115
公開講座・シンポジウムの報告
2002 年春、漢字文献情報処理研究会では『四庫全書』や『四部叢刊』のデジタ
ル化で知られる、北京書同文数字化技術有限公司より講師をお招きして、以下の公
開講座を開催した。
春期公開講座「漢字文献データベース最前線」
とき:2002 年 3 月 31 日
会場:慶應義塾大学三田キャンパス東館 G-SEC Lab
特別講師:朱岩(書同文公司 高級専員)朱江(書同文公司 市場部経理))
公開講座の講師をご担当頂いたお二人より、講演の内容や、今後の書同文の古典
文献デジタル化製品の開発などに関してご寄稿いただいた。
また、2002 年6月には日本中国語学会の要請を受けて、同学会主催の下記シン
ポジウムの開催に協力し、本会代表の二階堂、副代表の千田、幹事兼日本中国語
CAI 研究会会長の田邉が講演をおこなった。
「電脳中国語フォーラム」シンポジウム
とき:2002 年 6 月 30 日
会場:早稲田大学文学部
主催:日本中国語学会
協力:漢字文献情報処理研究会・日本中国語 CAI 研究会
このフォーラムの開催に際して中心的役割をおつとめになった遠藤光暁氏より、
フォーラムの内容に関するレポートをご寄稿いただいている。
以上、2 編のレポートを掲載して、漢字文献情報処理研究会の活動報告に代えさ
せていただく。
日本の学会との交流と協力の意義 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・朱 岩・朱 江 ・ 117
電脳中国語フォーラム報告 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・遠藤 光暁 ・・・・・ 123
116 ● 漢字文獻情報處理研究 第 3 号
日本の学会との交流と協力の意義
朱 岩・朱 江(しゅがん・しゅこう)
千田 大介 訳
実用化の成果である。
1. 書同文の理念
業績
当社の理念は、人類の文化を宣揚することにあ
当社の成果は主に二つの方面に分かれる。一つ
る。人とユーザーとを資本に、先進的な技術の提
は古典籍デジタル化の研究であり(ICP)、同時に
供を通じて、知を共有するとともにその価値を高
デジタル化ツールの研究・開発・改良につとめて
め、人びとがより多くの知識を学び、より多くの
いる(ASP)。具体的な業績は、次ページの表の
人びとが学者になり、学者がより多くの成果を創
通りである。
造することを手助けすることにある。
3. 技術的特色
2. 書同文(UniHan)の設立と業績
全製品への ISO/IEC 10646(Unicode)の採用
設立
北 京 書 同 文 数 字 化 技 術 有 限 公 司(UniHan
Digital Technology Co., Ltd.)の前身は、北京書
同文電脳技術開発有限公司曁『四庫全書』電子版
書 同 文 は 世 界 に さ き が け て ISO/IEC
10646/Unicode-CJK を、大型中国語出版物に応
用した。
目下採用している規格は具体的には以下の通り。
工程中心で、1997 年に設立された。さらにその
• ISO/IEC 10646-1:2000/Unicode 3.1
前身は、『漢語大詞典』や『辞源』の全文検索版
• CJK 統合漢字(20,902)+CJKA(拡張漢字)
を完成させた北京翔舟電脳技術有限公司にさかの
ぼり、1994 年の設立である。
(6,582)=27,484 文字
• 当社が規格によって認められたユーザー定
義エリア(EUDC)に定義した漢字 5,443
本社の発起人であり技術の根幹を担うのは、
文字。
ISO/IEC 10646(すなわち Unicode)CJK 統合漢
字の研究と制定とに中国代表として参与した張軸
以上、漢字の総計は 32,927 文字であり、
『四
材・朱岩・王暁明であり、張軸材は現在に至るま
庫全書』・『四部叢刊』
・『中華文化通史』などの古
で ISO の東アジア文字グループのチェアマンをつ
今の大規模文献の用字を充分にサポートしている。
とめている。
Unicode を採用することで、当社の製品は日中
Unicode の CJK 統合漢字を実用化することは
の漢字の数量と、簡体字・繁体字・異体字などの
我々発起人の使命であり、当社が世に問うた『四
種類が多いという問題をうまく解決し、また漢字
庫全書』・『四部叢刊』・『中華文化通史』などの古
とその他の言語・文字との共存の問題をも解決し
典籍をデジタル化した製品は、いずれも Unicode
た。
Journal of JAET vol.3 ● 117
イベント報告
分類
名称
完成 時期
規模
備考
Unicode
12 巻 37 万項目約 5
千万字(世界上最大の
中国語辞書)
1997
約 9 万 7 千項目 1 千 1 GBK(翔舟公司)
『辭源』CD-ROM 版
百余万漢字
『中華古漢語字典』CD-ROM 版 インターネ 1998-2001 15,400 項目 200 万字 Unicode
ット版
2001
4 万 7 千項目
検索可能な画像
『康熙字典』CD-ROM 版 イントラネット版
+Unicode
2002
400 万字
慶應義塾大学の委
『字源』(日本)
託。Unicode・OCR
『文淵閣四庫全書』原文及全文検索版
2000
3 万 6 千余冊 7 万 9 千 Unicode・OCR 委
CD-ROM/LAN/ インターネット
余巻 7 億字
託
Unicode グローバル版
『四部叢刊』原文及全文検索版
2001
3,134 冊 23 万頁 1 億 Unicode・OCR・
CD-ROM/LAN
字
XML
Unicode グローバル版
『漢語大詞典』インターネット /Unicode 版
2001
工
具
書
古
籍
『永楽大典』原文及全文検索版
大宋中興通俗演義
2002
30 万字
蔵外仏教文献
2002
30 万字
道蔵
2002
350 万字
2001
十典百志
Unicode・
UniHanDLer
Unicode・
UniHanDLer
Unicode・OCR。台
湾からの委託
Unicode。日本から
の委託
Unicode。日本から
の委託
Unicode。日本から
の委託
Unicode XML
『人民日報』1998 全文検索版
Unicode グローバル版
1999
2,700 万字
Unicode
『科技日報』1998、1999 全文検索版
Unicode グローバル版
2000
4,000 万字
Unicode XML
孫中山デジタル図書館システムソフト
情報リソースのデジタル化 / 統合イ
ンデックスの作成 /e-Cataloger/ 全文
検索、関連検索、特徴検索 / 分散型
システム構成
2001
中国大陸、台湾、香港、Unicode XML
マカオの 12 の大学、 Dublin Core SOAP
研究機関
SQ server
書同文―数碼翰林 UniHanDLer
(デジタル図書館汎用ソフト)
OCR/e-Cataloger/Dublin Core/XML/
全文検索技術 / 分散型システム構成
2002
企業・事業・教育・科 Unicode XML
学技術機関 各種図書館 Dublin Core SOAP
汎用
SQ server
中国歴代石刻史料彙編
地方誌(台湾、福建)
現代叢書
『中華文化通志』全文検索版 CD-ROM/ イ
ンターネット Unicode グローバル版
逐次刊行物
デジタル化ツール
118 ● 漢字文獻情報處理研究 第 3 号
2002
390 巻 約 800 万字
2002
書同文版権 3 千万字
2001-2002 750 万字
日本の学会との交流と協力の意義(朱岩・朱江)
「CJK 漢字属性データベース」に基づく漢字
国歴代石刻史料彙編』および現代文献の全文デジ
タル化を通じて、成熟し実用的な各種版本と字体
(手書き文字、横書き・縦書きを含む)の OCR 技
情報処理
術の開発を完成させた。それには、文字画像の自
当社は自己開発した「CJK 漢字属性データベー
動区切り、文字認識・変換技術、およびそれと組
ス」を有している。漢字属性情報に含まれるのは、
み合わされた文字列対比校正、横断式の同類文字
読音(日本語の読音を含む)
・声調・部首・総画数・
抽出校正、数理統計による充填箇所表示校正など
部首を除いた画数・漢字の第一画から最終画まで
の技術が含まれる。この技術は、十億文字規模の
の筆形コード・部首を除く第一画から最終画まで
大規模プロジェクトの実践の中で、効率面および
の筆形コード・関連する異体字の文字コード・当
認識結果の品質面(錯誤率は一万分の一以下)を
該文字の Unicode 番号と日中韓などのローカル
問わず、高い水準に達している。
(図 2)
コード番号・当該文字の『康熙辞典』・諸橋『大
漢和』・『大字源』における頁番号と掲載箇所など
SD/SB(Single Data/Single Binary) 技 術 を
である。これらの情報は、いずれも文字学の専門
始めて中国語電子出版物に応用
家の確認を経ている。
一つのデータ、一つのソフトウエアを、さまざ
この漢字属性データベースによって、書同文の
ま な 言 語 の Windows
情報製品は、日中の漢字・簡体字・繁体字・異体
プラットホームで利用
字などの関連検索機能、一般の漢字の読音や部首・
することを可能にし、
筆画しかわからないユーザーが CJK 漢字を入力
グローバル版としての
し検索できる機能、そして文字・発音の変換、簡
特性を実現した。
体字・繁体字変換、漢字の並べ替えなどの機能を
実現し、漢字の文化的特色を体現した。(図 1)
OCR と補助的手動校正ソフトを組み合わせ
XML の採用
全ての対象デー
タ( フ ル テ キ ス ト )
に、XML(eXtensible
た紙媒体文献デジタル化技術
Markup Language)タ
書 同 文
は世界で
グを採用し、構造化を
実現した。
始 め て、
O C R
技
術を大規
模データ
ベースプ
ロジェク
トに応用し、
実用化に成
功した。当
社は『四庫
全書』・『四
部 叢 刊 』・
地方誌・
『中
Journal of JAET vol.3 ● 119
イベント報告
るツールを添付する。
メタデータの定義は Dublin Core に基づ
き、目録の項目を選定し、自動で XML タ
グを付加することができる。また、データ
の特性に基づいて校正・チェックすること
ができる。MARC フォーマットのデータ
との互換性があり、Dublin Core への自動変換を
図2
実現している。対象データ(デジタル化された全
⇦⇧ 中国語
文データ)とリンクすることができ、メタデータ
⇩ 日本語
(目録)と対象データの加工を一層深化させた。
既存の電子テキストデータに対して、目録項目
を抽出し、目録とリンクさせることができる。小
量の文献については、タイピングによる入
力も可能。
(図 3)
機能豊富な検索機能
伝統的な篇名・作者・テーマ・分類など
の項目検索のほかに、全文検索機能も備え
ている。全文検索では、一字検索・単語検
索のほか、複数検索語を組み合わせたブー
ル検索(and、or、not)が可能である。ま
た、検索語間の有限範囲検索が実現されて
おり、複数検索語の間の上限文字数を指定
4. メタデータのデジタル化
やサマリーに出現する用例に限定したりすること
で、読者の求める内容に正確にヒットすることが
e-Cataloger(电子编目员)
図3
したり、あるいは複数検索語が同時に一つの段落
できる。
新開発の
目録作成技
術 で あ り、
知識の関連づけを多用に実現
知識の分類体系と、検索対象文献とを動的にリ
図書目録作
ンクさせ、読者はいつでも自分の興味のある文献
成の作業効
を閲覧することができる(図 4)
。
率を大きく
知識ツールと本文とを関連づけ、読者がいつで
向 上 さ せ る。
も文中の漢
紙媒体の情
字や単語
報 に 対 し て、
に つ い て、
自動区切り・
辞書や工
文字認識と
具書の助
変換を行う
けをうけ
とともに、校
て、 そ の
正を補助す
含義を理
120 ● 漢字文獻情報處理研究 第 3 号
図4
日本の学会との交流と協力の意義(朱岩・朱江)
解 で き
る よ う
に 手 助
け す る
(図 5)。
知 識
ポ イ ン
ト と 関
連する文
献(デー
タ ベ ー
ス)とを
関連づけ
ることで、
読者が総
図6
合的に関
図5
連知識を検索できるよう手助けする(図 6)。
テキストページと原文画像ページとを関連づけ
により、読者が原書・原稿(たとえば版本・手稿
本)を研究する上での利便性を高める。
同義語の関連づけにより、検索の再現率(recall)
を向上させる(図 7)。
日中の漢字、簡体字・繁体字・異体字の関連づ
けにより、世界各地のさまざまな漢字を利用して
いる読者が検索する上での利便性を高める(図 8)。
5. ユーザーに基づく三種のバー
ジョン∼我的 DL、我们的 DL、Internet DL
■
我的 DL(My Digital Library )
図7
研究者個人向けのデジタル図書館ルール。
個人がすでに有している情報リソースを簡便に
デジタル形式で蓄積し、個人が必要としている情
我们的 DL(Our Digital Library)
報を簡便に獲得することができる。情報は、自分
イントラネット上に構築する DL である。大学・
の DL の中から、あるいはインターネット上から
企業・組織などのユーザーに、情報リソースを共
獲得することができ、研究や新たな研究成果の
同構築し共有する機能を提供する。
執筆に利用することができる。外部に対してはセ
キュリティーが確保されるが、必要に応じて外部
に情報発信することもできる。
Internet DL
インターネット環境に構築する DL で、多くの
Journal of JAET vol.3 ● 121
イベント報告
どを提供する。
日本の研究者・研究組織や出版社と提携する用
意があり、その制作コストは日本国内よりも低廉
である。
デジタル化ツールの提供
Unicode CJK 統合漢字に対応した OCR 全文デ
ジタル化ソフトと、e-Cataloger(メタデータ制作
ソフト)がある。
日本の研究者に向けた My Library デジタル図
書館ソフトウエアプラットホームは、日本の研究
者が個人のデジタル図書館を構築するのを手助け
する。自らが発表した著作を OCR ツールによっ
てデジタル化加工してデータベースに蓄積したり、
図8
自らの興味とニーズに基づいて、インターネット
組織の成員がリソースを共同構築し共有するため
上で資料を獲得してデータベースに取り込んだり
の DL である。システムは分散型であるが、マル
することができる。新たな論文を執筆する場合は、
チプラットホームのシームレスなリンクを実現し
随時検索・抽出し、新たな作品を書くことができ
ている。
る。ユーザーインターフェイスと文字入力はいず
れも日本語化されている。
6. 日本の学術界向けのサービス

と提携
電子書籍の提供。
『四部叢刊』・『中国歴代石刻資料彙編』などを
提供する。
電子書籍制作請負
長 期間にわたるサイトの制作・構築と維持
の受託(インターネット環境)
情報コンテンツの加工・データベースの構築・
更新を含めて、サイトの構築と維持・運営を請け
負う。そのコストは日本国内よりもはるかに低廉
である。

日本のソフトハウスとの提携
中国語・日本語を問わず、Unicode 文字プラッ
書同文の上述の占有技術を提供、あるいは譲渡
トホームを採用し、XML 自動タグ付け・索引語
したり、日本の企業とソフトウエア製品を共同開
抽出・全文検索エンジンの配置・画面デザインな
発したりすることができる。
122 ● 漢字文獻情報處理研究 第 3 号
電脳中国語フォーラム報告
遠藤 光暁(えんどう みつあき)
セッションⅠ
開催に至ったいきさつ
セ ッ シ ョ ン I は「 漢 字 文 献 情 報 処 理 の 基 礎 」
日本中国語学会の元理事長の相原茂先生が
が テ ー マ で、 ま ず 二 階 堂 善 弘 氏 よ り Windows
2001 年 7 月に中国語学会の中堅・若手会員 10
2000 や XP になって数万の漢字が混在使用可能
名を招集し、中国語教育と中国語研究の新たな
になったことやインターネットや CD-ROM で膨
分野を振興するための諮問委員会である「中国
大な中国語データベース資源が供給されているこ
語ソフトアカデミズム検討委員会」を開いた。そ
とを実演をまじえつつレクチャーがあった。既に
の場では中国語教育を振興するためにはどのよう
『電脳中国学』『同・II』のような懇切な著作が出
な活動が考えられるかに議論が集中したが、こと
てはいるのだが、中国語学会会員にはその存在が
教育に関しては理論的なものよりも、実践的な活
知られていなかったり、またやはりその場でフル
動の方がいま特に必要とされており、授業参観を
カラーのホームページを見たり直接話を聞くこと
したりジャーナルを刊行したらどうか、というこ
によって聴衆にはかなりのインパクトがあったよ
とになった。ただ、その頃すでに全国中国語教育
うであった。
協議会の中国語教育学会への移行の動きがあった
続いて千田大介氏より「中国学情報化の現状
ので、それとのバッティングを避けるために恒常
と課題」と題し、コンピュータの研究・教育に対
的な活動とはせず、一回性の報告書として『日本
する応用の限界の方をむしろ強調する話があった
の中国語教育――その現状と課題――』(好文出
(http://wagang.econ.hc.keio.ac.jp/dc.pdf)
。つまり、
版、2002 年 3 月)を刊行し、またパソコン利用
コンピュータはツールとしての働きはするが、機
の中国語教育と研究をテーマとした「電脳中国語
械にできることは人間の業績にはならない、とい
フォーラム」を開催する旨答申を出し、そしてそ
うのである。また、現在流布する電子テキストの
れを実行に移したのが 2002 年 6 月 27 日(木)
転載関係を図とともに詳述した文もレジュメに掲
から7月1日(月)にかけての5日間であった。
載され、いまだ一般の認識が甘い著作権に対して
注意を喚起した。
また、クリフォード・ストール
『コ
シンポジウムの概要
ンピュータが子供をダメにする』(草思社、2001
年)の「遠隔学習とは、三流の教育を受ける(享
一番のメインは早稲田大学文学部で開催された
受する)卓越した手段だ」という言葉を引き、ア
6 月 30 日(日)のシンポジウムであり、日本中
メリカではディスカッションを主とした教育をし
国語 CAI 研究会と漢字文献情報処理研究会の協
ているから、というコメントをつけられたのが印
力を得てまる1日間研究発表と質疑応答が行われ、
象的であった。千田氏の話はたいへん刺激的であ
120 名を超える全国各地からの参会者があった。
り、
共感するところ、
啓発されるところが多かった。
Journal of JAET vol.3 ● 123
イベント報告
セッションⅡ
師範大学・台湾師範大学・高麗大学と学生がビデ
オチャットをリアルタイムでできるようにしてい
セッション II は「パソコンの中国語教育への
る。チャットだけなら普通のインターネット環境
応用」がテーマで、まず田邉鉄氏より「パソコ
でも出来るが、動画撮影・転送システムを協定校
ンで効果の上がる授業」と題する楽しい話があっ
に設置し、かつ参加学生が自由にアポイントがと
た。新開発の「声調判定ソフト付きケータイ」で
れる態勢を敷いたのは極めてアンビシャスな戦略
正しい声調で発音すると着メロが鳴ります、とい
である。後で触れる授業参観でもその実施状況を
う「実演」があり、みんなまんまとひっかかって
私は直接目の当たりにしたが、学生の学習動機を
大笑いになったが、その寓意するところは、学生
大幅に強化し、かつ学習内容の応用の場を恒常的
たちはバーチャルな「リアリティ」よりも「リア
に提供している点で画期的なものであると感銘を
ル」自体を求めており、本質的に機械でやること
受けた。なお、2002 年 12 月 20 日− 21 日には
が必要なことを見極める必要がある、ということ
早稲田大学で中国語遠隔教育に関する国際シンポ
なのだろう。田邉氏もパソコンによる教育はさん
ジウムが開催される予定で、注目される(http://
ざんやっておられるはずで、千田氏もそうだった
www.waseda.ac.jp/projects/chinese/ccdl/ を参照)
。
が、そういう実績を積んでいる人の方がむしろ(安
続いて楊達氏より「初級中国語教育における
直な)機械化に懐疑的であるのは面白いと思う。
CALL の可能性」と題し、同氏の開発になる中国
以上が午前中の発表であったが、内容もむろん
語学習ソフト Dig(
『聞こえる中国語』南雲堂に
のことながら、いずれも一目瞭然で美しいパソコ
準拠)の概要説明があった。このソフトは私も製
ン画面を用意し、ユーモアあふれる話術で思わず
品版を試してみる機会があったが、大量の聞き取
引き込まれ、時間通りにぴったり終わるという、
り練習をさせるようになっており、ここまで徹底
模範的なプレゼンテーションであったことも注目
的に聞くことを重視し膨大な量のドリルを課す教
された。
材は未だかつてなかったように思う。そして、耳
特別講演
を鍛えることにより発音もよくなったり、またこ
れにより教育している成城大学の学生の中検の合
午後はまずソフトアカデミズム委員会の生みの
格率が大変高い、という実践経験が紹介された。
親である相原茂元理事長より「テレビ中国語会話
また、湯山トミ子氏は「インターネットによる
収録余話」と題する特別講演があった。スタジオ
中国語音声教育システム―中国語音声教育デー
にタクシーを入れて撮影したり、和菓子をネタに
タベース―」と題し、中国のプロアナウンサー
した駄洒落を考えることの苦労などなど、普段は
の音声を収録した語彙数 8 万余語、音声データ
番組として完成された形しか見る機会のないテレ
10 万個のデータベースについて解説された。市
ビの楽屋裏の話を軽妙な語り口でされて、面白く
販の電子辞書でも音声がついているものがあるけ
ためになる話であった。
れども、これは語数が極めて多く、また様々な属
教育セッション
引き続き教育のセッションがあり、砂岡和子
氏が「中国・台湾・韓国協定校とのビジュアル
チャットの授業導入」と題して発表された。早
稲田大学では全学的に e-learning に取り組んでお
性による検索ができ、模範音声とユーザ音声との
波形(高低、強弱)比較表示ができるようになっ
ており、インターネット上で無料公開されている
(http://www.seikei.ac.jp/gjc/chinese.html)。
セッションⅢ
り、世界各地の協定校と ISDN 回線で結び、英語
セッション III は「パソコンの中国語研究への
の方が先行してビデオチャットやテレビ会議を
応用」がテーマで、まず佐藤進氏より「紙本テキ
授業に取り入れているが、中国語部会では首都
ストと電子テキスト――中国語学研究のために―
124 ● 漢字文獻情報處理研究 第 3 号
電脳中国語フォーラム報告(遠藤)
―」と題して、近年電子テキスト化された四庫全
書と四部叢刊についてそれらが文献学的にはかな
1) 個別文献のみならず大量の資料から瞬時
り癖のある性質のものであり、その電子テキスト
に用例が集められることから、よりマクロ
版を利用するに際してもそれをわきまえておくべ
な視点で研究ができること
きことを揚雄『方言』の具体例を挙げつつ論じら
れた。
続いて各論に入り、まず遠藤雅裕氏が現代語
の例について「「拿」の文法化―処置式的用法
を中心に―および電子テキストの処理と分析の
2) 検索する語彙や文型をフレキシブルに設
定でき、文脈を確認しながら網羅的な検索
を行うことができること
3) 検索の精度が高く方針転換にも臨機応変
に対応できること
やり方について」と題して、「拿」の用例を検討
するに当って使用した電子テキストや検索ソフト
などを挙げ、問題点としては、
(多言語処理に対応している EmEditor)および特
に検索方法について詳細に報告した。普通、現代
1) 中国語についても KWIC 表示など英語では
語の語彙・語法の研究に際してコーパスを使う場
常用の形式の検索が簡単にできるコンコー
合、所拠電子テキストの出所は示されるものの、
ダンサーが欲しい
どのようにして検索を行ったかについては触れら
れることがないが、そのプロセスを明示的に説明
したものである。
次に松江崇氏が文語の例について「コーパスに
よる上中古間語法史研究の試み―代詞目的語倒
置現象とその消失過程を例として―」と題し、
『論語』『史記』『世説新語』(中央研究院漢籍電
子文献、東坡資料庫)、『中本起経』『阿闍世王経』
『仏説義足経』『六度集経』(中華電子仏典協会
CBETA)などのコーパスを使用し、疑問代詞前置
2) 品詞や構文情報のタグつきのコーパスが欲
しい
3) 著作権・テキストクリティークの面をとも
にクリヤーした信頼性の高い標準的なコー
パスが欲しい
4) 手作業でカード取りをする場合はその過程
でその文献もいちおう斜め読みすることに
なるが、コーパスを検索した結果だけ扱う
と当該文献の全体像が分からず分類ミスを
する可能性がある
現象が後漢末や南北朝期まで部分的に見られるの
に対して、否定代詞前置現象は先秦末には生産性
などを挙げられた。そして現在中央研究院で進行
を失っていたことを示した。それぞれの現象を検
中の「古漢語語料庫」の近代漢語の部分が手薄で
索する例が正規表現を用いた grep 検索や Excel
あることを指摘し、太田辰夫『中国歴代口語文』
、
のオートフィルタによる抽出のサンプルともなっ
劉堅『近代漢語読本』
『近代漢語語法資料彙編(唐
、
ていた。
五代巻、宋代巻、元代明代巻)』などに沿って専
最後に竹越孝氏が白話の例について「コーパス
門家が協力して厳密な校定を施した上で近代漢語
を用いた近代漢語語法の研究―“也”と“了”
の標準的なコーパスを構築することが望まれる、
の変遷を例として―」と題して、
『六祖壇経』
『朱
とされた。
子語類』『大唐三蔵取経詩話』『金瓶梅』、(以下は
竹越氏入力になるコーパスを使用)
『孝経直解』
『旧
本老乞大』『翻訳老乞大』『老乞大新釈』『重刊老
乞大』のコーパスをもとに副詞“亦”、副詞“也”、
中国語コーパス言語学実技講座
6 月 29 日にはまる一日をかけて立教大学を会
語気助詞“也”、句末の“了”、動相補語“完”の
場とし沈国威氏を講師に招いて中国語コーパス言
通時的交代の消長を跡付け、更にコーパスの利点
語学実技講座を開催し、インターネットからの電
と問題点について考察を進め、利点として、
子テキストの取得・コーパス用データベースへの
Journal of JAET vol.3 ● 125
イベント報告
加工法・正規表現を使ったエディタによる検索の
じられるものであった。ところが、この後に更に
実技指導を中国語文法・語彙研究の立場から行っ
驚くべき授業を目睹する機会があった。それは、
た。全国各地の学生・院生から語法研究のベテラ
砂岡先生の指導の下で一グループ5人程度につき
ンに至るまで 30 名ほどが参加し、マルチメディ
一人ずつ中国人 TA がついて中国語だけで会話実
ア教室で一人一台ずつパソコンを使いながら実習
習を行っているのである。これは全学の希望者を
を行った。Windows と Macintosh の両方を使っ
選抜した上でチュートリアルとして直接教授法に
たため、一部に混乱がみられたが、語法・語彙
よる口語の特訓を行っているのだが、すごい熱気
研究で一番初めに必要とされる部分の手ほどき
に参観者一同深く感銘を受けた。そして、確かに
があったので、今後沈国威『電脳による中国語研
学生達は猛烈な勢いで学力を伸ばしているのだそ
究のススメ』(白帝社、現在 CD-ROM を改訂した
うである。
バージョンが入手可)も参考にしながらコーパス
6 月 28 日は早稲田大学文学部で楊達氏の Dig
を使った研究のスタートが切れるようになったこ
による授業とそれと平行してやはり TV 会議シス
とと思われる。
テムを使って台湾師範大学と繋いで、一クラスを
数グループに分けて、グループ毎に順次 TV 会議
授業参観
早稲田大学
ルームに行って会話テストが行われた。Dig によ
る授業は学生たちはヘッドホンをつけて静かに一
人ひとりでひたすらパソコン相手に練習をするの
であるが、この授業時間内には発音をする練習時
6 月 27 日には早稲田大学政治経済学部・教育
間はあまりないにもかかわらず、会話テストでは
学部で砂岡和子先生指導の中国・韓国・台湾との
かなりの自発的な口語応答能力がついているよう
ビデオチャット授業と台湾師範大学・鄧守信教授
に見受けられた。また、楊氏は来学期にはテスト
との「漢語測験」をテーマとする TV 会議があっ
のかわりにこのようにして分割した小グループに
た。ビデオチャット授業とは、時間帯が決まって
対して口語訓練を順番に行う、と言っておられ、
いて、事前に予約をした学生が学内の数箇所にあ
このように授業過程の全体が全自動になっている
るパソコン実習室で北京・台北・ソウルの相手と
と基本的な部分は自習して、自分のグループの時
リアルタイムでビデオ画像つきで短い文を打ち込
間になったら生身の教師に人間にしかできないコ
んで会話のようにやりとりするものである。私も
ミュニカティブな訓練を受ける、ということが可
試しに参加してみたものの、チャットなるもの自
能になるわけで、注目される試みであると思った。
体はじめてで、話題の展開が速く、常にテンポが
遅れてしまうので冷や汗をかいた。しかし、学生
慶應義塾大学 SFC
は時折辞書を引きながら突っ込みを入れたりして
7 月 1 日は慶應義塾大学湘南藤沢キャンパス
チャットを楽しんでいるようであった。砂岡先生
(SFC)でまず SFC の外国語教育の概況説明があ
の発表によると学生に対するアンケート結果では、
り、その後インテンシブ少人数コースと普通コー
何に役立つかという項目では「異文化理解」が一
スの授業を参観した。少人数コースの方は1クラ
位だと言うけれども、このように不断にコミュニ
ス8名くらいで重松淳先生が直接教授法で授業を
ケーションを持つ機会があるならば平常の授業に
行っておられた。日本の大学でこのような少人数
も大いに身が入るに違いない。また、TV 会議は
で直接教授法で中国語教育が現に行われているの
大きな画面の動画で音声もかなりクリアーで、こ
を目の当たりにして非常に大きな感銘を受けた。
のシステムを動かすのには ISDN 回線を何十本も
本来はこれがインターナショナル・スタンダード
束ねて使い、猛烈なコストがかかっているそうで、
の外国語教育法であり、日本の普通の大学のよう
早稲田の未来型教育に賭ける並々ならぬ意欲が感
に 3-40 人以上の大クラスで日本語で文法訳読法
126 ● 漢字文獻情報處理研究 第 3 号
電脳中国語フォーラム報告(遠藤)
で週2コマ程度の学習時間で教育してもおママご
と程度にしかならないのは理の当然なのだが、こ
むすび
こは大学であるにもかかわらず、プロフェッショ
今回のフォーラムはパイロットケースというこ
ナル・ユースを目指すシビアな大人の集まる外国
とで試みに行ったもので、シンポジウムにしても
語学校なみのプラクティカルな教育が行われてい
まだまだいくらも発表していただくべき方はおら
た。普通コースはやはり直接教授法であったがク
れるし、講習会などももっと様々のテーマでいろ
ラスサイズが 30 名くらいで、一人ひとりの学生
いろな長さのものを開催していってよいだろうし、
にあたる頻度が少なくなるのはやむを得ないとこ
授業参観も各校もちまわりで定例で行ってもよい
ろだろう。更に次の時間はインテンシブコースを
と思う。また今回の具体的な副産物として、千田
終え、短期留学から帰ってきたレベルの学生を対
大介氏が中国語学関係の発表に接してテキスト
象にした「コンテンツ・モジュラー」なる授業が
処理の技法にまだ隔絶があることを痛感されて電
あり、田島英一氏がすべて中国語のみで講義をし
光石火の如く「Word De Grep! マクロ」を作って
ておられた。他に中国医学など様々な内容の授業
公 開 さ れ た (http://wagang.econ.hc.keio.ac.jp/pc/
が用意されており、すべて中国語のみで講義が行
faq/WordDeGrep.dot)。これは、より高度の検索・
われているとのことであった。
抽出が可能な grep 風の文書処理を Word 上で初
授業参観はいずれも圧巻で、極めて刺激的で得
心者にも手軽に出来るようにしたものである。
るところ大であった。参加者がやや少なかったの
最後に、この企画を実行するプロセスで実に多
はもったいないことだったが、いずれも問題意識
くの人にお世話になり、そのようにして形成され
が尖鋭なアンビシャスな先生方ばかりで参観後の
た人的ネットワークというのも貴重である。以後
討論や雑談などでも啓発され、今後も授業参観は
もこれを機縁として一層活発な研究活動が展開さ
パソコン利用の授業に限らず積極的にやって然る
れることを願っている。
べきだ、と強く感じた。
Journal of JAET vol.3 ● 127
128 ● 漢字文獻情報處理研究 第 3 号
2001~2002
ソフトウエア
レビュー
本レビューの内容は大きく二つに分けられる。一つは、日本で一般
に使われているソフトウエアの多言語対応情況や、人文学研究への応
用といった視点からの批評であり、もう一つは中国、台湾など他の漢
字圏のソフトウエア製品の動向およびその批評である。本レビューの
執筆に当たっては、本会の主要な活動である掲示板での情報交換に拠
る部分が大きい。しかしそれだけではなく、各執筆者がそれぞれにソ
フトウエアの検証作業をすすめ、時には共同討論まで行った末の成果
である。
また文字コード問題も本レビューで扱われる。これは Unicode など
の文字コード問題が漢字文献を扱うソフトウエア、さらに言えばパソ
コンにおける根本問題だからである。特に今号では CHISE などのプロ
ジェクトにも紙幅を割いてあるので、コンピュータと漢字の問題に興
味をお持ちの方は、是非ともご一読頂きたい。
Contents
OS
Linux ..................................... 二階堂善弘 130 超漢字 ................................... 二階堂善弘 131
Mac OS X v10.1.4 および v10.2(Jaguar)................................................ 平林 宣和 132
ワープロと
ビジネスソフト
MS Office............................. 千田 大介 134 一太郎 12 & ATOK15 .. 山田 崇仁 135
Adobe InDesign 2.0 ..... 千田 大介 136
IME と中文ツール Chinese Writer ...............二階堂善弘 138 翻訳ソフト ......................... 千田 大介 139
文字コードと
フォント
Unicode 3.2 ....................... 師 茂樹 141 CHISE プロジェクト ..... 師 茂樹 143
ネットワーク
WWW ブラウザ .............. 師 茂樹 151
その他
EmEditor ............................. 山田 崇仁 153 Perl 5.8 ................................ 師 茂樹 154
DynaFont ............................ 千田 大介 147 今昔文字鏡 ......................... 山田 崇仁 150
中国のソフトウエア動向 ........................................................................................ 千田 大介 158
Journal of JAET vol.3 ● 129
ソフトウエア レビュー
❖ OS
Linux
二階堂 善弘
ようにしておけば、インストール直後、特に調整をし
❏ Linux の動向
なくても、ブラウザで中国語のページが見られるよう
になっている。
Linux は、サーバ市場ではユーザを増やし、着実に
また UTF-8 へも柔軟に対応しているようで、UTF-8
浸透していると考えられる。しかし、デスクトップ市
を使った多漢字ページなども、Mozilla で閲覧が可能
場においては、かつての「Windows に取って代わる
となっている。
のでは」という過大な期待感も薄れ、目立った動きは
少なくなっているように思える。
ただ、それでも各ディストリビューションのバー
TurboLinux Workstation 8 は、Sun Microsystems
の StarOffice(日本では StarSuite の名で発売)がバン
ドルされていることが大きな特徴であろう。
ジョンアップは盛んに行われ、いずれも機能の強化が
StarOffice は Sun が Microsoft Office の対抗馬とし
図られている。より着実な発展を遂げているとみなす
て開発に力を入れてきた統合ソフトである。むろん、
べきであろう。
性能的には MS Office には劣る面がある。ただ、MS
特に GNOME や KDE などのデスクトップ環境は、
Office のファイル形式のソフトをそのまま利用できる
ますます Unicode による多言語化を進めており、多
ようにするなど、「代替可能」であることを売りにし
くのアプリケーションソフトで複数の言語を扱うこと
ており、かなり「使える」ソフトとなっている。多言
ができる。また Mozilla などのブラウザが多言語に柔
語の機能もかなり整っている。
軟に対応していることは大きい。
特に Linux 上では、これまで商業用途に耐えうる
Red Hat や Mandrake などのディストリビューショ
統合ソフトは少なかったため、デスクトップ OS とし
ンでも多言語化は強化されているが、特にアジア言語
ての強みが増すものと思われる。しかし、現実には
を重視しているのが TurboLinux である。
Windows からの乗り換え、というほどの動きにはな
TurboLinux Workstation 8
最新版である TurboLinux Workstation 8 は、シン
らないであろう。
減少する?中国独自ディストリビューション
グルバイナリで英語・日本語・韓国語・簡体字中国
前の第 2 号では、紅旗 Linux や藍点 Linux など、中
語・繁体字中国語に対応しており、インストール時に
国大陸で数多くの独自のディストリビューションが発
各言語を設定できるよう
売されていることを紹介した。
になっている。中国語に
しかし、昨今この動きは鈍いようである。中国のソ
ついては、GB 18030 へ
フト店などでは、これらのソフトを目にすることが少
の対応も謳われている。
なくなった。ただ、Linux が減っているわけではなく、
た だ、 イ ン ス ト ー ル す
代わりに目立つのが Red Hat の中国版である。
る場合、中国語や韓国語
もっとも、紅旗 Linux など、サーバ市場では順調に
のフォントやサポートの
採用されており、また国の機関などでデスクトップと
チェックボックスをオン
してかなり採用されているようだ。だが、大多数の一
にする必要がある。この
般ユーザに使用される OS は依然として Windows 系
130 ● 漢字文獻情報處理研究 第 3 号
Linux・超漢字
OS
が圧倒的であり、当分この動きは変わらないと思われ
る。
超漢字
二階堂 善弘
Mozilla でも同様であり、ようやく多くのネット上の
❏ 超漢字 4
漢字文献の資源が利用できるようになった。もちろん、
Unicode の拡張漢字などには対応してはいない。
TRON 仕様の OS である超漢字の最新バージョンは
また新たに加わった機能として、「異形字ゆらぎ検
超漢字 4 である。漢字文献を扱うことの多い筆者と
索」がある。これは、一つの漢字を検索すれば、他の
しては、はっきり言ってこの「超漢字」という名は
異体字を一緒に検索してくれるもので、日本の新字体
OS としてはどうかと思う。いかにも安っぽいイメー
と旧字体のほか、中国の簡体字なども一緒に検索して
ジがある。次期バージョンでは、別の名称に変更して
くれる機能を持っている。
はどうだろうか。
さて、超漢字 3 から 4 への変化は、あまり注意さ
れていないようだが、かなり大きなものがある。
多漢字よりも
このように機能強化がなされた超漢字 4 だが、意
まず、対応機器が格段に増えたことである。これま
外に超漢字ユーザの中でもアップグレードの動きは鈍
でイーサネットカードひとつをとっても、超漢字が使
かった。筆者などはネットで Big5 が使えるようになっ
える機器は非常に限定されていた。しかし、4 では大
ただけで大いにアップグレードの価値を認めたのに、
きく増加している。また USB などへの対応も行われ
である。
ており、対応機器の選択幅は広がった。
どうも、超漢字についてはそのニーズとのミスマッ
ブラウザとして、Mozilla が使えるようになったこ
チが大きいのではないだろうか。本来、超漢字は人文
とも大きい。標準ブラウザではフレームページの閲覧
系の研究者などがもっと重視してもよい OS であると
に難があったが、これを使えば問題はない。ただ、動
考える。
作が異様に重いのが難点である。
名前からして多漢字が使える OS であることを示
また、『広辞苑』や『康煕字典』
、それに超漢字トン
しているが、実のところ、数万の漢字を使いこなす
パ文字パックなどの文字関連のソフトウェアが充実し
ユーザは少ない。またいまや拡張漢字に対応した
てきたことも大きい。
それに、超漢字 4 のメニューやパネ
ルなどを、英語やエスペラント語に切り
替える機能を持った「対応キット」が提
供されるようになった。国際化の動きと
して望ましいと考えられる。
漢字関連の機能アップ
しかし、最も注目すべきはやはり漢字
処理関連の機能強化であろう。
ブラウザは、標準ブラウザの性能が
大幅にアップし、これまで閲覧できな
か っ た Big5 ペ ー ジ も 見 ら れ る よ う に
なった。また、対応を謳ってはいないが、
UTF-8 の漢字も閲覧可能である。これは、
Journal of JAET vol.3 ● 131
ソフトウエア レビュー
Windows の方が、実際に使用できる漢字の数は多い。
いたずらに多漢字のみを強調しても、文系ユーザに訴
えるものは少ないのではないか。
うな方向にはならなかったはずである。
文系のユーザに使用されることを望むなら、もっと
文字処理の領域を、例えばアジア言語の処理について
超漢字のアプリケーションソフトの少なさなどもあ
Windows を上回るものを目指すなど、もっと別の方
るが、筆者の周りでも購入した後に使い続けている人
向があるはずである。このような文字処理に協力する
は少ない。これはやはり、肝心の文字処理能力に欠け
文系研究者は多いはずである。ただ、多くは Unix 系
ているものがあるからではないだろうか。
における開発を行っていると考えられる。今後はそう
実のところ、漢字処理だけを見ても、GT 明朝を採
用するなど、首をかしげたくなるような動きが多い。
いった研究者と連携をとり、文字処理機能の強化を図
るべきではないだろうか。
漢字処理に詳しい者が企画に加わっていたら、このよ
Mac OS X v10.1.4 および v10.2(Jaguar)
平林 宣和
昨年の発売当初は中国語が使えず、これから一体ど
ではなく、一気に入力したピンインをほぼ単語レベル
うなるのだ、とユーザーをあわてさせた Mac OS X だ
に分割し(「自动分词」という)、頭から順に一つ一つ
が、10.1.3 以降は中国語の利用が可能となった。筆
変換していくという形を取る。また「rbr →日本人」
者の手元には、10.1.4 および今夏発売されたばかり
など省略されたピンイン「简拼」も用いることができ、
の 10.2(Jaguar)の二つのバージョンがあるが、今
以前からおなじみの連想機能も健在だ。かつての単漢
回はこれらのバージョンの中国語使用環境について簡
字変換よりは多少ましではあるが、一般の IME に比
単に紹介をしたいと思う。
べて少々面倒な印象は免れない。また「繁體中文」に
ついては、今も昔ながらの単漢字変換となっている。
❏
10.1.4
フォントに関しては、GB が Beijing、FangSong、Hei、
Kai、Song の五つ、BIG-5 については Apple LiGothic
10.1.4 については、とりあえず OS 9 以前と比較し
Medium、Apple LiSong Light、Biau Kai、Taipei が 付
ながら、セットアップと入力方法を眺めてみたい。ま
属する。システムレベルで Unicode をサポートした
ず中国語のセットアップだが、メニューバーの言語切
とはいえ、機能的には総じて OS 9 時代と大きな変化
り替えプルダウンメニューの一番下、
「メニューをカ
は無いというのが実感である。
スタマイズ」を選択し、
「地域情報」の「言語」ウィ
な お、OS 8 時 代 か ら 付 属 し て い た Chinese Text
ンドウを開く。このウィンドウの上半分に使用可能
Converter も 健 在 で あ り、 こ れ に よ っ て UTF-7、
言語の一覧があり、その右側にある「編集」ボタンを
UTF-8 を含む各コード間のファイル変換が可能になっ
押すと言語リスト一覧が開かれ、この選択肢の中から
使用したい言語にチェックマークを入れることになる
(中国語の場合は
「简体中文
(GB)
」
と
「繁體中文
(BIG-5)
」
の二種類)。これらをチェックすると、選択された言
語が使用可能言語の一覧に組み込まれる、という案配
である。この一連の作業によって、言語切り替えプル
ダウンメニューの中に選択された各言語が並び、プル
ダウンで選択、あるいはコマンド+スペースキーで切
り替えができるようになる。
「简体中文」の入力については、連文節変換は一応
可能であるが、ただし全ての文節を一時に変換するの
132 ● 漢字文獻情報處理研究 第 3 号
従来からあるフォント「Hei」で Unicode の文字パレット
を表示したところ。GB 2312 に含まれない文字は空欄になっ
ている。
Mac OS X v10.1.4 および v10.2(Jaguar)
OS
OS10.2 か ら 新 た に 搭 載 さ れ た フ ォ ン ト「STHeiti」 で
Unicode の文字パレットを表示したところ。GB 18030 に
対応したことにより、空欄がなくなっている。
ている。
❏ 10.2
10.1 と異なる 10.2 最大の特徴は、GB 18030 に対
応したことであろう。文字パレット(字付表)を開き、
文字パレットからテキストエディットに文字を入力してい
るところ。選択されている文字のコード番号は、Unicode
では 4E6E、GB 18030 では 8169 である。
Unicode 表を選択すると、右側に他のコードと並んで
「GB 18030 码」があることが確認できる。また鉛筆
および MS Word X については、OS が先行してしまっ
メニュー、あるいは IME のツールバーには、入力方
て、十分な対応はできていないようである。特に GB
法として「GB 18030 内码」という選択肢が用意され
2312 に含まれない文字については、入力時にまだま
ている。これを選択し、GB18030 码をそのまま打ち
だ不如意な点があるようだ。こうした点も含めて入力
込むか、あるいは文字パレットで直接文字をクリック
に関する詳細は、IME のヘルプ、
「中文输入法有哪些 ?」
すれば、ワープロあるいはエディタに当該文字を入力
の中の「GB 18030 内妈输入法」の項をご参照頂きたい。
することができるのである。フォントについては、や
なお、OS X に対応したエルゴソフトの EGBridge
はり 10.2 で初お目見えとなった以下の四つのうちど
13 お よ び ATOK15 for Mac OS X の 二 つ の IME は、
れかを選択することになる。
い ず れ も Unicode の Extension B に 対 応 し た。GB
18030 と Extension B の関係は微妙だが、しばらく
STFangsong、STHeiti、STKaiti、STSong
Windows に水をあけられていた Mac OS とその周辺
の動きが昨今急なことは確かである。かつてマルチリ
筆者が確認した中では、システム付属のエディタで
あるテキストエディット 1.2(v185) が、GB 18030 の
ンガル環境では大いに気を吐いていた Mac OS の復活
なるか、注目していきたいところである。
入力に完全に対応している。一方、AppleWorks 6.2.4
Journal of JAET vol.3 ● 133
ソフトウエア レビュー
❖ ワープロとビジネスソフト
M S Office
千田 大介
要だ。PowerPoint は Word と同様に、選択した文字
❏ TCSC コンバータ
この一年は、MS Office のメジャーアップデートは
列の変換になる。
❏ ProofingTools と中国語の単語区切り
なかった。そのため大きなトピックは無いのだが、細
かな多言語関連機能の強化はおこなわれている。
TCSC コンバータとは、繁体字中国語(Traditional
Proofing Tools は、MS Office に各言語版特有の校
正ツールなどの機能を追加するソフトである。近頃は、
Chinese)・ 簡 体 字 中 国 語(Simplified Chinese) の
一部カメラ量販店などでも取り扱われるようになり、
相 互 変 換 ソ フ ト を 指 す。MS Office XP で は、 従 来、
入手が容易になっている。詳細については『電脳中国
Proofing Tools を導入することで、Word にのみ「中
学Ⅱ』に紹介してあるので、参照していただきたい。
国語の翻訳」機能が追加され、簡体字・繁体字変換が
Proofing Tools によって追加される機能に、中国語
実現されたが、その他の Office アプリには同種の機
ワードブレイク機能、すなわち中国語の単語区切り機
能は追加されなかった。
能がある。これは、中国語の自動ルビ振りなどの際に
Microsoft の香港サイト(http://www.microsoft.com/
非常に重宝する機能である。このワードブレイク機能
hongkong/)では、Office XP 収録アプリのうち、Excel
は、VBA からも利用することができる。中国語ワー
2002・Access 2002・PowerPoint 2002 に 対 応 し た
ドブレイク機能が組み込まれており、Word で文字列
TCSC コンバータアドインが配布されている。これを
の言語が中国語に設定されている場合、単語をあらわ
導入することで、Office XP のほとんどのアプリケー
す words オブジェクトよって、自動で区切られた中
ションで簡体字・繁体字変換機能が使えるようになる。
国語の単語を取得することができるのである。
ただし、Excel ではワークシート、Access ではテー
これを応用すると、中国語の単語を区切る VBA マ
ブル全体の一括コンバートしかできないので注意が必
クロは簡単に作成することができる。これを利用すれ
ば、中国語教材の作成、あるいは現代中国語語彙の統
計分析研究などに応用することができよう。
このように、MS Office の多言語機能を用いること
で、他のソフトではまだ困難な、高度なテキスト処理
を実現することができる。また、MS Office は文字コー
ドなどを余り意識することなく多言語処理が実現でき
る、ある意味で初心者向けの多言語処理環境であると
言える。その意味で、MS Office にはさまざまな応用
の可能性が秘められている。
筆者はこれらの機能を応用した Word 用マクロを、
Web サイトに公開している。つたない素人の仕事で
はあるが、有効に活用していただければ幸いである。
134 ● 漢字文獻情報處理研究 第 3 号
MS Office・一太郎 12&ATOK15
山田 崇仁
い。
❏
一太郎 12
❏ ATOK15
(株)JUSTSYSTEM の一太郎もバージョン 12 に
なった。評者がこのソフトを利用し始めたのは大学生
さて ATOK15 だが、一般的には「関西弁対応」が
の頃で、その当時はまだバージョン 4.3 の時代だった
今回の目玉だが、根本的な面での変化は見られない。
から、もうずいぶんと長いつきあいだと思う。それだ
むしろ Mac OS 版 ATOK15 が OS 9 に対応しないとい
けの改訂を重ねているので、基本的機能という部分で
う発表の方が評者には印象深かった。
ATOK はバージョン毎に辞書の形式が異なるので、
は、かなりの成熟を遂げているといってよい。
一太郎は「日本語に強い!」というのが売りである。
辞書の移行が少々面倒だが、やはり変換効率は MS-
確かにその通りで、担当する授業では Word を受講生
IME に比べて一日の長がある。ただし、Windows XP
に使用させている評者も、自分の論文執筆には未だ
の仕様のためか、ATOK 文字パレットの「文字一覧」で、
に一太郎を使い続けている。これは機能云々というよ
フォントによっては選択したフォントと Windows XP
り、感覚的な部分による所が大きいかもしれない。例
が自動的に補った部分との区別が付かず、フォントに
えば、縦書きをイメージ表示すると、Word では横書
どの程度グリフが実装されているか確認しづらくなっ
き英語そのままに、左から順に画面が表示されてしま
てしまった点はもったいない[3]。
い、「ローカライズしたの?」と疑いたくなるような
状態になる。しかし一太郎では、巻子本のような感覚
❏ おわりに
で閲覧できる。また、脚注番号の行間縦中横表示機能
も重宝している。このように、日本語編集の優位さで
は、まだまだ Word に勝っている部分も多いといえる
本誌読者層のような特定業界の要求は、多くの利用
者のそれとはかけ離れているかもしれない。
しかし、長年一太郎を利用しているものとしては、
だろう。
しかし、多言語や Unicode に対してのアプローチは、
実装されない機能も一太郎で利用したいのが人情であ
何も進展していない。複数の言語サポートなどは、
「日
る。だからこそ、あれやこれや要望フォームや障害報
本語ワープロ」である一太郎には最初から求めてい
告 FAX に記入して送ったりもする。これを読んでい
ないが、Unicode 3.1 の拡張領域 B への対応は、とり
る方の中には、「MingLiU と SimSun が利用できない
あえず文字の貼り付けなら何とかというレベルである
から一太郎をやめた!」という方もいるかもしれない。
[1]
。それ以前に一太郎は Unicode = UCS-2 でしかな
そのような人をもう一度呼び戻すためにも、一太郎で
いのでテキストファイルの UTF-8 読み書き程度は対
中国語フォントをまともに扱えない現状を改善してほ
応してほしい。Windows 2000 から生じている、拡
しいと願うのである。
張子が ttc の中国語用 TrueType Font が日本語用フォ
ントとして利用できない問題は、Windows XP でも未
だ解消されていないし、サポートに問い合わせた所、
今バージョンでは対応する予定がない旨の回答をいた
だいた[2]。しかし、Windows XP では繁簡中国語・
注
[1] 第三・第四水準の漢字がここに多く収録される以上、
「日本語に強い!」点をアピールするならば、対応が
必須のはずではないかと思うのだが。
韓国語環境が初めからインストールされており、それ
[2] このほか、ピンインでラテン拡張領域の文字を入力し
らの標準フォントたる MingLiU や SimSun が利用で
た場合、Arial Unicode 以外では文字間隔が崩れるとい
きないのは不便極まりない。多言語対応という面では、
う問題がある。
一太郎は Word の足下にも及ばないといわざるをえな
[3]例えば MS 明朝や MS ゴシックが該当する。
Journal of JAET vol.3 ● 135
ワープロとビジネスソフト
一 太 郎 1 2 & AT O K 1 5
ソフトウエア レビュー
Adobe InDesign 2.0
千田 大介
ドなどを通じて、リッチテキスト型式で貼り込めば、
❏ 早くもデビューした新バージョン
JIS 以外の文字も問題なく扱えるし、中国語の IME を
使って GB コードや Big5 コードの文字を入力するこ
Adobe 社(http://www.adobe.co.jp/)の新世代 DTP
ともできる。
ソ フ ト、InDesign が 2002 年 1 月 に バ ー ジ ョ ン 2.0
文字の入力に関連する旧版からの変更点は、Word
に ア ッ プ ブ レ ー ド し た。 バ ー ジ ョ ン 1.0 の 発 売 が
フィルタが最新の Word 2002 に対応したことくらい
2001 年 1 月であったから、
わずか 1 年足らずでのアッ
であろう。出力に関しては、文字ツールでストーリー
プグレードということになる。しかし、これは日本語
内部をクリックした後に[ファイル]→[データ書き
版 1.0 の発売が英語版に比べて大幅に遅れたために、
だし]を選択すると、
[ファイルの種類]に「テキスト」
・
2.0 のリリースとの間隔が詰まってしまったものと思
「リッチテキスト」等の選択肢が追加され、ストーリー
われる。また、発売から半年ほどで、Adobe InDesign
の内容のみを書き出すことができるが、このときテキ
2.0.1 アップデートが公開された。
スト型式を選択すると、Unicode テキストで保存する
価格は、正規版が 98,000 円、アカデミック版が
ことができるようになった。
29,800 円(アドビストア価格)
。ただし、正規版には
この他、前号の補足となるが、文字を検索・置換す
日本語 OpenType フォントが 4 種添付されるが、ア
る際には、JIS 以外の文字を「<16 進 Unicode 番号 >」
カデミック版にはスタンダード書体 1 種しか添付さ
で指定することができる。
れないなど制限も多いので、購入時にご確認頂きたい。
ここではアップデートモジュールをインストールし
た InDesign 2.01 を Windows XP 上で
使用した結果に基づいて、レビュー
す る。 た だ し、DTP ソ フ ト と し て
の一般的な機能については、筆者は
DTP の専門家ではないし、また多く
の DTP 専門雑誌に特集記事が掲載さ
れてもいるので言及せず、多言語処
理やテキスト処理に関連する機能に
絞ってレビューしたい。
❏ 多言語編集機能
InDesign 2.0 の多言語機能は、1.0
とほぼ同等である。編集可能な文字は、
Unicode BMP の文字と OpenType フォ
ントに収録される異体字に限られる。
Unicode テキストの直接のペーストは
できないし、MS IME や ATOK などの
Unicode 対応 IME からの入力ができ
るのも JIS コードの範囲内の文字に限
られる。しかし、Word やワードパッ
136 ● 漢字文獻情報處理研究 第 3 号
ちなみに、本誌の DTP には InDesign 2.0.1 を使っ
ている。
Adobe InDesign 2.0
ワープロとビジネスソフト
❏ XML 機能
InDesign 2.0 で追加された機能の
中で、最も注目されるのが、XML
対応機能の追加である。本来は、
XML による DTP デー
な目録類では、同じ書式であっても項目によってスタ
タのやりとりを念頭に付加された機能であると思われ
イルを分けないと、内容による構造化ができないこと
るが、もちろん InDesign を XML エディタとして利用
になる。
することも可能である。
XML 機能を使うには、バージョン 2.0 では、手動
XML によって構造化したドキュメントは、[ファイ
ル]→[書き出し]で、
「ファイルの種類」に「XML」
で CD-ROM からプラグインをコピーしなくてはなら
を選ぶ。保存文字コードや DTD・スタイルシートの
ないが、2.01 アップデートをかければ自動で最新の
設定画面が表示されるので、必要な情報を指定する。
XML プラグインがインストールされる。すると、タ
このように、InDesign 2.0 では GUI によって、わか
グパレットを表示できるようになる。
タグパレットでは、任意の XML タグを追加するこ
りやすく文書を XML によって構造化できる。また、
印刷物と構造化電子テキストとを同時に生成できるし、
とができる。タグを適用する場合は、適用したい段落
逆に XML 文書を読み込んでタグとスタイルを関連づ
にカーソルを置くか、文字列を選択して、タグパレッ
けてデザインすることもできるので、紙媒体と電子媒
トの任意のタグをクリックすると、タグが適用された
体との連携をはかる上でも、きわめて有効に活用でき
部分がカラーの括弧でくくられる。タグの階層構造は、
る。XML エディタの多くが 10 万円もの値段で販売
タグを指定する際の選択範囲の包含関係によって自動
されていることを考えれば、InDesign はアカデミッ
的に構成される。タグ付けされた文章の構造は、編集
ク版が 3 万円そこそこで入手できるのだから、コス
画面左に構造パネルを表示させると把握しやすい。構
トパフォーマンスに優れた XML エディタであるとい
造パネルでは、個々の項目を入れ替えたり、タグや構
えよう。
造を変更したりすることもできる。
また、タグと段落スタイルを関連づけて、自動でタ
難点を言えば、段落テキストだけでなく、文字テキ
ストと XML タグとを関連づける機能も欲しかった。
グ付けすることも可能。これによって、タグを半自動
これによって、強調表示されるキーワードや、人名な
で付けることができるが、階層構造化するには、手動
どを、より簡単にマークアップできるようになるだろ
でタグを指定する必要がある。また、図に掲げるよう
う。今後のブラッシュアップに期待したい。
Journal of JAET vol.3 ● 137
ソフトウエア レビュー
❖ IME と中文ツール
Chinese Writer
二階堂 善弘
ントと IME の組み合わせを指すものと言えなくなっ
❏ Chinese Writer V6
高電社の Chinese Writer は、おそらく最もポピュ
たかもしれない。
❏ 豊富な機能
ラーな中国語処理ソフトであろう。その最新バージョ
ンは、Chinese Writer V6 である。
かつて、日本語の Windows の上で中国語を扱うの
日中翻訳パッド C-TIME は、中国語入力機能につい
て単なるピンイン入力だけではなく、翻訳機能や日中
は大変面倒であった。中国語を処理するためには、中
漢字変換機能などを併用して行うツールとなっている。
国語のフォントと入力用 IME が必要であったからで
翻訳機能はかなり的確で、十分実用的である。
ある。この両者をセットしたものが中国語処理ソフト
また、チャイニーズボイスという文章読み上げ機能
と呼ばれた。しかし Windows XP が出てからという
が付加されたことは大きい。これまでこのようなソフ
もの、中国語処理ソフトのアドバンテージは低いもの
トに読み上げ機能があっても、それは「文章を読む」
となっている。Windows XP には、中国語や韓国語の
という状態からはほど遠いものが多かった。しかし、
フォントや IME が予めセットされているため、特別
チャイニーズボイスは若干の機械的な性格が感じられ
な処置をしなくても、すぐに中国語や韓国語が使える
はするが、非常に自然の文章を読む感じに近いもので、
ようになっている。これまでのように、わざわざ中国
応用範囲は広いと思われる。
語処理ソフトを買う必要はないのだ。
このような豊富な付属機能により、中国語を扱う現
しかし、それでも中国語処理ソフトを購入するユー
場では重宝されるツールとなっていると考えられる。
ザは多い。それはまず、Windows に付属する入力ソ
しかし、依然として問題もある。特に繁体字の辞書
フトは、日本人には若干使いにくいものであることが
に相変わらず誤変換が多いのは困りものである。繁体
挙げられる。例えば、変換時にスペースキーを多用す
字で「皇后」を打つつもりが「皇後」も出てくるし、
る ATOK などのやり方に慣れている場合は、Chinese
「歴史」は必ず「暦史」になってしまう。そもそも「歴」
Writer などを使った方が便利である。
の字を出すのが大変だ。これは簡体字の辞書をそのま
また豊富な付属機能があることも大きい。特に V6
ま変換して使用していることから発生する問題であろ
からは、C-TIME や読み上げ機能が付加された。これ
う。バージョンが上がったことでもあるし、そろそろ
により、いまや「中国語処理ソフト」とは、
単純にフォ
改善してくれるとありがたい。
138 ● 漢字文獻情報處理研究 第 3 号
Chinese Writer・翻訳ソフト
千田 大介
「公務員の身分を奪われたら、民営化にも抵
❏ 中国の翻訳ソフト二種
抗しきれなくなる」「せめて一般職員は公務員
のまま残すべきだ」
金山快訳と東方快車
前号では、オンライン翻訳サービスの機能比較を試
4 月 19 日、東京都内で開かれた国立大学協
会の臨時総会は、出席した国立大学の学長たち
から次々に不満が噴き出し、紛糾した。
国立大学の法人化は 99 年、それまで反対し
みたが、今号では比較的に安価に入手できる中国の翻
訳ソフト二種の機能を比較したい。
ていた旧文部省が容認に転じ、既定路線となっ
一つは金山快訳 2002。WPS で知られる金山公司
た。大学の自治を確保するため、通常の独立行
(http://www.kingsoft.net/) の 製 品 で あ る。Windows
政法人とは別の形の法人とし、教職員の身分は
98/Me/2000/XP 中文版で動作し、また、MS Office
公務員のままとすることが条件だった。
2000/XP をもサポートする。英語⇔中国語(簡・繁)
、
日本語⇒中国語(簡・繁)の六種類の翻訳機能を備え
る。Web ページ・Word 文書の翻訳の他、
テキストファ
それぞれの翻訳結果は以下の通り。
金山快訳
イルを直接開いたりペーストしたりして翻訳する全文
翻訳機能を備える。このほか、
英語版ソフトのインター
「被抢夺公务员的社会地位的鳕鱼,民营化为
フェイス中国語化機能や辞書機能などもある。価格は
在也抵抗隔开死去」「攻方普通官职人员是公务
専業版 49 元(約 750 円)
とリーズナブル。しかし、
パッ
员照着留下应该」
ケージデザインに見える日本語「日本語の翻訳の質量
が良いです。」が、一抹の不安を感じさせる。
もう一つは東方快車 XP。北京実達銘泰計算機応用
技術開発有限公司(http://www.sunv.com/)の製品。機
4 月 19 日,在东京都内敞开过国立大学协会
的临时总会,从出席的国立大学的大学校长们接
连不断在不满是噴黄色拿出,纠纷做过。
国立大学的法人化为 99 年,那个到反对外表
能的には、金山快訳 2002 とほぼ同等。価格も同じく
转变在承认旧文部省 , 变成过既定线路。确保
49 元。
大学的自治矫直,通常的独立行政法人竟然别的
今回は、いずれのソフトも Windows 2000 日本語
版の言語を簡体字中国語に切り替えて試用した。テス
的形的法人白死,教职员的社会地位是公务员照
着托球る事情是条件。
トに用いた日本語の文章は以下の通り。
東方快車
公务员的地位鳕民营和也反抗不要不要痛斥一
般职员是公务员的剩余 月球东京京城内开国立
大学协会的临时全会是出席国立大学的学长由其
次和不满喷出海带纠葛
国立大学的人是马到对正在旧文部省容忍和既
定线路表不要
大学的自治确保痛斥通常的独立行政人表是别
的形状的人表教职的地位是公务员的表应条件
以上の結果を見てわかるように、両者ともに日本語
Journal of JAET vol.3 ● 139
IMEと中文ツール
翻訳ソフト
ソフトウエア レビュー
原文
圆明园像一片废墟。这儿的建筑在鸦片战争的
时候被英法联军破坏了。许多文物也被偷走了。
现在湖已经修复,建筑当作遗址保存,为了使人
们不忘记历史。
前号
円明園は 1 片の ( 全くの ) 廃墟に似ている。
ここの建物はアヘン戦争にいる ( ある ) 時に英
の構文解析機能は非常に弱く、単語を置き換えただけ
のフランス ( 法 ) 連合軍に破壊された。多くの
としか思えない箇所も多い。いずれも仮定の
「∼たら」
文化財も盗んでいかれた。今湖はすでに修復し
を「鱈」と訳しているが、これなどは論外である。東
て、建物は遺跡と見なして、人々を使用する ( 派
方快車では翻訳結果で原文のアラビア数字が無視され
遣する ) ために歴史 ( 経歴 ) を忘れない。
ており、「4 月」が「月球」に訳されてしまっている。
相対的には金山快訳の方がやや良いといえるが、し
今回
かしいずれにせよ実用レベルには達していない。今後
の機能改善が望まれる。
goo の多言語翻訳実験
円明園は 1 片の ( 全くの ) 廃墟に似ている。
ここの建物はアヘン戦争時に英のフランス
( 法 ) 連合軍に破壊された。多くの文化財も盗
ところで、2002 年 5 月から 7 月まで、サーチエン
んでいかれた。今湖は修復して、建物は遺跡と
ジン goo(http://www.goo.ne.jp/)が NTT と共同して翻
見なして、人々を使用する ( 派遣する ) ために
訳サービスを試験公開した。中国語の翻訳エンジンは、
歴史 ( 経歴 ) を忘れない
NTT と高電社が共同開発したもので、前号に掲載し
た BIGLOBE 翻訳ツール(http://honyaku.biglobe.ne.jp/)
「在~的时候」という介詞フレーズが正確に訳せる
と同系統のもの。前号と同じ例文を使って、どの程度
ようになっている。一方、最後の使役文はまだうまく
機能が向上したのか検証してみた。
訳せていない。機能の向上は見られるものの、まだま
だ改良の余地が大きそうだ。今後の改善に期待したい。
140 ● 漢字文獻情報處理研究 第 3 号
Unicode 3.2
Unicode 3.2
師 茂樹
3.2 で追加された文字は全部で 1,016 文字であるが、
❏ バージョン 3.x の終着点
その中でアジアの諸言語に関するものは以下の通りで
ある。
小さな増加
2002 年 3 月 に 公 開 さ れ た Unicode 3.2( 以 下
 フィリピン文字(タガログ語など)
 CJK 記号・句読点類
3.2) は、 書 籍 で 出 版 さ れ た The Unicode Standard,
 ひらがな
Version 3.0 (Reading, MA, Addison-Wesley, 2000.
 カタカナ
ISBN 0-201-61633-5) のマイナー・バージョンアッ
 丸付き数字
プであり、バージョン 3.x シリーズの最後にあたる。
 イ文字の字形要素
3.2 においては、文字の追加のほかに Unicode 3.0、
 CJK 互換漢字
同 3.1 の訂正や改正なども含まれるが、訂正等を反
 CJK 互換字形
映されたものがひとつにまとめられて出版されたり
公開されたりしているわけではなく、大本となる The
前バージョン(Unicode 3.1)における約 4 万 5 千
Unicode Standard, Version 3.0 と、 そ の 差 分 で あ る
字の追加と比較すれば、全体として小さなバージョン
“Unicode Standard Annex #27: Unicode 3.1” (http://
www.unicode.org/reports/tr27/)、“Unicode Standard
Annex #28: Unicode 3.2” (http://www.unicode.org/
reports/tr28/)、さらに規格の一部と見なされる付属書
アップと見てよい。
JIS X 0213 との対応
ところで、3.2 で追加された文字のうち、ひらがな、
である Unicode Standard Annex (UAX) を併せたもの
カタカナ、互換漢字などは、JIS X 0213(所謂第 3、
が 3.2 ということになる。3.2 に付属する UAX は以
第 4 水準。以下 0213)で提案されたものが紆余曲折
下の通りである。
を経て収録されたものである。ただし、ローカルコー
ドとの互換性確保のみを目的としている互換領域に収
UAX #9: The Bidirectional Algorithm, V3.2.0
録されているものがあることからもわかるように、狭
UAX #11: East Asian Width, V3.2.0
い意味では真に Unicode に収録されたとは言いがた
UAX #13: Unicode Newline Guidelines, V3.2.0
いのではないかと思う。また、下表にあげた 0213 の
UAX #14: Line Breaking Properties, V3.2.0
非漢字 25 文字は、1 文字としては収録されず合成文
UAX #15: Unicode Normalization Forms, V3.2.0
字を使った 2 文字として Unicode と対応付けられる
UAX #19: UTF-32, V3.2.0
こととなった。
UAX #21: Case Mappings, V3.2.0
次のメジャーバージョン・アップ時には 1 つにま
とめられるのであろうが、現時点では少々参照しづら
い形になっている。
Shift_JISX0213
0x82F5
0x82F6
0x82F7
0x82F8
0x82F9
Unicode での表現
<U+304B, U+309A>
<U+304D, U+309A>
<U+304F, U+309A>
<U+3051, U+309A>
<U+3053, U+309A>
Journal of JAET vol.3 ● 141
文字コードとフォント
❖ 文字コードとフォント
ソフトウエア レビュー
0x8397
0x8398
0x8399
0x839A
0x839B
0x839C
0x839D
0x839E
0x83F6
0x8663
0x8667
0x8668
0x8669
0x866A
0x866B
0x866C
0x866D
0x866E
0x8685
0x8686
<U+30AB, U+309A>
<U+30AD, U+309A>
<U+30AF, U+309A>
<U+30B1, U+309A>
<U+30B3, U+309A>
<U+30BB, U+309A>
<U+30C4, U+309A>
<U+30C8, U+309A>
<U+31F7, U+309A>
<U+00E6, U+0300>
<U+0254, U+0300>
<U+0254, U+0301>
<U+028C, U+0300>
<U+028C, U+0301>
<U+0259, U+0300>
<U+0259, U+0301>
<U+025A, U+0300>
<U+025A, U+0301>
<U+02E9, U+02E5>
<U+02E5, U+02E9>
バージョン 4.0 については 2003 年 9 月中のリリー
スを目指している[2]とのことであるが、内容として
は ISO/IEC 10646 の Part 1、2 に対する修正案を反
映させることが中心となるようで、文字の追加は比較
的小さなものになるようである。
Extension C ?
気になる漢字についてであるが、バージョン 4.0 に
は反映されないものの、更なる Extension が今後も増
加し続けるようである。Extension C については、以
前から Unicode コンソーシアムのメーリングリスト
などでも情報が流れていたが、最近、その具体的な提
案状況が見えてきた。Extension C1 は約 2 万 6 千字
であり、第 2 面に収録されるとのことである。また、
各国の提案数の内訳は以下の通りであるという[3]。
こ れ ら の 文 字 は、0213 ⇔ Unicode 間 の 所 謂 ラ ウ
中国 …………………………………………7,650
ンドトリップ変換が保障されない。例えば、Unicode
朝鮮民主主義人民共和国 …………………… 94
の <U+00E6, U+0300> という文字の組み合わせ(æ)
香港 …………………………………………… 29
にマッピングされている JIS X 0213 の文字は上の
日本 ………………………………………… 970
0x8663 で あ る が、U+00E6 と U+0300 は そ れ ぞ れ
マカオ ………………………………………… 22
0213 の 0x857B と 0x867B に マ ッ ピ ン グ さ れ て い
大韓民国 ……………………………………4,073
る。逆に <U+00E6, U+0300> は、0x8663 にのみマッ
シンガポール ………………………………… 25
ピングされているので、<0x857B, 0x867B> を含む
台湾 ……………………………………… 10,659
0213 のテキスト・ファイルを Unicode に変換して、
Unicode コンソーシアム …………………… 271
もう一度 0213 に変換すると、<0x857B, 0x867B> →
ヴェトナム …………………………………2,286
<U+00E6, U+0300> → 0x8663 と元のファイルとは
別のファイルになってしまう[1]。このような現象が
このうち韓国提案の漢字については、Unicode の
起きたとしても、人間が読むような場合にはフォント
メーリングリストでの投稿や、筆者が高麗大蔵経研究
やアプリケーションで対応していればほとんど問題は
所の知人から個人的に聞いた話によれば、『高麗大蔵
ないのであるが、バイナリレベルでの厳密なファイル
経』の Unicode 外字を底本とするようである。また、
の一致が求められる場合もある電子商取引などにおい
日本とヴェトナムの提案には、今昔文字鏡が協力して
ては致命的な欠陥となる。Unicode を採用するシステ
いるとのことで[4]、これまで何かと制限が多かった
ムが増加している今日、0213 を孤立させないために
文字鏡が使いやすくなることは歓迎したい。
ももっと適切な対応づけが求められるのではないだろ
うか。
注
[1] 貞廣知行氏による指摘。http://homepage1.nifty.com/n
❏ Unicode の行く先
omenclator/perl/ShiftJIS-X0213-MapUTF.html
[2] http://anubis.dkuug.dk/JTC1/SC2/WG2/docs/n2433.doc
バージョン 4
3.2 で一息ついた印象であるが、今後 Unicode はど
のような発展をしていくのだろうか。
142 ● 漢字文獻情報處理研究 第 3 号
[3] http://std.dkuug.dk/JTC1/SC2/WG2/docs/n2495.doc
[4]『パソコン悠々漢字術 2002』(紀伊國屋書店、2002)
188 ∼ 189 頁。この件については谷本玲大氏よりご
教示いただいた。感謝申し上げる。
Unicode 3.2・CHISE プロジェクト
師 茂樹
❏ 文字コードからの本質的な脱却を目指して
文字コードの限界
現在、コンピュータ上で文字を扱うためには、符号
化文字集合(所謂文字コード)やそれに類する文字番
号を使うのがほとんど唯一の方法である。この方式
は、アルファベットと数字、少数の記号などからなる
ASCII コードのような、ごく小規模な文字集合を扱う
には非常に効率的な方法であった。しかし、JIS コー
ドに端を発する数千字単位の文字セットが登場し、現
時点で Unicode は漢字の種類だけでも 7 万字を誇り、
在あるような数万∼十数万というコードポイントを有
今昔文字鏡などの外字セットがそれを取り囲んでいる。
する文字セットが使われるようになってくると、様々
このような文字の大海から適切な一文字を拾い出すの
な問題が顕在化してきた。
は容易なことではない。
もっとも顕著なのが、文字の照合や並べ替えの際の
このほかにも、デーヴァナーガリー文字やチベッ
問題である。原則として字形の集合に背番号を与えた
ト文字などのように、単にコードポイントを並べるだ
に過ぎない文字コードというモデルだけでは、
大文字・
けでは表示すらまともにできないという文字もある。
小文字や異体字を同一視したり、並び順を決定したり
コードポイントの数が多ければよい、グリフの数がそ
することはできない。かろうじてアルファベットや仮
ろっていればよい、という考え方をそろそろ改めない
名のような音節文字であれば、番号のつけ方をうまく
と、使いづらい、使われない文字が増える一方である。
やればコード値による並べ替えなどが可能だが、形だ
本レビューでは、文字コードの限界の克服を目指し
けでなく音や意味があり、しかもそれらがアジアの諸
て全く新しいモデルを提案する CHISE プロジェクト
地域で多様なヴァリエーションをもつ漢字のような場
について、末席にいる者の立場からいささか夢交じり
合だと、文字コードはせいぜい文字を管理する背番号
の紹介をしたい。
の役割しか担えない。このような問題を解決するため
に、文字コードとは別にテーブルを用意して対処する
UTF-2000 のモデル
のが一般的であるが、各方面でそれぞれ独自にテーブ
CHISE(CHaracter Information Service
ルを作るという非効率なことが行われてきた。最近で
Environment; 知世)プロジェクト[1] は守岡知彦氏
は Unicode が様々なデータベースを規格に付属して
らによる UTF-2000 プロジェクト(後述)[2]を発展
公開しているが、ローカルコードの互換性に足を引っ
させたものである。
張られて実用にはまだまだ不十分である。
UTF-2000 における文字のモデル化は、字形・発音・
また、IME などで文章を入力する際に所期の文字を
意味や、既存の文字コードのコードポイントなど、様々
探し出すのも、文字の増加に伴って困難さが増してい
な文字の要素の集合によって文字を表現する。この文
る。一部では「足りない!」と文句が出ている七千字
字要素の集合はコンテクストによって変化する。例え
弱の JIS X 0208 レベルの漢字であるが、部首などの
ば、ある“文字”[3]が「現代の一般的な日本語」と
部品から漢字を探すための「ワープロ字書」の類が何
いうコンテクストと「現代中国語(普通話)」という
冊も書店の棚に並んでいることからもわかるように、
コンテクストにおいて、それぞれどのような文字要素
容易に使いこなせる量とは言えない。ましてや、現
の集合になるかを大雑把に図示すると以下のようにな
Journal of JAET vol.3 ● 143
文字コードとフォント
CHISE プロジェクト
ソフトウエア レビュー
既存の文字コードにおける表現
漢字間の関係の
視覚化システム
(3D CG)
字形要素
呼出し
筋道立て
せ つ
U+8AAC
文字データベースサーバー
文字
XEmacs UTF-2000
属性
意 見・ 主
言+兑
PostgreSQL
張・学説
Ω
発音要素
TopicMaps 処理系
文書
と・ く
て話す
漢字に関する情報
(部品構造情報等)
文字に関する情報
字形や字
体の情報
など
部品の字形情
報や部品構造
情報など
文字合成
システム
意味要素
既存の文字コードにおける表現
字形要素
総合的に扱うための“環境”を目指している。環境と
言うからには、土台となる OS レベルでの実装を目指
すと同時に、テキストの入力・編集・出力(Web で
筋道立て
shuō
て話す
U+8BFA
の公開や紙への印刷など)を行うためのアプリケー
ション群を整備しなければならない。スタートしたば
かりの現時点ではもちろんその一部に取り組んでいる
shuì
意 見・ 主
讠+兑
張・学説
に過ぎないが、近々の目標として上図のような環境が
提案されている[5]。
ソフトウェアおよびデータベースはすべてフリー
発音要素
(自由)ソフトウェアとしてオープンソースで開発・
意味要素
る。
この二つの“文字”
(丸で囲まれた部分)を比較す
ると、意味要素レベルではほとんど同じだが、字形要
公開されている。
文字データベース・サーバ
ここには CHISE モデルの根幹である文字要素のデー
素レベルでは「兑」の部分は一致するも「言」と「讠」
タが蓄えられており、まさに CHISE プロジェクトの
は(派生関係にあるが)厳密に言えば一致せず、発音
根幹である。
要素や Unicode のコードポイントはまったく異なる、
ここで蓄えられるのは、先に UTF-2000 モデルと
と言う具合になる。このような多対多の比較は、形・
して説明したような単なる要素の情報だけではなく、
音・義を備えたリアルな文字の扱い方をうまくモデル
要素間の関係 ―例えば「讠」は「言」の簡体化し
化しているのではないかと思う。文字コードモデルに
たものであるとか、「説」はある時代(コンテクスト)
おける異体字同一視テーブルなどとは異なり、ユーザ
では「悦」の意味が付加されるとか、
「人」という字形
の要求に応じた柔軟な比較が可能だ[4]。
要素は別の字形要素の左側に並べられると「亻」に変
また、文字要素を追加したり新しい組み合わせを定
化するとか―も含む。そのために CHISE プロジェ
義したりすることによって、新しい文字を誕生させる
クトでは TopicMaps[6] に基づく文字表現手法とそ
こともできる。文字コードモデルのように現存する文
の処理系が試行錯誤されている。現時点では、既存文
字に番号を振るのとはまったく逆の方向である。
字コードに関するデータが多いため単なるマッピング
テーブルにしか見えないかもしれないが、今後は歴史
❏ CHISE という環境
的な情報も含めた様々な種類のデータとその関係につ
いての知識を蓄積していきたいと考えている。
CHISE プロジェクトは最終的に、文字やテキストを
144 ● 漢字文獻情報處理研究 第 3 号
このデータベースが充実してくると、文字集合がど
CHISE プロジェクト
素データは、この UTF-2000 内部に Lisp で書かれた
かという興味深いテーマも出てくる。CHISE プロジェ
要素定義の集合であったが、最近のバージョンから
クトの一環として、このような文字のネットワークを
UTF-2000 とデータベースを切り離し、段階的にデー
数理的に解析して 3D 画像で視覚化し、教育や文字検
タベース・サーバのクライアントとなるよう開発が進
索、包摂基準の設定などに応用する研究が進められて
められている。
いる。
また、エディタは言うまでもなく文書編集の中心に
また、様々な文字の要素から文字を探すための検索
ツールの開発も進められている。
なるアプリケーションであるが、UTF-2000 にはこれ
以外にデータベースそのものをメンテナンスするため
のエディタとしての役割もある。文書を書いている途
字形合成システム
中で文字データベースに自分のほしい文字がなかった
CHISE における字形表現は、従来の方法のように
場合、その場で文字属性等を記述してデータベースに
フォントのみによって表現されるのではなく、場合に
投げ込んでしまえば、その瞬間からその文字は使える
よっては上記文字知識データベースとの連携によって
ようになる(ただし、表示をするにはグリフなどの字
動的に決定される。例えば、
“ごんべん(言偏)
”とい
形要素が必要であるが)。
う字形要素[7]を持つ文字があったとして、それがコ
ンテクストによって「言」で表示されたり「讠」で表
Ωによる組版システム
示されたりする、といった具合である。つまり、完成
印刷や Web での公開が文書処理における主要な
したグリフだけに依存するのではなく、場合によって
ゴールのひとつであることは言うまでもない。TeX の
は複数の字形要素を結合させて 1 文字分のグリフを
拡張版であるΩ(Omega)は、Ω TP というフィルタ
動的に生成する仕組みも用意しなければならない。こ
を経由して入出力が行われるのであるが、このΩ TP
れを実現するために、文字のパーツとその関係だけで
は自分でプログラムを書くことで理論上どのような種
はなく、結合の仕方についての情報もデータベースに
類のファイルでも扱うことができる柔軟さを持ってい
蓄積されることになっており、それに基づいた字形合
る。字形要素を動的に組み合わせてグリフを作るとい
成システムの開発が進められている[8]。
うような作業も、字形の組み合わせをデータベースを
問い合わせて META FONT に渡す、というプログラム
XEmacs UTF-2000
を書くことで可能になるのではないかと実験が進めら
その名の通り、Unix 界の怪物エディタ(的総合環境)
れている。
のひとつ、XEmacs から派生したものであり、文書処
理を中心とした Emacs 文化の遺産を多く継承してい
❏ テキスト研究と CHISE
る。執筆時点でのバージョンは 0.18(大和小泉)で
あるが、こ
この CHISE モデルによる文字処理を基盤に、テキ
の近日中に
ストレベルでも従来とは異なった処理が可能になるの
バージョン
ではないかと期待される。現在のところ、TEI P5 の
0.19(郡山)
Writing System Declaration 実装の実現がひとつの目
が公開され
標となっているが、筆者の個人的な展望として、テキ
るとのこと
ストデータベースを用いた東アジアの古典テキスト研
である。
究に大きな進展が見られるのではないかと考えている。
も と も
単なる語句検索においても、文字コードモデルに
と、 上 記
よる曖昧検索とは質的に異なる柔軟さが得られること
データベー
はこれまで述べてきた概要からでも想像がつくと思う
ス・ サ ー
が、近年筆者が取り組んでいる N グラムモデルによ
バで管理さ
るテキスト分析[9]と、その結果を利用したクラスター
れる文字要
分析によるテキスト・マイニング[10]などにおいて、
Journal of JAET vol.3 ● 145
文字コードとフォント
のように関係し、それがどのような構造をもっている
ソフトウエア レビュー
これまでの文字コードに依存した処理では難しかった
字表現系の展望」(『アジア情報学のフロンティア』、
処理が可能になるのではないかと期待している。
2000 年 11 月)等。
また、要素の比較による文字間の繋がりを辿ってい
けば、密教経典の陀羅尼用音写漢字がベトナムの字喃
[3] ここで「“説”という文字が∼」という述べ方ではな
く、
「ある“文字”が…」という曖昧な表現を使うのは、
[11]
、テキスト間の意外な結
字形(グリフ)中心主義の文字コードモデルと一線を
びつきを発見することも容易になるのではないかと考
画したいからである。UTF-2000/CHISE モデルにおい
えている。
ては字形要素を含まない集合による“文字”表現とい
へと変遷して行った様な
プロジェクトへの誘い
うのもあり得る(例えば視覚障害者が文章を書くとい
うコンテクストであれば視覚的要素が脱落する場合も
以上、雑駁ながら CHISE プロジェクトの梗概と現
あろう)ので、テキストという限られた媒体では要素
状、そして展望を紹介した。すでにお分かりのように
の集合を厳密に表現することはできない場合もあるの
CHISE モデルによる文字処理は、文字に関する総合的
である。細かいことを言えば「文字」という用語すら
な知識をデータベース化することで初めてその真価を
適切ではないが、ここでは Unicode が character とい
発揮する。したがって、テキストを扱う学問、就中人
う語に特殊な意味を与えていること、あるいは我々が
文学研究者の協力や、古典テキストのデータベース、
すでに「一次的な声の文化」から離れ「文字の文化」
字書のデータベースなどとのコラボレーションが不可
に縛られているというオングの指摘(『声の文化と文
欠である。
字の文化』藤原書店、1991)をもって言い訳にした
先述したように CHISE プロジェクトはオープンソー
いと思う。
スで開発されており、開発に関する議論も開設され
[4] 本来的な使い方ではないが、文字要素を、従来の文字
たばかりのメーリングリストなどを通じてオープンに
コードとグリフ情報に限れば、文字コードモデルと同
行っていくことになっている。興味のある方は是非と
等のことができる。
も、議論や開発に参加していただきたい。メーリング
[5] 平成 14 年度未踏ソフトウエア創造事業のキックオフ・
リストでは、CHISE プロジェクトについての話題全般
セミナー(2002 年 8 月 5 ∼ 6 日、於京都リサーチパー
に加え、広く文字情報処理についての意見交換も行え
ク)におけるプレゼンテーション資料より(発表者:
ればと思っている。参加方法は、日本語のメーリング
苫米地等流氏)。ちなみに、CHISE プロジェクトは諸
リストであれば「[email protected]」宛に、英語で
般の事情により平成 14 年度未踏ソフトウエア創造事
あれば「[email protected]」宛に、
subscribe あなたの名前
業には採用されなかった。
[6] http://www.topicmaps.org/、ISO/IEC 13250:2000
[7]ここで「“ごんべん(言偏)”という字形要素」と呼ば
の 1 行を書いたメールを送っていただければ、確認
れているものは、実際に表示されたり印刷されたりす
のメールが届くので、そのメールの文中にある、
るときの物理的な字形要素ではなく、『説文解字』以
confirm PASSWORD あなたの名前
来の漢字学に依存した知識としての“字形”である。
例えば、“ごんべん”と“さんずい”を比較した場合、
の1行を本文にして返事を送っていただければ、参加
知識としてはまったく無関係であるが、物理的な字形
手続きが完了する。詳しい情報については CHISE プ
要素だけを見れば、崩し字というコンテクストにおけ
ロジェクトのページを参照されたい。
る両者のつながりを定義することが可能であろう。
[8] 字形合成については、本プロジェクトにも参加してい
る上地宏一氏による本誌所収の論稿も参照されたい。
注
[9] N グラムモデルによるテキスト分析については本誌第
[1] http://cvs.m17n.org/chise/、http://kanji.zinbun.kyoto-u.a
c.jp/projects/chise/、http://mousai.as.wakwak.ne.jp/proj
ects/chise/
[2] 守岡知彦「UTF-2000 ―汎用文字符号に依存しない文
146 ● 漢字文獻情報處理研究 第 3 号
2 号の特集を参照されたい。
[10] 師茂樹「N グラムモデルとクラスター分析を用いた
漢文古典テキストの比較研究――『般若心経』の異訳
の比較を例に」
(京都大学大型計算機センター第 69 回
CHISE プロジェクト・DynaFont
[11] 石井公成「ベトナム語の字喃(chũ’nôm)と梵語
平成 14 年 3 月 22 日、京都大学大型計算機センター。
音写用の漢字」(『駒澤短期大学研究紀要』第 26 号、
訂正稿を http://www.ya.sakura.ne.jp/~moro/resources/
1998)
20020322moro.pdf で公開中)
DynaFont
千田 大介
として収録されている。
❏ TrueType フォント製品
Unicode 3.0 フォント
以下の三書体が添付される。
元気なフォントベンダ
DFG 華康明朝体 W3-UN
㐀㐂䬡䯥䶵あいうえお
国内の Windows TrueType フォント市場には、リ
コー、キヤノン、富士通、NEC など、多くのベンダ
が製品を投入しているものの、あまり活気を感じられ
DFG 華康ゴシック体 W5-UN
㐀㐂䬡䯥䶵あいうえお
ない。Windows や MS Office が標準で多くのフォン
トを搭載するようになっているし、安価な年賀状印刷
ソフトにもたくさんのフォントが添付されているので
DFG 華康楷書体 W5-UN
㐀㐂䬡䯥䶵あいうえお
あるから、フォントパッケージ製品そのものの魅力が
薄れているのであろう。
そんな中にあって新製品を次々に発表している最も
元気なフォントベンダが、ダイナコムウェア(http://
DynaFont の従来製品「Type Museum」に収録され
www.dynacw.co.jp/)である。ダイナコムウェアは、台
る Unicode フォントは明朝体とゴシック体に限られ
湾に本拠を置く国際企業である。同社の DynaFont は、
ていたので、楷書体が追加されたことは喜ばしい。し
数十あるいは百を超える書体のパッケージを一万円足
かも、これらは Unicode 3.0 の Extension A 領域の漢
らずの価格で供給しており、書体のバリエーションで
字をもサポートしている。執筆時点では、これが唯一
も価格面でも他社を圧倒している。
これは、
台湾・香港・
の市販 Extension A 対応日本語フォントであり、多言
中国・日本向けに共通の書体を出荷することで、開発
語・多漢字処理の上で欠かせないものであると言えよ
コストを削減するとともに、スケールメリットを得て
う。
いるためと思われる。このため、
同社の製品には顔
(真
しかし、ダイナコムウェア社によれば、同フォント
卿)体・欧陽詢体・文徴明体といった、日本ではあま
は基本的に台湾向け製品をそのまま日本向けに出して
り馴染みのない中国歴代の書の大家の名を冠した書体
いるということであり、そのために不満な点もある。
が含まれている。
それは、括弧や句読点などの符号のデザインである。
DynaFont の国内フォントベンダ製品にない特色の
台湾の設定がそのままであるため、例えば中黒は少々
一つが、同社の国際性を生かした中国語フォントや
小さく、しかも文字幅が狭くなっており、日本語のデ
Unicode 対応フォントの提供である。
ザインにはそぐわない。また、たとえば「骨」の字形
Type Studio
は CJK 統合漢字は「骨」だが、Extension A 領域の漢
字は上のサンプルのように、中国字体の「骨」になっ
2001 年 9 月に発売されたフォントパッケージ。希
ている。これらの問題に該当する文字はそう多くはな
望小売価格は 6,800 円とリーズナブル。新作の日本
いので、修正にそれほどの手間はかからないことと思
語 50 書体とあわせて、さまざまなフォントがおまけ
われるので、今後の対応を望みたい。
Journal of JAET vol.3 ● 147
文字コードとフォント
研究セミナー「東洋学へのコンピュータ利用」予稿集、
ソフトウエア レビュー
GB・Big5・KSC 対応フォント
定され、さらにそれぞれ破音字
簡体字 GB コード対応フォントは以下の三種。
対応フォントが一つ、組になっ
ている。
DFWeiBei-GB5
ルビつきフォントとしては、
DFWeiBei-GB
台湾で注音符号対応のものが
DFSongW3
早くから製品化されており、現
在でも広く使われているが、そ
こ の う ち、DFWeiBei-GB5 は、Big5 コ ー ド 対 応 の
簡体字フォントで、つまり繁体字を簡体字に文字化
け表示させる魏碑体フォントである。DFSongW3 は、
GBK 対応の宋体フォント。
繁体字 Big5 コード対応フォントは、
の簡体字・ピンイン対応版と考
えればよかろう。
中国語の教材を作成するも
のにとっては、中国語のテキストを簡単にピンイン
ルビつきに変換することができるので、非常に便利な
フォントである。Word ではピンインの自動ルビ振り
DFHeiLight-B5
が可能であるが、フォント切り替えだけで済むのは魅
DFHeiBold-B5
力であるし、一太郎など、さまざまなソフトで利用で
DFNHeiXBold-B5
きるのもありがたい。
DFHeiUBold-B5
ただし、破音字や固有名詞の大文字起こしピンイン
を表現するには、一文字ずつフォントを切り替える必
以上四書体。いずれもゴチック系フォントである。
韓国 KSC フォントは、
要があるが、24 種類のフォントの中から対応するフォ
ントを探し出すのは、非常に面倒である。また、軽声
にも対応できないし、破音字フォントが一つしか添付
DFKMincho-Bd
されないので、例えば「和」の五つの読音(hé・hè・
hú・húo・hùo)を全て表現することはできない。二
が添付される。このほか、Big5 準拠のピンインルビ
種類だけでもほとんどのニーズに応えることはできよ
つきフォント、も収録される。
うが、台湾の注音ルビ
中国語フォントは書体が限定されているので、あま
つきフォントの多く
り実用的ではない。しかしそのことは、Unicode 3.0
は五・六の破音字フォ
対応フォント 3 書体の魅力をいささかも損なうもの
ントを用意している
ではない。
のだから、同様の対応
Chinese Studio
をしてほしかった。
Chinese Studio に
繁体字フォントの例
學而時習之不亦說乎
學而時習之不亦說乎
而之不亦說乎
學而時習之不亦說乎
2001 年 11 月に発売された、おそらく日本で発売
は、このほか簡体字・繁体字フォントが九書体ずつ収
された始めての中国語フォント集である。希望小売価
録されている。簡体字フォントは MS Office Proofing
格は 12,800 円。
Tools にも収録されるものの、繁体字 Big5 フォント
このパッケージのセールスポイントは、ピンインル
ビつきフォントである。ゴチックと宋体の二書体の漢
字に、
• ピンイン位置:文字の上・下
• ピンインルビのサイズ:大・中・小
• ピンインの初めの 1 文字:小文字・大文字
集は国内では入手が困難であるだけに、ありがたい。
総じて、中国語や漢文を扱う人にとっては購入して
も決して損はないフォント集であると言えよう。
Type X
2002 年 7 月発売の DynaFont の最新フォントパッ
ケージ。希望小売価格は 13,800 円。日本語フォント
150 書体、欧文約 3,000 書体を収録する。
以上、12 のバリエーションのルビつきフォントが設
148 ● 漢字文獻情報處理研究 第 3 号
Type X には、Unicode フォントは収録されないが、
DynaFont
たのであるから、非常に実用性が高い。
れる。特に簡体字フォントは、中国の新しい文字コー
モリサワフォント
ド規格、GB 18030 に対応した宋体・ゴチック体フォ
DynaFont ではないが、ここであわせて触れておく。
ン ト で あ り、Unicode の CJK Extension A を 含 む 約
モリサワフォント(http://www.morisawa.co.jp/)は、
27,000 字の漢字を収録している。
わが国出版界のデファクトスタンダードフォントであ
DFSongW3-A
㐀㐂䬡䯥䶵あいうえお
DFHeiW5-A
る。その Windows 向け OpenType フォントがパッケー
ジ発売されている。
収録フォントは、
㐀㐂䬡䯥䶵あいうえお
リュウミン L-KL
中ゴシック BBB
Microsoft 中国が提供する GB 18030 アップデート
太ミン A101
パッチではゴチック体フォントは提供されないので、
太ゴ B101
これまた現在国内で入手可能な唯一の GB 18030 対
じゅん 101
応ゴチック体フォントということになる。ただし、彝
見出ゴ MB31
文字などの少数民族文字は収録されていないので注意
見出ミン MA31
が必要である。
なお、本製品ではフォント一覧などが DynaDoc で
はなく、PDF で収録されている。
の 7 書体。いずれも、Adobe Japan 1-4 に準拠し、約
15,500 字を収録する。
希望小売価格は 45,000 円、実売は 30,000 円以下
❏ OpenType
である。TrueType に比べると高額ではあるが、従来
の Windows 向けの DTP 用フォントは一書体でこの程
OpenType 100 Standard
Adobe 社 な ど が 策 定 し た フ ォ ン ト 規 格 で あ る
OpenType のフォント集。2002 年 4 月の発売で、希
度の価格であったから、相当安価になっている。もっ
とも、マシン一台につき一パッケージを購入しなくて
はならないので、複数のマシンを抱える DTP 業者の
ことを考えれば、適正な価格であろう。
望 小 売 価 格 は 29,800 円。 収 録 さ れ る 100 書 体 は、
なお、同フォントを Windows XP にインストール
DynaFont Type Museum な ど と ほ ぼ 同 じ で あ る が、
する際には、最新のインストーラをモリサワの Web
フォント名は区別されている。
サイトからダウンロードする必要があるので、注意さ
OpenType は Mac 環境と Windows 環境とのフォン
れたい。
ト環境の共有化によるドキュメント交換の実現が最大
のメリットであるが、対応製品はいまのところ Adobe
注
社の InDesign くらいであり、一般ユーザーにはあま
[1] 筆者は、この問題を解決するためのルビフォント切り
り関係ない。しかも Standard 版であり、収録文字数
替え Word マクロを鋭意制作中であり、近日中に Web
は従来の日本語 TrueType フォントと同じく JIS コー
サイト(http://wagang.econ.hc.keio.ac.jp/)に公開する
ドの範囲にとどまっている。しかし InDesign DTP に
予定である。
携わるものにとっては、多彩な書体が安価で提供され
Journal of JAET vol.3 ● 149
文字コードとフォント
簡体字・繁体字中国語フォントが二書体ずつ収録さ
ソフトウエア レビュー
今昔文字鏡
山田 崇仁
収録する以
❏ バージョン 3 の変更点
上、 提 出 資
料に基づい
大規模文字(外字)セット今昔文字鏡(以下、文字
鏡と略)も、昨年バージョン 3 にアップした。
て文字属性
を確定する
新バージョンは、収録漢字数の増大や、西夏文字の
のは当然で
ような漢字以外の文字種の追加、また Unicode 3.0 の
あ る。 し か
拡張領域 A も検索可能になったことなど、基本機能
し、 別 な 利
の充実が計られているが、それよりも目立つのは、イ
用者がそれ
ンターフェイスが一新された点だろう
とは異なる情報や更に有益な情報を持っているかもし
インターフェイスの変更は、勇気がいる所だが、評
者は従来の文字鏡のそれが決して利用しやすいとは言
図 1 今昔文字鏡バージョン 3 の画面
れない。それを生かすためにも文字登録の典拠資料を
公開してほしいのである。
えなかったと感じていたので、むしろ積極的に評価し
手間もかかるし著作権の都合もあるので、公開形
たい。特に各種絞込検索の充実について、実装された
式については議論が分かれるだろうが、典拠資料を
ことを素直に喜びたい。
Web 上に置き、製品版の文字からリンクを貼るとか、
ただ、旧版では、文字一覧の表示で各国毎のコード
ポイントが参照できたが、新版ではこれが省略されて
公開できない典拠については書籍名+ページ数等を明
記するだけでよいので、ぜひ実現をお願いしたい。
しまっている。Unicode の漢字統合とコードセパレー
トの関係を見るのに、文字鏡のこの画面は非常に便利
❏ おわりに
だったので、機能の省略は残念だとは思うが、Web
版文字鏡では利用可能なので、そちらを利用するか、
評者のこのような問題意識は、文字鏡を単に外字作
旧版も平行して使用すれば別に深刻な問題とはならな
成共用システムとしてとらえるか、文字データベース
いだろう。
としてとらえるかの方向性の違いといえる。
確かに、単に「印刷時に文字があればよい」という
❏ 文字の典拠が見たい!
観点からは、この意識は無意味かもしれない。しかし、
PDF のようなデジタルドキュメントにしたい、ある
文字鏡は、大漢和辞典の番号をベースにしているが、
いは自作プログラム中に文字鏡番号を利用したい場合、
今ではその倍以上の文字を収録している。その拡大の
文字鏡研究会のライセンスを読む限り、これらの利用・
スピードとそれを実現した関係者の努力には頭が下が
公開には文字鏡研究会への申請と(場合によっては)
る思いである。しかし、外字の同定等で文字鏡を安易
一定の制限を受けることになる。
に利用できない場合がある。それは、文字鏡の典拠情
報が不足しているからである。
しかし、評者は文字鏡は単なる外字共用だけに収ま
らない可能性を秘めており、それだけにとどめるのは
文字鏡に限らず、字典・辞典類では文字属性を併記
もったいないのではないかと思うのである。日本発の
する事が一般的であり、大規模な字書ではその典拠も
大規模文字セットとして一般のみならず、Unicode 拡
確認できるが、文字鏡では典拠が明示されていない場
張領域 C の資料の一つとして利用されるなど、国際
合がある。特に『大漢和辞典』互換ではない文字鏡オ
的にも文字共有環境として認知されつつある以上、せ
リジナル部分についてそれが目立つ。
めて文字鏡番号や PDF での利用条件をもう少し緩和
もちろん、文字を収集・整理する側の文字鏡研究会
は、収録希望文字の希望者提出資料に基づいて文字を
150 ● 漢字文獻情報處理研究 第 3 号
してほしいと希望する次第である。
今昔文字鏡・WWW ブラウザ
ネットワーク
❖ ネットワーク
WWW ブラウザ
師 茂樹
こには、表示が比較的容易な欧米諸言語や東アジアの
❏ 成熟した三大ブラウザ
諸言語だけでなく、アラビア語などの所謂 Right-toLeft の言語や、文字同士の結合が面倒なヒンディー語
2002 年 6 月における WWW ブラウザのシェアは
以下のような状況だと言う
[1]
。
などで書かれたページもあるが、いくつかの例外を除
いては各ブラウザで適切に表示することができる。
ただし、たくさんの文字が表示されさえすれば多
Microsoft Internet Explorer 6.0
46.4%
言語に対応した、というわけにはもちろんいかない。
Microsoft Internet Explorer 5.5
23.9%
Unicode を基盤とする国際化がなされている現状では、
Microsoft Internet Explorer 5.0
23.6%
昨今の Unicode 批判を見ればわかるように、グリフ
Netscape Navigator 4.0
1.4%
の細かな違いまで意識するような対応が求められて
Microsoft Internet Explorer 4.0
1.2%
いるからである。以下、この点について、HTML の
Opera 6.0
0.6%
lang 属性に注目しながら三大ブラウザの多言語対応
Netscape Navigator 3.0
0.5%
の違いについて検証したい。
Mozilla 1.0
0.4%
Netscape 7.0
0.3%
相変わらずの Internet Explorer(以下 IE)強しであ
❏ lang 属性によるグリフの変化の違い
HTML では、タグに言語情報を付加する共通の属性
るが、かつての右大臣である Netscape / Mozilla 系や、
として lang がある。これはタグ中に「lang=“言語コー
新興勢力 Opera のシェアが確実にあがってきている。
ド”」のように記述することで、そのタグの間に挟ま
IE、Netscape / Mozilla、Opera の 三 種 を( 大 き な 偏
れたテキストが何語であるかを指定することができる。
りがあるが)三大ブラウザと呼んでもよかろう。
言語コードは RFC 1766 で定義されており、日本語な
さて、ブラウザの性能についてはここのところ大き
ら ja、中国語なら zh になる。zh-TW(台湾の中国語)
なニュースを耳にすることはなく、もっぱら使い勝手
という具合にハイフンの後にサブコードを付加するこ
やセキュリティの面に話題が集中しているようである。
ともできる。
思えば HTML の最終バージョンである 4.01 が制定さ
れたのは 1999 年 12 月のことであるから当然と言え
HTML 4.01 での定義では、lang 属性は以下のよう
な用途に用いられることが期待されている[3]。
ば当然である。このような変化に乏しい状況を
“停滞”
と見なす者もあろうが、評者としては実装が安定し、
 サーチエンジンの支援
それに比例してアクセシビリティが向上している面な
 音声合成システムの支援
どを積極的に評価したい。
 ブ ラ ウ ザ が 高 品 質 な 文 字 表 示 の た め に(for
各ブラウザの多言語対応についても、ほとんど問
題がないレベルに達しているのではないかと思う。
Unicode コンソーシアムのサイトには様々な言語で書
かれた“What is Unicode?”のページがある[2]。こ
high quality typography)グリフを選択する際
の補助情報
 ブラウザによる適切な引用符の選択のための補
助情報
Journal of JAET vol.3 ● 151
ソフトウエア レビュー
 ブラウザによる適切なハイフネーション、リガ
チャ、文字間の調節のための補助情報
 スペルチェッカ、文法チェッカの支援
湾には変化が見られない。lang 属性を認識している
ようであるが、グリフの選択においては包摂の度合い
が強いようである。
次に、Mozilla 1.0 での表示例を見てみよう。
この中、現状で実際に実用化されているのはサー
こ こ で も IE
チエンジン、グリフの選択、スペルチェッカあたりで
同 様、lang 属
あろうが、ここでは三大ブラウザが lang 属性によっ
性によるグリフ
てどのように文字表示を変化させるか(させないか)
の変化が見られ
について検証する。検証に当たっては、Windows XP
るが、細かく見
Professional 日本語版上で、以下の HTML を用いて
ると日・中・台・
行った。
韓の漢字それぞ
れが微妙に異なっていることがわかる。
最後に Opera 6.05 日本語版で表示してみた例を見
<!DOCTYPE html PUBLIC "-//W3C//DTD
てみよう。
HTML 4.01//EN">
ここではまっ
<html lang="ja">
たく変化がなく、
<head>
<meta
http-equiv="Content-Type"
content="text/html; charset=utf-8">
<title>lang 属性実験 </title>
lang 属 性 を 参
照している様子
は見られない。
先に見たよう
</head>
に、規格上、こ
<body lang="ja">
のようなグリフの変化は“high quality typography”
<p>「 与 」 と い う 漢 字 は 中 国 で は「<span
lang="zh-cn"> 与 </span>」、
台湾では「<span
lang="zh-tw"> 与 </span>」、
韓国では「<span
において期待されている機能であり、決して義務では
ない。逆に、表示品質を多少落としても動作の軽快さ
などを求めるという場合には、このように手間がかか
lang="ko"> 与 </span>」 と 表 示 さ れ ま す。
り、グリフデータの格納に大きなディスク容量が必要
</p>
な処理は、あえてしないという選択肢もあろう。しか
し、Unicode による一元化が進む今日、このような取
<p>「 翩 」 と い う 漢 字 は 中 国 で は「<span
lang="zh-cn"> 翩 </span>」、
台湾では「<span
り組みが継続されることは決して無益なことではある
まい。
lang="zh-tw"> 翩 </span>」、
韓国では「<span
lang="ko"> 翩 </span>」 と 表 示 さ れ ま す。
</p>
注
[1] http://www.onestat.com/html/aboutus_pressbox7.html
</body>
[2] http://www.unicode.org/unicode/standard/WhatIsUnico
</html>
de.html
[3] http://www.w3.org/TR/html401/struct/dirlang.html#h-8.1
この HTML は、
IE で は 左 の よ う
に表示される。
中国や韓国の
グリフに変化が
見 ら れ る が、 台
152 ● 漢字文獻情報處理研究 第 3 号
WWW ブラウザ・EmEditor
その他
❖ その他
EmEditor
山田 崇仁
(所謂 grep 機能)が文字コードを UTF-8 で保存され
❏
多言語に強い EmEditor
たテキストファイルの検索には対応していない点には
大いに不満がある[4]。
EmEditor は、株式会社エムソフト開発のテキスト
また、Unicode 3.1 の拡張領域 B への対応もまだま
ファイル専用編集ソフト(所謂テキストエディタ)で
だである。一応、Word の[挿入]→[記号と特殊文
ある(3,000 円のシェアウェア)[1]。
字]を選択して、そこから拡張領域 B の文字を選択
日本における Windows 用テキストエディタといえ
すれば貼り付けられないことはない。ただし、実際に
ば、有限会社サイトー企画の秀丸エディタが定番だが、
は画面上では文字が重なって表示されるし、一文字が
秀丸エディタは多言語対応が強化されつつあるものの、
4 バイト× 1 ではなく、2 バイト× 2 の扱いを受けて
現状では JIS X 0208 以外の文字を縦横に扱うのは難
いるので、実質的には使い物にならない。JIS の第三・
しい。また、巷間の Unicode 対応テキストエディタも、
第四水準収録の漢字が多くこの部分に含まれる以上、
JIS X 0208 以外の文字を入力できないものが多いの
EmEditor に限らず日本のソフトウェアベンダーの拡
が現状である[2]。
張領域 B 対応をお願いしたい[5]。
対して EmEditor は、バージョン 3 以降積極的に多
言語対応にとりくみ、現状では Unicode の拡張領域 A
までの文字ならほぼ問題なく利用できる。当然、
検索・
置換のキーワードにそれらの文字列を使用できるし、
注
[1] EmEditor に関する各種情報は、エムソフトの Web サ
動作速度も軽快そのものである。
加えて、
最新バージョ
イト(http://www.emurasoft.com/jp/)から入手可能。
ン(執筆時点では 3.28 のベータ版)では、検索・置
[2] 尤も、オンラインソフトが作成者の必要な機能を中心
換の文字列に正規表現が利用可能になった[3]。
また EmEditor は、豊富な標準機能以外にも、キー
に形作られる以上、作成者が JIS X 0208 以外の文字
列を利用する必然性が身近に感じられない以上、対応
操作を記憶してそれを再現するクイックマクロがあり、
していないからと言って文句を言うのもおかしな話な
それに加えてより高度な外部機能をプラグイン形式で
のかもしれない。
組み込むことができる。エムソフトの Web サイトで
は、エムソフト開発の中国語繁体字簡体字相互変換プ
[3] これまでもプラグインで正規表現を利用できたが、
Unicode には対応していなかった。
ラグインや、プラグイン作者による数多くのプラグイ
[4] 秀丸の最新バージョンは UTF-8 の grep に対応。
図 1 EmEditor の編集画面
[5]この辺りは、本誌前号所収の師茂樹氏の論攷「エディ
ンが公開されて
いる。
タの Unicode 対応」に既に述べられている。
但し、EmEditor
[6] 但し、EmEditor に限らずエムソフトのリリースする
の現状は評者に
オンラインソフトについては、メーリングリストや
とって決して満
@nifty の会議室などで不具合や各種要望など、活発な
点の評価ではな
議論が交わされている。そこで話題になる事で、次バー
い。例えば、ファ
ジョン以降解決される場合がある。grep の UTF-8 未
イルからの検索
対応については、既にメーリングリストに報告ずみ。
Journal of JAET vol.3 ● 153
ソフトウエア レビュー
Perl 5.8
師 茂樹
はない。文字のプロパティ、正規形、分解アルゴリズ
❏ はじめに
ム、照合など、大規模文字セットを適切に扱うために
は欠かすことのできない様々なデータベースの集合体
2002 年 7 月 18 日、予定から 2 ヶ月弱遅れて Perl
が Unicode という規格なのである[4]。今回 5.8 にお
5.8.0( 以 下 5.8) が リ リ ー ス さ れ た。 今 回 の バ ー
いて補強されたのも、主にこのコードポイント以外の
ジョンアップの目玉は、
“Unicode - Threads - More
部分である。
Modules - PerlIO”と要約されるとおり、Unicode サ
ポートの強化、スレッドおよび IO の実装の刷新、モ
ジュールの大幅増加などであるが、その中でも特に重
要なのは最初にあげた Unicode を基盤とする多言語
プロパティ
5.6 において、正規表現に Unicode の文字プロパティ
[5]
を使うことができるようになった(\p、\P)。し
サポートの強化である。しかもこれは従来の Unicode
かし、5.6 で使えたのは Unicode で定義されているプ
(UTF-8) の処理だけでなく、既存のローカルコードと
ロパティのごく一部であり、例えば漢字についてであ
の相互変換などを含めたより包括的なものである。5.8
れば、
のリリースのアナウンス
[1]
が、英語だけでなく日本
語、中国語(繁体字・簡体字)
、韓国語でも同時にな
されていることは、それを象徴していると言えるだろ
う。
\p{InCJKUnifiedIdeographs}
という Unicode のブロック名によるプロパティでし
本レビューでは、Unicode サポートに焦点を絞って
5.8 の新機能について概観したい。なお、本稿執筆時
か表現することができず、したがって Unicode に含
まれる任意の漢字一文字を表現するためには、
点ではソースコードのみの公開しかされておらず、こ
こでの評価も Cygwin 上でコンパイル[2]したものを
元にしたものであるため、本誌発行時には入手可能で
あろう Active Perl などのバイナリ・リリースとは若
干異なる点があるかもしれないが、ご寛恕いただきた
い。
[\p{InCJKUnifiedIdeographs}\
p { I n C J K C o m p a t i b i l i t y } \
p{InCJKCompatibilityForms}\
p{InCJKCompatibilityIde
ographs}\p{InCJKCompatibility
I d e o g r a p h s S u p p l e m e n t } \
❏ Unicode サポートの完成
p{InCJKRadicalsSupplement}\
Perl における Unicode への取り組みはバージョン 5
の開発当初から行われてきたが、バージョン 5.6(以
下 5.6)から正式に Perl 本体へと組み込まれるように
[3]
なった。しかしながら、本誌創刊号でのレビュー
でも指摘したように 5.6 における Unicode の実装は不
p{InCJKSymbolsAndPunctuation}\
p { I n C J K U n i f i e d I d e o g r a
phsExtensionA}\p{InCJKUnified
I d e o g r a p h s E x t e n s i o n B } \
p{InEnclosedCJKLettersAndMonths}]
完全なものであり、今回の 5.8 の公開によって 5.6 で
という具合に、大変長ったらしく書き連ねなければな
掲げられた看板がようやく実現された、と言うべきで
らなかった。
あろう。
ところで「Unicode の実装」というと、兎角文字の
しかし、5.8 ではスクリプト名による正規表現にも
対応したので、
多寡のみが話題にのぼりがちであるが、コードポイン
トを使えるようにすることだけが Unicode の実装で
154 ● 漢字文獻情報處理研究 第 3 号
\p{Han}
Perl 5.8
ところでは全角文字と半角文字とを同一視したい場合
もあろう。検索などにおいては、このような曖昧さを
大文字・小文字
解消するための正規化が必要である。
Perl には下表のとおり文字の大文字・小文字を変換
するためのメタ文字がある。
Unicode で は こ の よ う な 要 求 に 応 え る た め に、
Unicode 正規形(Unicode Normalization Forms)が規
メタ文字
機能
定されており、5.8 では Unicode::Normalize という標
\l
次の 1 文字を小文字に
準モジュールで実装されている。Unicode 正規形の詳
\u
次の 1 文字を大文字に
しい内容については、紙幅の都合もありここでは述べ
\L
次の \E まで小文字に
ないが[8]、下のサンプル・スクリプトとその結果か
\U
次の \E まで大文字に
らその有用性を読み取っていただきたい。
Unicode には、上記のようなプロパティだけでなく、
その文字が大文字か小文字かを示すプロパティがある
[6]
ので、5.6 の時点でも下のようなスクリプトによっ
てダイアクリティカル付ローマ字などの大文字⇔小文
字変換ができるはずであった。
use utf8;
u s e
U n i c o d e : : N o r m a l i z e
qw(:normalize);
print
compose(" か \x{3099} ホ
\x{309A} ゝ \x{3099}"), "\n";
print decompose(" 마 이 크 로 소 프 트 "),
"\n";
use utf8;
print "\Unínhǎo\E";
print NFKD(" ㍻、①、山 、神様 "), "\n";
print NFKC(" パール Perl "), "\n";
ところが、5.6 でこのスクリプトを実行すると、出
力されるのは「NíNHǎO」であった。すなわち、ASCII
このスクリプトによる出力は以下の通りである。
コード部分のみの変換にとどまっていたのである。し
かし 5.8 では「NÍNHǍO」とダイアクリティカルマー
がポゞ
ク付のローマ字についてもきちんと大文字へと変換さ
마이크로소프트
れるようになった。これ以外にも「έ」などのギリシ
平成、1、山
「Ⓐ」
ア文字、「ⓐ」のような丸付きローマ字は、
「Έ」
パール Perl
、神様
へきちんと変換される。
出力結果を詳しく見てみよう。1 行目は、結合用の
Unicode 正規形
濁点・半濁点を伴ったかな文字を、結合済みの形に
Unicode によって数多くの文字を表現できるよう
変換している。2 行目は逆に、結合済みのハングルを
になった反面、1 つの文字を表現するのに複数の方
字母単位に分解している。3 行目は、文字の正規化で
法が可能になってしまった。例えば「ñ」であれば
ある。1 文字の「㍻」は通常の「平成」に、「①」は
U+00F1 Latin Small Letter N With Tilde と い う ひ と
数字と見なされ「1」に、互換領域にある「神」は統
つのコードポイントで表現するのが通常であろうが、
合漢字の「神」に、それぞれ正規化されている。「﨑」
「n」(U+006E Latin Small Letter N)+「~」
(U+0303
Combining Tilde)のように、基本文字+結合文字と
が「崎」に変換されていないが、互換領域のうち一部
の漢字については通常の統合漢字として扱われるなど、
いう 2 つのコードポイントの組み合わせで表現する
(Unicode 成立過程での駆け引きの中で生じた)若干
ことも可能である。同様のことはかな文字(
「が」⇔
の例外がある。4 行目は、互換文字である半角かなや
「か」+「゙」U+3099 Combining Katakana-Hiragana
[7]
Voiced Sound Mark
)や丸付き文字(
「㊊」⇔「月」
+「 ○ 」U+20DD Combining Enclosing Circle) な ど
全角文字を正規化した結果である。
以上の例は Unicode 文字の正規化のごく一部であ
るが、実際のテキスト処理においては Unicode が決
Journal of JAET vol.3 ● 155
その他
にもあてはまる。また、日本人にとって馴染みの深い
という簡潔な表現ですむようになった。
ソフトウエア レビュー
める最大公約数的な正規化だけではうまくいかない場
cp1258, dingbats, euc-cn, euc-jp, euc-kr,
合もあるだろう。しかし、基本的な部分とは言えそれ
gb12345-raw, gb2312-raw, gsm0338, hp-
が規格として用意され、Perl 上で気軽に利用できるよ
roman8, hz, iso-2022-jp, iso-2022-jp-1, iso-
うになったことは大いに評価したい。システムやデー
2022-kr, iso-8859-1, iso-8859-2, iso-8859-3,
タベースの開発者は、基本的な部分は Perl にまかせ、
iso-8859-4, iso-8859-5, iso-8859-6,
それぞれに必要な例外部分だけを実装すればよく、生
iso-8859-7, iso-8859-8, iso-8859-9,
産性の向上が期待できるからである。
iso-8859-10, iso-8859-11, iso-8859-13,
iso-8859-14, iso-8859-15, iso-8859-16, iso-
ローカルコードのサポート
ir-165, jis0201-raw, jis0208-raw, jis0212-
ところで、5.6 以前は本質的に ASCII ベースのスク
raw, johab, koi8-f, koi8-r, koi8-u, ksc5601-
リプト言語であった Perl において、シフト JIS や GB
r a w, M a c A r a b i c , M a c C e n t r a l E u r R o m a n ,
2312、Big5 などといったローカルコードを処理する
MacChineseSimp, MacChineseTrad,
場合、Jperl のようにソースに直接手を入れてローカ
MacCroatian, MacCyrillic, MacDingbats,
ライズするほかなかった。jcode.pl、Jcode.pm などの
MacFarsi, MacGreek, MacHebrew,
ようなツールもあるが、これらは 1 バイト文字の処
MacIcelandic, MacJapanese, MacKorean,
理系の中で 2 バイト文字を扱うための補助的なもの
MacRoman, MacRomanian, MacRumanian,
に過ぎなかった。
MacSami, MacSymbol, MacThai, MacTurkish,
しかし、Perl がほぼ完全に Unicode 3.2 に対応した
M a c U k r a i n i a n , M I M E - B , M I M E - H e a d e r,
ことで、(昨今の Windows や Microsoft Office のよう
MIME-Q, nextstep, null, posix-bc, shiftjis,
に)Unicode ベースのローカルコード処理が可能とな
symbol, UCS-2BE, UCS-2LE, UTF-16, UTF-16BE,
るであろうことは容易に想像しうる。5.8 に標準で付
UTF-16LE, UTF-32, UTF-32BE, UTF-32LE, utf8,
属する Encode モジュールは、まさにそれを実現する
viscii
ためのインターフェースである。
Encode モジュールで扱うことができる CES(Code
ここに挙げたものは正式な名前ではないが、文字
Encoding Scheme)は次にあげるスクリプトで求める
コードに関心のある読者(=このモジュールを使う
ことができる。
であろう読者)であれば、大方想像がつくのではな
かろうか。ちなみにこの中で中国の CES は euc-cn、
gb2312-raw、gb12345-raw、iso-ir-165(GB 2312
use Encode;
@all_encodings
=
Encode-
>encodings(":all");
+ GB 6345 + GB 8565 +α)、MacChineseSimp(Apple
に よ る 拡 張 版 GB 2312)、cp936(Microsoft に よ る
拡張版 GB 2312 = GBK)、hz(7 ビット版 GB 2312)
このスクリプトによって得られる CES 名は以下の
通りである。
であり、台湾の CES は big5-eten(Big5 +倚天の外字)、
big5-hkscs(Big5 +香港外字)、MacChineseTrad(Apple
による拡張版 Big5)、cp950(Microsoft による拡張
7bit-jis, AdobeStandardEncoding,
版 Big5)である。
AdobeSymbol, AdobeZdingbat, ascii, ascii-
ところで、このリストには昨今話題の JIS X 0213
ctrl, big5-eten, big5-hkscs, cp37, cp424,
や GB 18030 などが含まれていないが、サイズの関係
cp437, cp500, cp737, cp775, cp850, cp852,
から Perl 本体に収録しなかっただけで、別モジュール
cp855, cp856, cp857, cp860, cp861, cp862,
として CPAN[9]等から提供されることになっている。
cp863, cp864, cp865, cp866, cp869, cp874,
JIS X 0213 に関しては Encode::JIS2K というモジュー
cp875, cp932, cp936, cp949, cp950, cp1006,
ルによって、GB 18030 に関しては Encode::HanExtra
cp1026, cp1047, cp1250, cp1251, cp1252,
に よ っ て 対 応 可 能 だ。Encode::HanExtra に は GB
cp1253, cp1254, cp1255, cp1256, cp1257,
18030 に 加 え て EUC-TW、CCCII、Big5+、Big5e な
156 ● 漢字文獻情報處理研究 第 3 号
Perl 5.8
# ! / u s r / l o c a l / b i n / p e r l
ころ 1 ∼ 7 面のみであるが EUC-TW として実装され
-Mencoding=shiftjis
ているとのことである(Encoding::CN、Encoding::TW、
。
Encoding::Supported のマニュアルを参照[10])
と変更するだけで、ほぼ変更なしに実行が可能である。
さて、Encode モジュールの使い方であるが、スク
以上は、Encoding モジュールの機能の、ほんの一
リプトの先頭で「use Encode;」として読み込むのが
端を紹介したに過ぎないが、非常に強力で有益であ
基本だ。例えば、シフト JIS のファイルを UTF-8 で出
ることがわかってもらえるのではなかろうか(全容に
力する場合、
ついては man Encoding ならびに perldoc encoding を
参照)。Encoding モジュールの実装は、Jperl.pm の開
use Encode;
発者でもある Dan Kogai(小飼弾)氏を筆頭に、多く
open W, "> utf8.txt";
のアジア人の開発者が参加している。サポートする
while (<>) {
文字コードの多様さ、特に、外字セットも考慮した
$utf8 = decode("shiftjis",
CJK 関連のマニアックとも言える充実ぶりは、裏を返
せばこれまでのシステムに対するアジア人の不満―
$_);
print W $utf8;
サポートが後回しにされたり、されたとしてもオフィ
シャルなものに留まっていたり―の表れなのかもし
}
れない。
と、decode で明示的に変換するか、
❏ バージョン 5.x から 6 へ
use Encode;
open F, "<:encoding(shiftjis)",
以上、5.8 の機能について Unicode 対応を中心に概
"shiftjis.txt" or die;
観したが、問題点がないわけではない。これだけ大き
open
なシステムになってくると、新バージョンのリリース
W,
">:encoding(euc-jp)",
“eucjp.txt” or die;
時には恒例のバグ報告(と、自称初心者の教えてメー
while(<F>){
ル)が各方面で飛び交うわけであるが、5.8 でも例に
print W $_;
}
漏れず少なくない量のバグが発見されているようであ
る。機能的な不満はほぼ解消されつつあるので、今後
は安定性、完成度の高さを目指してもらいたいもので
と、入出力の際に指定することもできる。また、コマ
ある。我々もバグや不具合を発見したならば、積極的
ンドライン・オプション M でモジュールを指定する
に報告するように努めなければならないだろう。また、
こともできるので、
特に Unicode 関係のモジュールを使っていると処理
時間が目に見えて遅くなる問題も無視できない。スタ
perl -Mencoding=shiftjis,STDOUT,utf8
ンドアロンで動かしている分にはそれほど問題はなか
-pe1 < file.sjis > file.utf8
ろうが、処理速度が気になる CGI などでは顕在化す
るかもしれない。
とすれば、スクリプトを書かずともシフト JIS から
ところで、Perl の最終バージョンであるとされる
UTF-8 への変換が可能だ。このコマンドオプションを
Perl 6 の開発ビジョンについては、原作者 Larry Wall
使えば、既存の Jperl のスクリプトの先頭が、
氏による「黙示録」[11] からうかがうことができる
が、それによると Microsoft の .NET のように Perl で
#!/usr/local/bin/jperl
ありながら Perl のコードを書かなくてもよくなるな
4
4
4
4
ど、5.x 以前とはだいぶ雰囲気の異なったものになる
などとなっていた場合、シフト JIS ベースであれば、
ようである。開発も精力的に進められているようであ
るが、資金難であるというニュースも飛び込んできて
Journal of JAET vol.3 ● 157
その他
ども含まれており、CNS 11643 についても現在のと
ソフトウエア レビュー
おり[12]、今後の展開に注目したい。いずれにせよ、
気軽にテキスト処理ができ、しようと思えば何でもで
きるという姿勢は崩して欲しくないものである。
[8] Mark Davis and Martin Dürst. "Unicode Standard
Annex #15 : Unicode Normalization Forms," http://w
ww.unicode.org/unicode/reports/tr15/ および貞廣知行
「Unicode 正規形、正規化とは」(http://homepage1.ni
fty.com/nomenclator/unicode/normalization.htm)参照。
注
貞廣氏は Unicode::Normalize モジュールの作者であ
[1] http://dev.perl.org/perl5/news/2002/07/18/580ann/
り、本稿においても氏のサイトおよびメーリングリス
[2] Perl 5.8 は、Linux 等 の ク ロ ー ン を 含 む Unix 系 OS
トへの投稿などを大いに活用させていただいた。感謝
を 始 め、DOS 系、Windows シ リ ー ズ(CE も 含 む )
、
申し上げたい。
Mac OS シリーズ(Classic・Darwin の両方)などから、
[9] http://www.cpan.org/
BeOS、OS/2 などのマイナー OS まで、数多くのプラッ
[10] Encoding::CN のマニュアルを見るには、Cygwin で
トフォームでコンパイル可能である。ただし、OS 自
あれば「man Encoding.CN」と入力する。
体の機能やコンパイラの問題などで、いくつかの制限
[11] http://dev.perl.org/perl6/apocalypse/
があるものもある。
「man perlport」等を参照。
[12] http://slashdot.jp/article.pl?sid=02/07/10/057238
[3]『漢字文献情報処理研究』創刊号、2000 年 10 月、好
文出版、pp. 107-109
[4] Unicode と 文 字 セ ッ ト の レ ベ ル で は 同 等 の ISO/IEC
10646 には、
文字のプロパティなどが含まれていない。
[5]The Unicode Standard, Version 3.0 (Reading, MA,
等を参照。余談になるが、所謂伽藍方式によるフリー
ソフトウェアの開発において「資金難」が発生するこ
とに違和感を感じる人もいるかもしれないので、この
場を借りて二三述べておきたい。この違和感は恐らく、
オープンソース運動に対して人々が少なからず抱くで
Addison-Wesley, 2000) の「4. Charcter Properties」、
あろう(素朴な)共産主義的イメージによるものであ
な ら び に“Unicode Standard Annex #27: Unicode
ろうが、このイメージはフリーソフトウェア開発のご
3.1” (http://www.unicode.org/reports/tr27/)、
“Unicode
く一部を写しているに過ぎない。IBM などの営利企
Standard Annex #28: Unicode 3.2” (http://www.unico
業がわざわざ巨額の資金を投じてオープンソース運動
de.org/reports/tr28/) の該当箇所を参照。
をサポートし、また自ら実践したりするのは、単なる
[6] 大文字・小文字のマッピングが正式に Unicode の一部
になったのはバージョン 3.2 からである。
[7] 結 合 用 の 濁 点 と は 別 に U+309B Katakana-Hiragana
Voiced Sound Mark というのもある。
利益の社会還元などではなく、ソフトウェアやデータ
ベースの質、特に信頼性を高め、ファイルの流通を迅
速かつ円滑にするためのひとつの解として、積極的に
選択されたものなのである。
中国のソフトウエア動向
千田 大介
WTO 加盟が IT 業界にまず始めに及ぼした影響が、
❏
中国の WTO 加盟と WPS
政府機関使用ソフトの正規版化である。これは逆に言
えば、いまでも多くの政府機関では違法コピーソフト
政府機関ソフトの正規版化
2001 年、中国が WTO に加盟したことは、国内マ
を使っているということであり、中国の著作権問題の
根深さを如実にあらしている。
さて、WTO 加盟を受けて、2001 年 8 月、中国政
スコミでも大々的に取り上げられた。これによって、
府は各政府機関に使用ソフトウエアを正規版化するよ
これまでさまざまなローカルな慣習に守られてきた中
う通達を出した。その先陣を切ったのが北京市政府で
国経済は、国際基準にのっとって世界に向けて門戸を
ある。2001 年 12 月末、北京市政府が決定した購入
開くことが義務づけられた。
ソフトウエアは以下の通りであった。
158 ● 漢字文獻情報處理研究 第 3 号
Perl 5.8・中国のソフトウエア動向
一年での新バージョンへのアップグレードは、前バー
WPS Office:11,443 本
ジョンに問題が多かったことを意味しよう。以下の試
:
ア ン チ ウ イ ル ス ソ フ ト( 金 山・ 江 民・ 瑞 星 )
用レポートは、WPS Office 2002 試用版を、中国語モー
13,169 本
ドに切り替えた Windows XP 日本語版でテストした
結果である。
いずれも中国国産ソフトであるが、WPS Office や
WPS Office 2002 の主要ソフトは、金山文字(ワー
各種アンチウイルスソフトは Windows アプリである
プロ)
・金山表格(表計算)
・金山演示(プレゼンテーショ
ので、クライアント OS には Windows が採用されて
ン)
・金山郵件(メールソフト)の四種である。前のバー
いるのであろう。
ジョンでは、ツールバーのボタンで各アプリケーショ
と り わ け 注 目 さ れ る の は、WPS Office の 採 用
ンを切り替えて使う、統合ソフトのような設計であっ
で あ る。WPS は、DOS 時 代 の 1988 年 に 金 山 公
たが、新バージョンでは全てのアプリが独立起動する
司(KINGSOFT。http://www.kingsoft.net/) が 発 売 し
ようになっている。
た史上初の中文ワープロソフトに起源し、その後、
WPS Office 2002 のセールスポイントは、保存ド
Windows OS の発展とともにバージョンアップを繰り
キュメントに XML 型式を採用したことにある。これ
返してきた。WPS Office は、その WPS に表計算・プ
によって、現在中国政府が策定中の XML に基づく各
レゼンテーションなどの機能を追加した Office スイー
種公式文書のフォーマットへの対応を可能にすると
トで、2000 年に発売された。GB 18030 にもいち早
ともに、MS Office ファイルとの互換性を高めたこと
く対応した[1]。
にある。筆者が試したところでは、金山文字・金山
Windows 時代になって、MS Office の普及(もちろ
表格・金山演示は、いずれも日本語の Word・Excel・
ん海賊版ではあるが)の前に、WPS は何度も存続の
PowerPoint ファイルをも読み込むことができた。た
危機をささやかれてきた。しかし、なにかと物議をか
だし、「・(中黒)」が「?」に化けるという現象が発生
もしていた、最廉価版が 100 元(約 1,500 円)を切
する。
るという低価格路線や、Office スイートへの拡張路線
が、WTO 時代になって奏功した形となった。
金山文字は、多言語編集機能がなかなかに充実し
ている。アラビア文字を右から左に入力することが
WPS Office の対抗馬となったのは、MS Office であ
できるし、デーヴァナーガリーの結合文字も表現でき
る。北京市政府の審査における MS Office の劣勢が伝
る(ただし、文字列の後ろに無意味なスペースが入っ
えられると、マイクロソフトは幹部を北京に送り込み、
てしまう現象が発生する。これは Word 2000 でも発
かなり思い切った値引きの呈示など、巻き返しにつと
生するという[3])。また、Word 2002 から Unicode
めたようだが、挽回できなかった。
Extension B 領域の文字をコピーしてみたところ、問
北京市政府に続いて、2002 年 8 月には広東省政府
題なく 1 文字として表示できた。日本語 IME による
も WPS Office 2002 を 4,000 本購入した。報道によ
日本語入力もできる。簡体字中国語以外のダブルバイ
れば、広東省政府が WPS Office を採用した主因は、
国務院の標準ファイルフォーマットが WPS 形式に
なっていることにあり、MS Office との価格差はそれ
ほど問題にはならなかったという[2]。つまり、中国
の巧みな国内ソフトハウス育成戦略があったのである。
マイクロソフトにしてみれば、中国市場を切り開くは
ずの WTO 加盟が全く逆に作用したのであるから、皮
肉なものである。
WPS Office 2002
その WPS Office であるが、2002 年 6 月に新バー
Journal of JAET vol.3 ● 159
その他
ジョンの WPS Office 2002 がデビューした。わずか
紅旗 Linux:2,801 本
ソフトウエア レビュー
トコードのフォントを選択できないのは相変わらずで
ある。
同シリーズの目録は下記ページからダウンロードで
きる。
金山文字の多言語処理は、GB 18030 が実質的に
http://www.2688.com/product/
Unicode を飲み込んだ規格となっているため、ローカ
zmkmdefault.asp
ルコードの収録文字に対応すれば、それだけでかな
百年河清を待つ?
りの程度の多言語処理に対応できてしまった、とうこ
政府機関や企業で正規版ソフトの導入が進む一方、
となのであろう。日本語や Big5 のフォントが選択で
きないなど、多言語処理ニーズへの配慮が不十分であ
海賊版ソフトの販売への規制も以前に比べると強化さ
る点は一太郎とも似通っており、このあたりにドメス
れており、全国各地で海賊版の摘発キャンペーンが実
ティックなソフトハウスの限界があるのかもしれない。
施されている。しかし、その効果のほどは疑問である。
金山演示でも、金山文字と同様に Extension B・ア
2002 年も 8 月上旬にも海賊版一斉摘発のニュース
ラビア語・デーヴァナーガリなどの処理が可能である
が流れたが、筆者が 8 月下旬に北京中関村を訪ねた
が、金山表格ではそれらの入力・貼り付けは上手くい
おりには、相変わらず海賊版の売人がたむろしていた。
かなかった。また、金山郵件には言語の切換機能が装
近頃は、海賊版ソフトの宅配サービスまで出現してい
備されていない。アプリケーション間の多言語処理機
るという。北京などではメーカー製パソコンの大半は
能の差は、かなり大きい。
紅旗 Linux をプレインストールして販売しているが、
総じて、WPS Office 2002 は旧バージョンに比べて
これも、ユーザーが海賊版の Windows を上書きセッ
相当に機能が拡張・洗練されており、多言語機能など
トアップすることが暗黙の前提となっているようだ。
の点では MS Office には及ばないものの、一般的なオ
そもそも、一部の大都市を除けば、正規版ソフトを入
フィスユースには充分な機能を備えている。
手するのが逆に困難な地域がほとんどであり、電脳城
なお、金山公司の Web サイトには、WPS 蒙文版の
項目が見える。まだコンテンツは準備中であるため詳
細はわからないが、今後の動向に注目したい。
やパソコンショップにも海賊版が堂々と並んでいるの
が実態である。
このような情況は、中国のソフトハウスの経営安定
にはもちろんマイナスに働いている。このため、政府
❏ 海賊版とソフトの低価格化
機関に採用されるなどして公的資金が注入されない限
り、ソフトハウスが収益をあげるのは非常に難しい構
低価格ソフトの動向
中国では海賊版対策の意味もあって、数年前から、
旬を過ぎたソフトを 1 枚 10 元程度の安価なシリーズ
造ができあがっている。
負の連鎖を断ち切って国際基準に適応するとともに、
国内ソフトハウスの育成をはかれるか、中国政府の今
後の対応を見守りたい。
で販売するようになっている。そのようなシリーズと
しては、従来「正版 100」があったが、現在は 2001
年後半に登場した新シリーズ「芝麻開門(開けゴマ)
」
が市場を席巻している。執筆時点で 700 弱のタイト
ルを揃えている。
同シリーズに収録されているのは、発売後 1 年以
上過ぎたやや古めのソフトがほとんどである。しかし、
注
[1] 筆者のサイトの「WPS Office β 1 & GB18030 フォン
トテストレポート」http://wagang.econ.hc.keio.ac.jp/p
c/faq/600.html 参照。
[2]《信息时报》2002-8-6。http://it.dayoo.com/ からは削
学習ソフトや素材集・美術図版・文献データからゲー
除されているが、金山公司のサイトに記事が転載され
ムまでジャンルは多岐にわたり、発売時には数倍・数
ている。
十倍もの価格で販売されていたものだけに、現在でも
[3] 師茂樹+祝康裕「Unicode を用いた Devanâgarî の表
充分実用に耐えるソフトが多い。特に、文献データや、
記について」http://ya.sakura.ne.jp/~moro/resources/i
美術図版や名勝旧跡のマルチメディア解説ソフトなど
ndic_on_unicode/indic_on_w2k.html 参照。
に、掘り出し物が多い。
160 ● 漢字文獻情報處理研究 第 3 号
2001~2002
学術リソース
レビュー
本レビューは、本会の中心的活動である掲示板での情報交換が結
実したものである。電子資料にはオンラインのものとオフラインのも
のがある。前者は Web や LAN を通じて提供されるもの、後者は CDROM、DVD などを指す。これらをアクセスの仕方で区別すれば、リモー
トアクセス、ローカルアクセスと分けられるであろう。「学術サイト」
では、前者に属するものを中心に分野別に論評し、
「学術ソフトウエア」
では、後者に属するものを扱っている。
今年度の大きな特徴は第一に Web サイトの UTF-8 化が進んだこと
が挙げられる。読者諸氏は各レビューを読み、該当のリソースにアク
セスすることで、この情況を肌で感じることになるだろう。第二には
オンライン、オフラインを問わず電子資料の扱うデータが大規模になっ
たことである。「超星数字図書館」、
「四部叢刊」といった個別の電子デー
タについて独立した項目を設けたのはこのためである。
Contents
学術サイト
図書館と OPAC ...............小島 浩之 162 超星数字図書館 ..............千田 大介 166
中国古典文学 ...................千田 大介 170 中国近現代文学 ..............小川 利康 172
仏教学 .................................師 茂樹
176 中国史学 ............................山田 崇仁 178
日本古典文献 ...................大内 英範 181
学術ソフトウエア
四部叢刊 ............................山田 崇仁 183 古典文献 CD-ROM .........千田 大介 185
Journal of JAET vol.3 ● 161
学術リソース レビュー
❖ 学術サイト
図書館とOPAC
小島 浩之
の OPAC を用意している。これは東大のようにローカ
❏ 国内 OPAC
ルデータベースの文字セットが EUC であることを物
語っている。ローカルデータベース内の書誌、所蔵デー
タは受入システム、会計システムといったその他のシ
OPAC の多言語化
ステムデータとリンクしているため、急激な UCS 化
本誌前号のレビューにおいて、Webcat 英語版のエ
が困難なのである。獨協大学図書館のように、システ
ンコードが UTF-8 となり、多言語対応になったこと
ム自体を UTF-8 に対応させた例はまだ少数派だと言
を紹介した。また同じ前号の拙稿[1] では、Webcat
える。とまれ利用者インターフェイスだけでも UTF-8
の多言語対応は総合目録であるが故に先行しているだ
に対応させた各大学図書館の努力に敬意を表したい。
けであり、各大学のローカルシステムも早晩追いつい
ただし、これらの図書館のサイトで多言語 OPAC に
てゆくであろうと述べた。筆者は昨秋までの時点で、
関する詳細な説明を載せているものは少なく、多言語
ローカルシステムまで UCS 化した大学図書館は無い
検索用の解説やヘルプが皆無のところさえある。パソ
という認識の下、拙稿を執筆したのだが、これは誤り
コンでの多言語表示や入力の方法が、一般に普及して
であった。既に 2001 年 3 月に獨協大学図書館がロー
いるとは言い難いのだから、こういった面のケアにも
カルシステムを UCS 化し、OPAC を UTF-8 で公開し
力をいれてもらいたい。
[2]
ていたのである
。この場を借りて調査・認識不足
を心からお詫び申し上げる。
携帯電話版 OPAC
やはり前号のレビューで東大の i-mode 版 OPAC に
獨協大学図書館 NeoCLIUS Knowledge OPAC
ついて触れた。一年たった現在では東大も含めて国立
http://wwwlib.dokkyo.ac.jp/
その他の大学図書館でも昨年度末より多言語対応
大学4、私立大学3、公立図書館5、その他1と急激
OPAC を公開するところが増えてきた。東京大学附属
な勢いで携帯電話対応の OPAC が増えている[4]。も
ちろんこの数はあくまで筆者の知り得た範囲なので、
図書館では 2002 年 2 月 12 日に
東京大学オンライン蔵書目録データベース多言語対
実際はさらに多い可能性がある。この分野では公共図
応版
書館の奮闘が目立つ。中でも注目されるのはその他と
して数えた
http://mulopac.dl.itc.u-tokyo.ac.jp/
を公開している。ここでは約 6 万点の現代中国書の
目録データを検索することができる。ただし東京大
神戸市図書館情報ネットワーク蔵書検索
http://www.lib.city.kobe.jp/i/
学はローカルシステムの文字セット自体を UCS 化し
で、神戸市立外国語大学、神戸市立図書館、神戸ファッ
ているわけではない。文字セットとしては EUC を採
ション美術館ライブラリー、神戸市看護大学図書館の
用し、これを UCS に変換して多言語版 OPAC に表示
蔵書が検索できる。さすがに統合検索は不可能で検索
するシステムとなっている。管見の限りでは、2002
対象館を1館ずつ指定するしかないが、こういった情
年 7 月末現在、国公立大学9、私立大学7、計 16 大
報提供を 2001 年 1 月という早い段階から行ってい
学図書館の OPAC が UTF-8 で提供されている
[3]
。こ
のうちほとんどの図書館が、EUC と UTF-8 の二種類
162 ● 漢字文獻情報處理研究 第 3 号
る神戸市の姿勢は高く評価されるべきだろう。
図書館と OPAC
❏ 漢籍目録
ない。利用者用のヘルプ等もほぼ手つかずの状態なの
で、利用者は戸惑うだろう[6]。今後一層の整備が望
全国漢籍データベース協議会
この分野での本年最大のトピックは、全国漢籍デー
タベース協議会のサイトが公開されたことであろう。
http://kanji.zinbun.kyoto-u.ac.jp/
kansekikyogikai/
まれる。
これらは暫定的な公開ゆえ仕方のない部分も多く、
今後の改良に期待するとともに、まずはこうしてサイ
トが開設されたことを心より喜びたい。
Web 版漢籍目録
この協議会は京都大学人文科学研究所、東京大学東
漢籍目録については、昨年度のレビューで紹介でき
洋文化研究所、国立情報学研究所の三者が幹事機関と
なかったものと、執筆後に公開された計4つのサイト
なり、日本における漢籍総合目録を作成し、Web で
を紹介する。
公開することを目的としている。待望の漢籍データ
1. 大東文化大学図書館古典籍目録検索システム
ベースの方は全國漢籍データベース(日本所藏中文古
籍數據庫)と銘打たれ、
簡易検索
http://www.kanji.zinbun.kyoto-u.ac.jp/kanseki/
と
http://www.daito.ac.jp/tosyo/f/koten/FMPro?DB=kanseki.fmj&-Format=S.htm&-View
2. 紀州藩文庫目録
http://www.lib.wakayama-u.ac.jp/kmoku.html
3. 電子版東京大学総合図書館漢籍目録
詳細検索
http://kanji.zinbun.kyoto-u.ac.jp/kanseki?detail
の2パターンが用意されている。現在検索可能なの
は京大人文研のほか滋賀大学教育学部、鹿児島大学、
http://kanseki.dl.itc.u-tokyo.ac.jp/kanseki/
4九州北部・山口地方の古典籍データベース
http://www.tohwa-u.ac.jp/~mediac/kotenseki/
1 は大東文化大学の和装の古書を総て掲載するもの
立命館大学、京都産業大学が所蔵する漢籍である[5]。
として企画され、多くの漢籍が含まれている。四部分
システム面は UTF-8 ベースで、異体字テーブルもか
類からの検索もできるなど、利用者インターフェイス
ませることで、多言語表示が可能になっている。まだ
が充実している。さらに詳細なヘルプ機能やサポート
整備途中のため検討すべき課題も多いように思われる。
用掲示板の設置など、利用者に対する配慮が隅々まで
例えばインターフェイス面では、簡易検索画面にも検
行き届いている。インターネット時代の利用者と図書
索ボタンがあった方が良い。また件数表示指定機能も
館の関係を再考させてくれる素晴らしいサイトであり、
あった方が良いだろう。一般の OPAC と異なり、一
今後のよき手本となるだろう。
書誌一所蔵という構造のため検索結果の表示数が調節
できないと非常に見づらい。
2、3 はともに既刊冊子体目録を Web 公開したも
の。2 は和歌山大学が所蔵する同名文庫の目録で、漢
所蔵情報については、分類(請求)番号の明示して
籍は 16,000 冊余りが含まれている。GIF 画像による
あるもの、既刊の漢籍目録の頁数が示してあるもの、
公開で、目次画像に埋め込まれたリンクから個々の書
誌を参照できる。3 は南葵文庫(偶然にもこちらも紀
州藩関連の文庫)など東京大学総合図書館が所蔵する
約一万点の漢籍目録。目録本文は PDF による公開で、
HTML の索引には GT フォントを使用している。
4 は東和大学、純真女子短期大学、メディア教育開
発センターの共同研究による成果で、学校法人福田学
園が所蔵する古典籍の画像をデータベース化したもの。
漢籍・準漢籍は 836 件中、82 件含まれている。登録
されている資料の簡単な書誌事項は自由に検索・閲覧
できる。しかし画像データの閲覧には利用者登録が必
Journal of JAET vol.3 ● 163
学術サイト
文庫名の表示のみあるものなど、体裁が統一されてい
学術リソース レビュー
要となる。
なお国内のデジタルアーカイヴについてはデジタ
中国国家図書館
ルアーカイブ推進協議会が公開しているデジタルアー
カイブ白書に詳しい現状が記されている。参考までに
URL を掲げておく。
http://www.jdaa.gr.jp/hakusho/index.html
❏ その他の目録
カード画像目録
カード画像による目録では下記のものが公開された。
カード画像による Web 目録は、決して使い勝手が良
昨年来、中国国家図書館(北京図書館)の Web サ
いものではない。しかし OPAC ではヒットしない資料
イトの整備も進み、古籍や家譜などを専門的に検索で
を検索できることは素直に喜びたい。
きる OPAC(联机公共目录馆藏查询)も公開されている。
1. 旧制山口高等商業学校画像目録検索
http://mickey.lib-c.yamaguchi-u.ac.jp/~cat/
http://fgopac.nlc.gov.cn/
検索庫のメニューから古籍なら普通古籍库もしく
2. 福井大学附属図書館目録カード検索システム
は善本古籍库を、地方誌や家譜なら方志家谱库を選択
http://karin30.flib.fukui-u.ac.jp/~work/
する。もちろん検索範囲を複数指定することも可能で
mokuroku-card.html
ある。現在、普通古籍は約 88,000 件、善本古籍は約
特に 1 は満鉄、中国経済・地誌及び朝鮮に関する
47,000 件、地方誌・家譜は約 20,000 件の書誌デー
資料が多く含まれるので、中国・朝鮮近代史の研究に
タを有している。ところで上記サイトは国家図書館の
は有用だろう。
トップページよりリンクしているが、この画面の左下
論文索引
の“返回系统主页”ボタンを押すと、中国国家図書館
分館(旧館)の検索システムのトップページに飛んで
『 東 洋 学 文 献 類 目 』 の Web 版 で あ る CHINA3 は
しまう。さらにここから OPAC へ入り直すと、検索メ
バージョンアップし、書誌表示が UTF-8 対応となっ
ニューとして中文图书库が増えており、古籍と現代中
た。このため画像による表示が少なくなり見た目も良
国書を統合検索できる。
くなっている。
CHINA3 for WWW [Version 4.0]
http://www.kanji.zinbun.kyoto-u.ac.jp/db/
CHINA3/index.html.ja
http://fgopac.nlc.gov.cn/search.htm
CALIS の動向
本誌前号で紹介した中国高等教育文献保障系
统(CALIS=China Academic Library & Information
これまで見てきたことから明らかなように、この一
System)はかなり整備が進んでいる[7]。CALIS の目
年で UTF-8 対応のサイトが非常に増え、日本では総
録検索と相互貸借システムをまとめた
じて UTF-8 大躍進の 1 年であったと言える。
联机公共数据库查询・馆际相互借系统(OPAC&ILL)
❏ 中国の OPAC など
http://162.105.138.230/
では、昨年はまだ公開されていなかった联合目录の中
日本の状況で随分と紙幅を費やしてしまったが、最
後に中国の図書館や OPAC の状況を述べる。
文図書および英文図書も公開され充実した内容となっ
ている。早速、日本でも一部の企業が CALIS と提携
し文献複写の代行業務(ドキュメント・デリバリ・サー
ビス)を始めたようである[8]。図書や雑誌だけでな
164 ● 漢字文獻情報處理研究 第 3 号
図書館と OPAC
象となるという。残念ながら個人での契約はできず図
書館・資料室単位での契約となるようだ。
先頃、日本の NII とアメリカ OCLC による、日米間
のドキュメント・デリバリ・サービスの本格的な運用
が始まった。同じように CALIS などのアジア地域の
<国立大学>
鹿児島大学、富山大学、北海道大学
<私立大学>
大阪女子学園大学、淑徳大学みずほ台図書館、阪南大
学
<公立図書館>
書誌ユーティリティーと、日本の図書館との間で本格
岐阜県図書館、熊本県図書館、山形県立図書館、調布
的なドキュメント・デリバリ・サービスを行う日が早
市立図書館、西東京市立図書館
く来て欲しいものである。
[5] 滋賀大学は彦根藩弘道館旧蔵書、立命館大学は故高木
正一氏所蔵漢籍、京都産業大学は小川環樹文庫漢籍が
それぞれデータとして入れられている。
注
[6] 詳細検索画面右下からは“検索のコツ”なる簡単な
[1] 小島浩之「大学図書館利用者のためのオンライン目録
学」
(
『漢字文献情報処理研究』2, 2001.10)
ヘルプ画面へリンクしている。なお山田崇仁氏のサイ
ト睡人亭には、氏が作成した全國漢籍データベースマ
[2] 獨協大学図書館の図書館システムについては、 獨協
ニ ュ ア ル(http://www.ritsumei.ac.jp/kic/~tyv07679/ch
大学図書館企画庶務係の羽田洋一氏にご教示いただい
uden/toyoshi/syoseki/kanseki.htm)があり大変有益な
た。
情報を与えてくれる。是非参照されたい。また、デー
[3] 東京大学および獨協大学各大学を除く 14 大学は次の
通り(URL は煩雑になるため省略した)
。
<国公立大学>
愛媛大学、岩手大学、大阪市立大学、京都大学、高知
大学、佐賀大学、静岡大学、福井大学
<私立大学>
タベースの詳細については安岡孝一「全国漢籍データ
ベースの設計とその運用」(『京都大学大型計算機セン
ター第 69 回研究セミナー報告』2002.3)を参照のこ
と。
[7]CALIS については伊藤民雄「東アジアの書誌ユーティ
リティ」
(『医学図書館』48-3, 2001.9)、村上 かおり「中
愛知学泉大学、大阪産業大学、関西学院大学、関東学
国の図書館ネットワーク・CALIS の現状」(『カレント
院大学、同志社大学、麗澤大学
アウェアネス』268, 2001.12)、呑海沙織「中国にお
[4] 既に紹介済の東大および神戸市を除き、携帯電話用の
OPAC を提供している機関は次の通り。
(URL は煩雑
になるため省略した)
ける学術図書館コンソーシアム」
(『情報の科学と技術』
52-5, 2002.5)などを参照。
[8]詳細はナウカ書店の次のサイトを参照。
http://www.nauka.co.jp/china_DDS/index.html
Journal of JAET vol.3 ● 165
学術サイト
く各大学所蔵の古典籍や拓本までコピーサービスの対
学術リソース レビュー
超星数字図書館
千田 大介
器(SS Reader)」をダウンロードし、インストールす
❏ ブレイクした巨大バーチャル図書館
る必要がある。超星閲覧器の使い方については『電脳
中国学Ⅱ』で詳細に解説してあるので、そちらを参照
超星数字図書館
して頂きたい。最新バージョンの 3.6x では、インター
http://www.pdg.com.cn/
フェイスが改良され、書籍目録の自動ダウンロード機
http://www.ssreader.com.cn/
能などが追加されているが、基本的な使用方法自体は
超 星 数 字 図 書 館(Super Star Digital Library) は、
大差ない。
PDG という独自のファイル型式によって、書籍の全
超星数字図書館を利用するには、一枚 100 元の「超
文画像データを提供する、オンライン図書館システム
星読書カード」が必要になる。このカード一枚で、一
である。本誌バックナンバーや『電脳中国学Ⅱ』でも
年間すきなだけ書籍を閲覧・ダウンロードできる。今
紹介されているので、ご存じの読者も多いことだろう。
では、国内の主要中国書籍店が超星読書カードを取り
超星は、90 年代後半には『古今図書集成』等の
扱うようになっているので、国内での入手も簡単だ。
CD-ROM シリーズ「超星光盤図書館」を発売していた。
輸入小売価格は 2,500 ∼ 3,000 円ほど。
ほぼ同時期、1997 年には既に北京図書館や瑞得在線
なお、超星のユーザー登録システムは、ユーザー本
図書館などのサイトで、オンライン図書館の試験的公
人の登録、ユーザーが所有しているカードの登録の二
開を始めている。しかし、中国の Web サイトのアク
段階になっており、初めに表示される登録画面はユー
セシビリティーが悪く、収録書籍数も多くなかったた
ザー登録画面であって、カードの ID・パスワードの
め、わが国でさほど注目を集めることはなかった。
入力画面ではない。また、別のマシンでログオンする
それが国内外の研究者の熱い注目を浴びるように
ときは、ユーザーの ID とパスワードで認証するだけ
なったのは、2001 年のことである。超星のオンライ
でよい。この点は、『電脳中国学Ⅱ』で解説したにも
ン図書館ソリューションを採用した、中山図書館・中
関わらず、しばしば質問を受けるので、改めて記して
国社会科学院などの蔵書が大規模にデジタル化され、
おく。
オンライン公開されるようになったからである。
執筆時点(2002 年 8 月末)で超星数字図書館の公
超星閲覧器の問題点
開蔵書数は約 52 万冊に達している。これだけの量の
超星閲覧器は従来から簡体字中国語版と英語版が提
中国書籍を揃えている図書館は、国内ではそう多くな
供されてきたが、最近は繁体字中国語版も配布される
いと思われる。しかも、その中には国内での閲覧・入
ようになった。日本語版 Windows の上で利用するの
手が困難な内部発行書籍や文革前後に刊行された学術
であれば、インターフェイスの文字化け問題が発生し
書も数多く含まれているのだ。ADSL などのブロード
ない英語版ということになる。
バンド環境の普及が進み、自宅からのアクセスも簡単
しかし、超星の PDG ファイルは GB コードで命名
になったのであるから、超星の利用が広がるのは当然
されており、日本語 Windows 上では、どうしても
のことと言えよう。
ファイル名の文字化けが発生してしまうし、ダウン
ロードできない書籍もかなりの数にのぼる。したがっ
❏ 超星閲覧器と利用上の問題点
て、超星閲覧器を利用する際は、簡体字中国語版の
Windows を使うか、Windows 2000/XP を簡体字中
超星閲覧器と超星読書カード
超星数字図書館の PDG 画像ファイルの閲覧には、
超星数字図書館のサイトから専用ブラウザ「超星閲覧
166 ● 漢字文獻情報處理研究 第 3 号
国語モードに切り替えた方がいいだろう。筆者を含め
て、サブマシンを簡体字中国語・超星専用マシンにし
て運用している人も多いようだ。実際、超星の図書デー
タはかなりのハードディスクスペースを消費するので、
超星数字図書館
ると言えよう。
一方、書籍の中には、簡体字中国語環境であっても、
研究書・論文・雑誌などを網羅的に収拾したもの。
北大図書館館蔵古籍
どうしてもダウンロード中にエラーが発生してしまう
これの公開が、本年最大のトピックであると言っ
ものがある。これはどうもデータ作成時のミスである
てよかろう。北京大学図書館が所蔵する古典の叢書を
ようだ。途中までしかデジタル化されていない書籍も
大々的に収録する。以下に主要な叢書を、超星の分類
目につく。また、52 万冊と称しているものの、重複
にしたがって列挙する。
登録が非常に多い。カテゴリ分類もかなりいい加減で、
総合性図書−中国叢書
理工系の書籍が文学図書館に誤って登録されているこ
『続修四庫全書』『四庫存目叢書』『四庫未収書
ともあるし、また戯曲・演劇関連のカテゴリが、文学
輯刊』『四庫禁毀書叢刊』『清代稿本百種匯刊』
図書館と芸術図書館の両方に存在するというような、
『北京図書館古籍珍本叢刊』
『新編叢書集成』
『叢
カテゴリ構成上の問題も多い。これらの点は、早急な
書集成続編』『叢書集成三編』『北京大学図書館
改善が望まれる。
館蔵稿本叢書』
『北京大学図書館館蔵善本医書』
『明清未刊稿彙編』『明代論著叢刊』『明実録』
❏
超星のコンテンツ
芸術図書館
『中国歴代書画芸術論著叢編』『中国古代美術
多少の問題があるとはいえ、しかし、超星数字図書
叢書』
館が提供するデータの質・量は圧倒的であり、その魅
宗教図書館
力はいささかも減ずることはない。以下、
『電脳中国
学Ⅱ』および本誌前号以降に追加されたコンテンツに
ついて、ごくおおざっぱに紹介する。
地方誌図書館
従来から全国各地域の伝統地方誌が登録されていた
『中華大蔵経』『永楽北蔵』『乾隆大蔵経』『正
統道蔵』『蔵外道書』
歴史図書館
『二十五史三編』
『二十五別史』
『二十四史訂補』
『敦煌古籍敘録新編』『標点本二十五史』『近代
中国史料叢刊・続輯・三編』『中国野史集成』『中
が、2002 年 に な っ て、
1980 代以降に相次いで
刊 行 さ れ た 所 謂「 現 代
地方誌」が順次追加され
ている。現代地方誌は、
社会・経済・歴史・文化
な ど、 地 域 研 究 を 進 め
る上で、最も詳細かつ基
礎的な出版物であるが、
日本国内の図書館で収
蔵しているところが少
なく、中国書籍店を通じ
ての入手も困難なもの
が多いので、非常にあり
がたい。
魏晋研究資料匯編
Dasha 氏の提供。魏晋
時代に関する基本文献・
Journal of JAET vol.3 ● 167
学術サイト
メインマシンとは分けておいた方が安全かつ確実であ
学術リソース レビュー
国史学叢書・続編・三編』
『清代起居注冊』
『歴
『籌弁夷務始末
代硃巻集成』『光緒朝硃批奏摺』
補遺』『北京大学図書館蔵善本叢書』
『明清史料
叢編』『石刻史料新編』
『中国地方志集成・郷鎮
志専輯』『中国辺疆叢書』
『天一閣蔵明代方志選
刊』『宋元方志叢刊』
『日本蔵中国罕見地方志叢
刊』『明代伝記叢刊』
『清代傅記叢刊』
『北京図
書館蔵珍本年譜叢刊』
文学図書館
『善本戯曲叢刊』
『明清抄本孤本戲曲叢刊』
『筆
記小説大観』『古本小説叢刊』
社会科学総論
『中華文史叢書』
これらの叢書の中国学研究上の重要性については、
一々解説する必要はなかろう。個人がこれらを全て紙
版で購入し所蔵しようとしたら、図書の購入費と広大
な書庫の建設費用、しめて数億円を必要とすることだ
ろう。それが自宅のパソコンを通じて年間 100 元で
簡単に閲覧できるのであるから、改めてブロードバン
ド時代の、超星数字図書館の威力を思い知らされる。
書生之家数字図書館
http://www.21dmedia.com/
億友数字図書館
http://www.dbook.com.cn/
中国数字図書館
http://www.d-library.com.cn/
ただし、画像データであるため、ダウンロードすると
ハードディスクスペースを大量に消費する。100GB
特に中国数字図書館は、中国国家図書館が設立した
を超える大容量ハードディスクを複数買い足すことを
中国数字図書館有限責任公司によって運営されている
覚悟しておいた方がよい。それでも、研究者にとって
超星のライバル的存在で、超星の「863 プロジェクト」
は、従来図書館に通わなくては閲覧できなかった書籍
陣営が本年 5 月に電子図書館の全国会議を開催する
が、自宅に居ながらにして読めるようになるのである
と、それに対抗するかのように 7 月に同種の会議を
から、研究環境の革命的な変化をもたらすだろう。
主催している。
一方、52 万冊ものデータに簡単にアクセスできる
しかし、同社の経営状態は芳しくなく、設立当時の
ということは、研究に際して読まなくてはならない文
2,000 万元の資金を使い尽くして経営陣が退陣に追い
献の量の増大をも意味する。実際、筆者が近代のある
込まれたという。苦しい台所事情は超星も同じで、現
芸能について調べたところ、合計 2,000 ページにも
在は北京の某幼稚園内に本社を移しているそうだ[1]。
及ぶ文献が見つかってしまった。超星数字図書館は、
考えてみれば、図書館とは無償で本を貸借する公共
決して研究者に安逸をもたらす道具ではないことは、
機関であるが、超星などは営利サービスなのであるか
肝に銘じておかねばならない。
ら、むしろ「貸本屋」の業態に近い。超星数字図書館
の「貸本料」は一年間読み放題で 100 元(約 1,500 円)
❏
著作権問題と中国の数字図書館の未来
であるから、普通の貸本屋が一冊いくらで金を取るこ
とからすれば、赤字覚悟の太っ腹なサービスと言えよ
デジタル図書館の乱立と収益の困難
中国では、超星の他にも以下のようなサイトがデジ
タル図書館サービスを提供している。
う。しかも、その中にはデータの著作権者への分配金
が含まれているので、超星のもとに残るのはそれより
ずっと少ない。
中国数字図書館もプリペイドカード方式をとる
が、カードのオンライン販売を代行する雲網(http://
168 ● 漢字文獻情報處理研究 第 3 号
超星数字図書館
化に際して予め著作権者の許諾を得ていないことを端
うありさまだ。
的に表している。結局のところ、超星のコンテンツも、
ここに来て超星は、1999 年以降に出版された書籍
著作権者の事前許諾を得ていないという点において、
の従量課金制度や、出版社と提携した新刊書のプレ
中国数字図書館が敗訴した情況と全く変わるところが
ビューサービスとデータ販売などを試みている。貸本
ないのだ。
業の収益性の悪さを補うべく、電子書籍販売業への進
出を摸索しているのであろう。
超星のシステムでは、ユーザー認証システムによっ
てデータの交換をふせぐ、カードの期限が切れるとダ
超星数字図書館にせよ中国数字図書館にせよ、イン
ウンロードしたデータ閲覧ができなくなる、印刷時に
ターネットもしくはイントラネットで運用するデジタ
は電子透かしがあらわれるといった、著作権保護対策
ル図書館のソリューションとしては、充分に実用の域
が講じられている。しかしその一方で、コピーガード
にまで達している。しかし、ビジネスモデルは未だに
を無効にした違法改造版超星閲覧器や PDG を画像に
確立できていないのが現状である。国などからの資金
変換するツールが闇で配布され、データの違法コピー
援助なしにいかに経営を安定させるか、これからの大
CD-ROM の流通も見られるという。違法ソフトを使
きな課題となろう。
わなくても、例えば超星閲覧器から Acrobat Distiller
にデータを渡すことには何の制限もない。このような
浮上する著作権問題
さまざまな抜け道が存在している以上、著作権保護と
2002 年 6 月 28 日、中国の電子図書館の将来を左
右する重要な判決が、北京市の海淀法院で下された。
いう観点からは、超星の技術も努力もまだまだ不十分
と言うしかない。
原告は北京大学法学院副院長の陳興良氏、被告の中国
中国のデジタル図書館は、国家的な教育デジタル化
数字図書館が陳氏の三冊の著作を無許可でオンライン
プロジェクトの一翼を担っている。国民教育の普及が
公開したとして、著作権侵害状態の解消、40 万元の
未だに充分ではなく、広大な国土に図書の流通のまま
賠償金などを請求した裁判である。判決は中国数字図
ならない地域、児童・生徒のための図書室すらもない
書館の全面敗訴で、8 万元の賠償を命ずるとともに、
学校が多数存在する中国では、インターネットに繋ぐ
判決文の中で数字図書館の大半の図書が、著作権者の
だけで本が読めるデジタル図書館のニーズは、確実に
[2]
存在する。また、中国内外の中国学研究者や学生・大
いかに国家的な教育プロジェクトであっても、著作
学院生にとっても、超星はもはや欠くことのできない
許諾を得ておらず違法であるとの判断が示された
。
権問題をおろそかにすることができない。このあたり
存在である。
まえのことが中国では守られてこなかった。その意味
しかし、超星によって書籍の売り上げが落ち、出版
で、この判決は画期的なものであるし、WTO 時代に
業・図書流通業の衰退を招いてしまっては元も子もな
即したものである。
い。中国の電子図書館にとって、勢いに任せて拡張し
超星数字図書館は、著作権にはかなり細かく気を
てく黎明期のベンチャービジネス的時代は終わった。
配っている。超星読書カードの売り上げの一部は、著
出版業界・著作権者・ユーザー、この三者の利害の調
作権者への謝礼としてプールされ、閲覧回数に応じて
整をはかりつつ安定した収益を確保する、ビジネスと
分配されることになっており、サイトには、著作権者
しての成熟が、新たな課題として突きつけられている。
との契約書テンプレートまでもが置かれている。専門
この正念場を乗り越え、恒久的に良質なサービスが提
の法律顧問を雇い、以前は「著作権問題を解決したデ
供されるよう、関係者のより一層の努力を望みたい。
ジタル図書館ソリューション」とのキャッチコピーが
ホームページに踊っていたほどだ。
なるほど、確かに著作権に充分に留意した完成度の
高いシステムではある。しかし、問題はそのシステム
の運用だ。超星はホームページ上で、数字図書館で公
開されている書籍の著作権者に分配金受け取り請求を
するように呼びかけている。これは、超星がデジタル
注
[1] http://news.enet.com.cn/article/20020722/20020722
210739_1.xml?style=sp_article_default.xsl 参照。
[2] http://www.people.com.cn/GB/shehui/44/20020704/7
68146.html 参照。
Journal of JAET vol.3 ● 169
学術サイト
www.cncard.com/)では、品切れになったまま、とい
学術リソース レビュー
中国古典文学
千田 大介
正統的かつより古い時代の文献が優先されてきたが、
❏ 文献データ
ようやく元明清の通俗・口語資料のデータが本格的に
構築されたわけであり、大いに歓迎したい。
ただ、これらの中には、底本が必ずしも最善とは言
定番サイトの更新情況
い難いものがいくつか含まれるし、また底本に施され
中国古典文学関係の主要サイトについては、
『電脳
中国学Ⅱ』で詳細に紹介している。ここでは、それ以
降に更新されたサイトにしぼってレビューする。ただ
し、52 万冊もの書籍をオンラインで提供する超星数
字図書館と、中国の古典文献 CD-ROM、
『四部叢刊』
た注釈が全て削除されているのは(あるいは、著作権
上の問題があったのかもしれないが)少々残念である。
網路展書読
http://cls.hs.yzu.edu.tw/
古典詩詞の全文検索の草分け的サイトであるが、近
CD-ROM については、それぞれ別に項目が立てられ
頃は小説・戯曲方面での充実が目立つ。四大奇書デー
ているので、そちらをご参照いただきたい。
タの公開とともに注目されるのが、『茘鏡記』コンテ
さて、中国古典電子テキストの構築の主役は、すっ
かり書同文などの大陸企業の CD-ROM 製品に移行し
ンツ。
『茘鏡記』は福建・広東一帯に流行した明代伝奇で、
てしまったが、定番学術サイトは地道に更新を続けて
閩南語・潮州語の資料としても貴重であるとされる。
いる。
網路展書読では、『茘鏡記』の嘉靖本・万暦本の全文
画像・全文テキストを収録する。さらに、同じ物語を
台湾中央研究院漢籍電子文献
http://www.sinica.edu.tw/ftms-bin/ftmsw3
演じた七字仔劇本『陳三五娘』と漢唐樂府舞曲『茘鏡
本年「小説戲曲曁其他」の項目が追加され、小説・
奇縁』の全文データに、閩南語による読み上げ、全国
戯曲などの資料がついに公開された。その内訳は以下
各地の方言音の音標を併記して方言語料機能としたも
のも公開されるし、明代の中国語辞書である Doctrina
のとおり。
Christiana とArte De La Lengua Chio Chiu の全文画像・
『三遂平妖伝』
『醒世姻縁』
『遊仙窟』
『老乞大
データをも収録し、潮州語辞典に再編したもの、研究
諺解』『朴通事諺解』
『入唐求法巡礼行記』
『訓
文献目録なども公開される。
世評話』『閲微草堂筆記』
『桃花扇』
『元刊雑劇
これも、台湾のアイデンティティを求める昨今の政
三十種』『五代史平話』
『永楽大典戯文』
『関漢
治的動きと結び付いているのであろうが、しかし、言
卿戯曲集』『新刊大宋宣和遺事』
『大唐三蔵取経
語学研究者にとっても戯曲研究者にとっても、きわめ
詩話』
『鏡花縁』
『三国演義』
『建炎以来朝野雑記』
て有用なコンテンツに仕上がっており、これからの学
術サイト構築の一つの方向性を指し示すものとして注
このラインナップは、通俗文学というよりも、近代
目される。
漢語語料と
いう視点か
❏ 工具書と参考資料
ら選ばれて
いるように
思える。い
ずれにせよ、
従来の古典
文献データ
の 構 築 は、
170 ● 漢字文獻情報處理研究 第 3 号
『三国志演義』研究文献目録稿
http://www.beatsradio.com/cgi-bin/kindai/db/
sanguo/db.cgi
http://www.ed.niigata-u.ac.jp/~nakagawa/
wenxian.html
同目録は、上田望氏(現金沢大学)と中川諭氏(現
中国古典文学
トがもっともあらわれやすい。特に、古代から現代ま
共同で作成
での文化的事象を幅広く収録した書籍であるだけに、
し、
『中国古
キーワード検索から文学史・文化史などを研究する上
典小説研究
での端緒がえられることも多いので、是非とも試用し
動態』第四号
てみて頂きたい。
(1990)
に
掲載された
❏ 学会ホームページ
も の。 上 が
Web 版、 下
ここ一年ほど、中国学の分野を代表する全国学会が
が MS Access
重い腰を上げて、相次いでホームページを公開した。
版。ともに JIS 漢字を使用する。Web 版には検索機能
があり、しかも異体字テーブルが装備されていて便利。
何よりも、国内からこのような学術情報発信の動きが
出てきたことを高く評価したい。
関係者各位の努力に、まずは敬意を表したい。
日本中国学会
http://wwwsoc.nii.ac.jp/ssj3/
同学会の紹介・規約・会報・『日本中国学会報』各
ところで、この目録の共編者である中川諭氏は、
2001 年 9 月に北京の首都師範大学で開催された「中
号の掲載論文目録など。英語・中国語(簡・繁)ペー
ジも用意される。
国古典小説数字化研討会」に参加し、首都師範大学の
国立情報学研究所学協会情報発信サービスを利用す
周文業氏による『三国演義』版本対照ソフトのデモ版
るが、全国学会サイトではサーバスペースの安定的な
を招来し、本会の大会でデモンストレーションを披露
確保と管理とが往々にして問題になるので、同サービ
してくださった。版本研究などに非常に有用なソフト
スの採用は的確な判断であると言えよう。
に仕上がっており、正式リリースが待たれる。それに
執筆時点では大会の案内が去年のままになっている
しても、特殊な学術研究のための文献処理に特化した
が、スピーディーな情報発信が WWW の特長の一つ
ソフトウエアが開発されてしまう中国の IT 化の勢い
であることを考えれば、更新・管理体制の強化が今後
には刮目させられる。
の課題となろう。また、『日本中国学会報』学界展望
のデジタル化を、是非とも進めてほしいものである。
工具書在線
東方學會
http://202.109.114.220/
書同文公司が上海数字世紀の委託を受けて制作した、
http://www.tohogakkai.com/
『中華文化通史』『漢語大詞典』
『中華古漢語詞典』の
同学会の規約・紹介・出版目録(『東方學』各号の
Web 版。ゲストアカウントが設定されており、執筆
目録を含む)・各種案内と報告などが掲載される。た
時点では無償で試用できる。
だ、HTML は Word によって作られたもので、日本語
『漢語大詞典』は、
CD-ROM 版を Web 化したもので、
のフォント名指定も多く、アクセシビリティーの点か
用例は掲載されない。
『中華古漢語詞典』は『文淵閣
らは問題がある。また、海外との学術交流を旨とする
四庫全書』全文検索版に添付されるものと同等。
学会であるのだから、日本語以外のページも是非とも
『中華文化通史』は、中国の歴史・文化を十典百志
にまとめたもので、洋装本 100 冊、約四千万字の規
模を誇る巨大な
公開してもらいたい。
全国漢文教育学会
http://www.zenkankyo.gr.jp/
百科全書的著作
同学会の案内、『新しい漢字・漢文教育』バックナ
である。この種
ンバーの目録と通信販売など。まだまだ構築途上のサ
の書籍は、頭か
イトであり、今後の充実が期待される。
ら通読すること
以上のように、いずれのサイトも学会案内が主体と
の無いものであ
なっているが、今後は研究・教育に有用な学術コンテ
り、電子化によ
ンツが構築されていくことを期待したい。
る検索のメリッ
Journal of JAET vol.3 ● 171
学術サイト
新潟大学)が
学術リソース レビュー
中国近現代文学
小川 利康
供を旨とするサイトだけである。見るべきサイトを全
❏ Web 雑誌はどこへゆく
てフォローしている自信はないが、筆者が比較的よく
見るサイトを紹介する。
このところオンラインデータベースのめざましい充
実ぶりに気を取られているうちに、
ほかの Web リソー
❏ Web 雑誌系サイト
スの方は長らくご無沙汰になってしまった。今回、改
めて原稿を書く段になって、
あわてて、
古いブックマー
榕樹下(http://www.rongshu.com/rss/ld_wx.rs)は既
クを頼りに巡回してみると、2000 年ごろから次々と
刊の本誌で三須氏が詳細に紹介されているので、省か
開設された文学雑誌のオフィシャルサイトの更新がど
せていただくとして、ここでは、好対照をなす南京評
れもこれも止まっていた。今年も更新を続けている雑
論(http://www.njpinglun.com/)を紹介する。このサイ
誌はほとんど皆無に近い状況である[1]。流行に乗っ
トは早くからネット上で自作の詩を公開していた黄梵
てサイトを開設してみたものの、具体的なメリットも、
の提案を受けて、瘦叟、呉晨駿の協力のもとで 2001
対外的効果も見いだせぬまま、放置されているようだ。
年 10 月に立ち上げられたサイトである。やや遅れて、
筆者はペーパーメディアの雑誌がネット上で新たな活
葛紅兵らネット上で知り合ったメンバーの参加も得て、
動を始めることによって、既成メディアそのものにも
現在の陣容が整えられた[2]。
何らかの変化が生まれるのではないかと思っていたが、
創設メンバーが詩人であるためか、小説だけでなく、
詩が相当の比重を占めているほか、葛紅兵の主宰する
結局は見込み違いだったようだ。
その一方で、ネットワーク上で誕生した「原創文学」
評論ページが充実している。参加メンバーのほとんど
関連のサイトは相変わらず元気で、むしろ逆にネット
は Web 雑誌に参加する以前から、各地で創作に励ん
上での人気を背景に活字化され、その作品が書店でも
できた者が多く、ほかの Web 雑誌とは一線を画して
平積みされてよく売れている。この状況を見ていると、
いる。むろん外部からの投稿も受け付けているし、
「新
既成の雑誌メディアであろうと、Web 上でのコミュ
人星座」が新人向けに用意されている。だが、精選さ
ニケーション機能を無視しては何ら成功を収められな
れた作品しか掲載されない。アマチュアはお断り、と
いし、自ら変わろうという意志をもってコミットしな
いうことだろう。常連作家の一人、青鋒はネット文学
い限り、今後も既成文学雑誌の Web 化は画餅に近い
を発展させた功績を高く評価しつつも、榕樹下の商業
と思われる。
性がもたらした弊害を次のように指摘している。
既 に 一
過性のブー
2000 年には前後二回にわたり「ネットワー
ムとして
ク・オリジナル作品文学賞」を発表し、王朔、
の Web サ
阿城、陳村など著名作家の威光に頼り、天下
イトは停滞
を揺るがす大騒ぎまでして、一時は榕樹下=
するか、姿
ネットワーク文学であるかのようだった。と
を消しつつ
はいえ、分かる人は一目で見抜けるように、
あ る。 残
同じく総合的な文学サイトでありながら、榕
るのは読者
樹下は商業的な経営理念とフレームアップ
との交流を
の手法ゆえに、文学性、学術性の点で橄欖樹
前提とした
(http://www.wenxue.com/)に遙かに及ばない
Web 雑 誌
か、資料提
172 ● 漢字文獻情報處理研究 第 3 号
のである[3]。
中国近現代文学
Google な
どのサーチ
家)が「ネットワーク文学の黄金時代は終わった」と
エンジンで
いう趣旨の発言している。
その発言のなかで陳村は
「ネ
関連情報を
ットワーク文学が伝統的な活字の書籍になれば最高の
探している
栄誉なのか」と活字メディアの商業主義と結びついた
と、いつの
現状を厳しく批判し、80 年代には執筆条件が悪くて
間にか行き
も優れた作家が出てきたが、現在は遙かに恵まれてい
着いている
るにもかかわらず、功利的な書き手しか見あたらなく
サイトとい
なってしまったと嘆いている。
うのが幾つ
青鋒はネットワーク文学だからといって商業性を
学術サイト
じつは青鋒がこのような批判を展開する以前にも
2001 年 7 月に陳村(榕樹下で芸術総監をつとめる作
か存在する。
免れると考える方が余りにも純真すぎるとし、問題は
た と え ば 人 民 書 城(http://www.booker.com.cn/gb/
メディアの違いを超えて、良い作品を生み出しうるか
paper15/index.htm)は、その代表格であろう。人民日
どうかにかかっていると指摘する。それに挑戦しよう
報(人民網)が運営するサイトだが、書評、ダイジェ
としているのが南京評論というわけである。青鋒は志
スト、学術欄と、意外と情報量は豊富だ。
を同じくするサイトして、次のようなサイトを紹介し
このほかにも今日作家網(http://www.jrzj.com.cn/)
ている。いずれもネットワーク文学が流行する以前か
では、文学関係ニュースの更新が頻繁に行われる。
ら創作活動に関わってきた詩人、作家達のサイトであ
新聞系では、光明日報傘下にある中華読書報(http://
る。
www.gmdaily.com.cn/gmw/ds)が一応見ておく価値の
あるサイトである。毎週律儀に更新されているので、
詩生活(http://www.poemlife.com/)
船便で届くペーパーメディアより遙かにはやい。全文
詩江湖(http://www.wenxue2000.com/)
検索も可能で、現在のところ 1998 年以降の記事が検
[ 個 ] 文化論壇(http://bj2.netsh.com/bbs/94279)
索できる。さらに遡って検索するには、過去のバック
揚子鰐(http://bj.netsh.com/bbs/81396)
ナンバー(1994-1998 年)の CD 版を利用すればよ
唐(http://bj2.netsh.com/bbs/91181)
い(中文 Windows で動作)。管見の限りでは、この
中国新小説(http://www.china-novel.com/)
ような情報系のサイトはほとんどない。レイアウトも
橡皮(http://www.xiangpi.net/)
地味で、毎号全ての記事が面白いわけでもないが、こ
新小説論壇(http://bj3.netsh.com/bbs/112001)
のようなサイトは是非応援したいものだ。
辺縁者(http://bj3.netsh.com/bbs/113687)
それと好対照をなすのが、文匯読書周報(http://
www.hpl.online.sh.cn/wenhui/)である。すでに更新が
読みでのある作品が載り、活発な討議が繰り広げら
二年近く止まったままである。商業紙が何らポリシー
れ、さらに作品にフィードバックされる。そんな空間
を持たぬまま Web を運営すればどういう結果になる
が生まれれば、もはや誰もペーパーメディアに載る
かをよく示す例である。広告収入を当てにするのか、
かどうかで作品価値を測ろうとしなくなるだろう。メ
単なる読者向けサービスに徹するのか、コミュニケー
ディアという器で作品価値を判断しなくなる日が来る
ションサイトとして活用するのか、明確な指針がない
まで Web 雑誌の挑戦は続く。
と同様のサイトは今後も増えるだろう。
古 典 系 の 国 学 網 に 相 当 す る Web サ イ ト が 近 現
❏ 情報系サイト
代文学系では見あたらないが、中文研究網(http://
cyber.swnu.edu.cn/zwyjw/)に期待したい。
Web 雑誌とデータベースサイトの中間項として、
なお、中国文聯(http://www.cflac.org.cn/)、北京文
ニュース系のサイトがある。作家の動静を伝え、話題
聯(http://www.btxx.cn.net/wenlian/index1.htm)も政府
作の紹介をしてくれるサイトは筆者にとって、手っ取
上網工程の恩恵か、昨年から各地で Web サイトが立
り早いアンチョコ(死語か?)のような存在である。
ち上げられつつある。いかにも官房網站という情報ば
Journal of JAET vol.3 ● 173
学術リソース レビュー
かりで余り興味の持てないものが多いが、今後に期待
したデジタルデータが転載されている現状は憂慮すべ
したい。
きものがある。もっとも現実的にはソフトウェア、映
画、活字メディアのいずれにしても、流通上の問題か
❏
データベース系サイト
ら正規版を買いたくても見つからず、売られているの
は海賊版ばかりで、売る側も買う側もやむをえず売り
特集記事でも紹介したように、近年オンラインデー
買いしているのが実情であり、根絶するには相当の時
タベースの充実ぶりが目覚ましい。ここでは中国期刊
間がかかるだろう。中国の場合、ペーパーメディアで
網以外のデータベースを紹介する。
の流通問題解決は百年河清を待つに等しい。むしろデ
中国期刊網も清華大学傘下の校園産業が運営して
ジタルメディアに著作権保護の仕組みを導入して、適
いるが、大学図書館でも積極的にデジタルデータベー
切な価格で提供する方が有効であろうと思われる。む
スの作成を進めており、その成果の一つとして清華
ろん最後は買い手の側の良識が問われることに変わり
周 刊 数 据 庫 査 詢 系 統(http://net.lib.tsinghua.edu.cn/
はないが、良質で信頼性の高いデータが合理的な値段
database/)がある。
で提供されれば、質の悪い海賊版に食傷した消費者に
詳しい紹介は省くが「清華周刊」は清華学堂が創設
よって悪貨を駆逐する契機になる可能性は十分あると
されて三年目の 1914 年 3 月に創刊された学内雑誌
思う。そのためにも信頼性の高い決済システムの導入
である。清華で学んだ聞一多、潘光旦、浦江清、呉景
は急務であろう。
超らが数多く文章を寄せており、資料的価値は極めて
その意味で、もう一つの期刊網、龍源期刊網(http:/
高いが、所蔵する図書館が少なく稀覯本となっていた
/www.qikan.com/)は、現状では海外華人をターゲット
ものを全てデジタル化している(一部ながら欠号があ
にしているものの、将来的には有望なサイトである。
る)。
このサイトが提供するのは中国国内で刊行された雑誌
デジタル化は超星図書館のフォーマット ( 拡張子
PDG) によるもので、テキストベースではなくグラ
記事であり、読者は費用を先払いすると、読みたい雑
誌記事をオンラインで読むことが出来る。
フィックになっているため、検索が可能なのはタイト
この龍源期刊網の本体はトロント(カナダ)を本
ル、著者に加えて若干のキーワードに限られる。この
拠地とする中文書店であるが、オンライン書店を開設
ため、閲覧には超星図書館の全文閲覧器が必須となる
し、99 年には雑誌のオンライン提供を始め、現在で
が、超星カードそのものは不要で、無料で閲覧できる。
は 400 種あまりの雑誌記事を有料提供している。い
このような解放前の雑誌は資質の劣化が激しく閲覧そ
ずれも版元と正規契約を結び、提供を受けているもの
のものが難しくなっているだけに、今後ほかの研究機
で、筆者が試した限りでは(免費試読もしくは開架雑
関でも積極的にデジタル化を進めてもらいたい分野で
誌で試せる)、全てデジタルテキストベースで提供さ
ある。
れ、紙面をグラフィックとして取り込んだものは無い
ただし、この種のデータベース公開には常に著作
ようだ。各雑誌の最新号の目次を見て、読みたい記事
権の問題が
をクリックす
つ き ま と う。
ると、ログイ
著作権が既
ンが求められ、
に消滅した
認証をすませ
解放前の雑
ると全文が読
誌ならばデ
める仕掛けに
ジタル化し
なっている。
たうえで無
文学関係で
料公開も可
は「当代」
「北
能 で あ る が、
京 文 学 」「 十
至る所に著
月 」「 人 民 文
作権を無視
学 」「 文 学 評
174 ● 漢字文獻情報處理研究 第 3 号
中国近現代文学
検索が可能であり、十分実用的といえる。
花」
「收獲」
ただ、魯迅博物館としてデータ CD を出すのであれ
「 少 年 文
ば、なぜ「魯迅研究資料」も収録しなかったのか少々
芸」
「故事
惜しまれるところである。恐らく超星図書館で既に
世界」
「啄
24 号まで公開されているため(ただし一部欠けてい
木鳥」
「中
る模様)であろうが、出来れば「魯迅研究月刊」と一
国 作 家 」
括して収録し、キーワード検索が可能になれば、魯迅
「民間故事
研究者にとっては大いなる福音となったであろう。
選刊」
「大
他にも多くの貴重資料を収録している「新文学史料」
家」
「東方
など全文データベースが必要な雑誌はまだまだある。
文化」
「天
今後さらなる充実に期待したい。
涯」「英才」「作家文摘」だけであり、必ずしも全てを
網羅しているとは言えない。だが、読みたい記事を読
❏ 日本の学会、研究会関連サイト
者の方から推薦すれば、龍源期刊網がデジタル化して
提供し、その利益の一部は読者に還元されるという中
こ れ ま で 学 会 の オ フ ィ シ ャ ル ペ ー ジ と い え ば、
国らしい(?)システムになっている。今でも華夏文
中 国 文 芸 研 究 会(http://bluesky.osaka-gaidai.ac.jp/
摘が行っているペーパーメディアからの無断転載がよ
~bungei/bungei.shtml)が唯一活発な更新を続けてい
り洗練されたものになったとでも言えばよいだろうか。
るサイトであったが、昨年から現代中国学会(http://
今後普及した場合、デジタルテキストだけに容易に複
homepage3.nifty.com/xiandaizhongguo/)もオフィシャ
製できるため、無制限にあちこちのサイトで公開され
ルページをオープンした。研究会、学会の開催告知を
はしないか少々心配ではある。
主としているが、研究報告サマリーも一部掲載してお
現在、記事数 20 篇につき 3.99 ドル、60 編につき
り、今後の充実が期待される。
5.99 ドルという価格で、文芸誌を一年間定期購読す
これまで日本初の現代文学関連のデータベースと
るよりも遙かに安く、ほぼリアルタイムで読めるので
いえば、唯一、東京大学東洋文化研究所の尾崎文昭
あるから、試してみる価値は十分あるだろう。ただ、
氏が公開する「中国現代文学研究関係記事索引」(
注意を要するのは Web 上の決済に SSL 認証(https)
http://www.ioc.u-tokyo.ac.jp/~ozaki/)ぐらいだったが、
を利用しておらず、料金決済に不安が残る点である。
今後は日本でも学会レベルで論文の全文データベー
小切手の利用が一般的な北米向けであるためだと考え
スを提供していけるように体制作りを進めてほしいも
られるが、改善が望まれる。
のである。
最後にオンラインデータベースではないものの、や
はり今年出たばかりの CD 版「魯迅研究月刊全文光盤」
(中文 Windows 必須)を紹介しておこう。
名前の示すとおり、
「魯迅研究月刊」の全文データ
注
[1] 例外的な存在といえるのは作家(http://www.writermag
を 1980 年の「魯迅研究動態」時代から 2000 年分ま
azine.com/)、 書 屋(http://b21.net/reading/main.htm)
で全て収録したもので、古いバックナンバーは入手が
ぐらいだろうか。ほかにも見落としがあるかもしれな
困難であるだけに貴重な資料といえるだろう。1994
いが、2002 年 8 月現在確認した限りでは少数にとど
年以降のデータは中国期刊網にも収録されているが、
まる。
こちらは 1980 年まで遡ってみることができる。
収録されたデータは全てグラフィックであり、全
文検索は出来ないものの、
「高級検索」を利用すれば、
作者名、タイトル、刊行年など多様なキーワードでの
『横眼竖看』2002 年 2、3
[2] 瘦叟「『南京評論』记事」(
月合刊号总第四期)
『横眼竖看』2002 年 4、5、
[3] 青鋒「当文学遭遇網络」(
6 月合刊号总第五期)
Journal of JAET vol.3 ● 175
学術サイト
論 」
「 山
学術リソース レビュー
仏教学
師 茂樹
❏ 定番サイトの動向
本レビューでは、本誌のバックナンバーや『電脳中
国学』等で紹介したサイトやデータベースについては
原則としてとりあげない方針であるが、いくつか見逃
せない進展があるサイトもあるので、簡単に見てみた
い。
まずテキストデータベース関係であるが、中華電子
仏典協会(CBETA、http://www.cbeta.org/)は公開作業
を一通り終えたものの、テキストの質に重点を置いて
とのコラボレーションにより CJKV-English Dictionary
公開を進めている大正新脩大蔵経テキストデータベー
へと進化した。
ス(SAT、http://www.l.u-tokyo.ac.jp/~sat/)は、ようや
く今年度中に印度撰述部を完成させる予定とのことで、
❏ 国学網:仏学研究
また CBETA が手をつけていない日本撰述部について
も今年から本格的な公開作業が始まるようである。各
http://www.guoxue.com/fxyj/index.asp
宗派単位ではこれまでいくつかデータベース化がされ
てきたが、日本仏教のテキストが――大正蔵の日本撰
呉言生氏によってメンテナンスされているこのサイ
述部は日本大蔵経や大日本仏教全書などと比べると手
トは、中国の仏教学界の動向を知る上で極めて有用な
薄な感は否めないが――これほど網羅的に入力・公開
情報が満載である。方広錩氏、楊曾文氏といった第一
されることはなかったので、大変意義深いことではな
線の学者の業績紹介があり、論文の一部は電子テキス
いかと思う。
ト化され公開されている(例えば楊曾文氏であれば論
インド学仏教学論文データベース(INBUDS、http:/
文リスト 92 編中、25 編が電子化されている)。また
/www.inbuds.org/)は、2002 年 8 月時点で約 4 万レ
トップページには、コンピュータ利用も含めた最新論
コードを収録している。これは、1998 年にオンラ
文と、主に中国国内で開催された学術会議のレポート
イン公開を始めたときが 1 万 6 千件程度であった
のリストが並び、過去に公開されたものも整理されて
ことを考えると、飛躍的な増加である。今後、検索
公開されている。その他、仏教思想、仏教史に関する
システムの改良も検討されているようなので、ます
概論もあって、初学者には便利であろう。
ますの発展を期待したい。また、INBUDS のサイト
内に日本印度学仏教学会のホームページも開設され
❏ 超星数字図書館の仏教学コンテンツ
(http://www.inbuds.org/jaibs/)
、学術大会のプログラ
ムなどが掲載されるようになった。今後は NACSIS-
超星数字図書館についての詳細は、本誌所収のレ
ELS(http://els.nii.ac.jp/)を通じた学会誌『印度学仏
ビューや本会編『電脳中国学 II』(好文出版、2001)
教学研究』の公開も予定されており、INBUDS との連
等を参照していただきたいが、ここに収録されている
携などが検討されている。
仏教学関係のテキストが、最近急速に充実してきてい
C. ミュラー博士(http://www.acmuller.net/)による
る。
オンライン仏教辞典・漢字字典も、休むことなく項
何 と い っ て も 圧 巻 な の は『 中 華 大 蔵 経 』『 永
目数を増加している。特に後者は Vietnamese Nôm
楽 北 蔵 』『 乾 隆 大 蔵 経 』 の 公 開 で あ ろ う(http://
Preservation Foundation(http://nomfoundation.org/)
sshtm.ssreader.com/html/bdgj/bdgj030400a0a.htm)
『
。永
176 ● 漢字文獻情報處理研究 第 3 号
仏教学
学術サイト
楽北蔵』200 巻は書店で購入すれば 300 万円を下ら
ないはずだが、これが一枚 20 ドルのプリペイドカー
ド(+ブロードバンド+ハードディスク容量+忍耐)
だけでダウンロードできるようになった衝撃は甚大で
ある。これで中国・韓国にある主な大蔵経・仏典叢書
は、画像・テキストを問わなければほとんど電子化さ
れてしまったと言ってよい(残るは『宋蔵遺珍』
『房
山石経』ぐらいか)。日本で編纂された『縮蔵』
『卍正
蔵』
『卍続蔵』
『日本大蔵経』
『大日本仏教全書』などが、
ほとんど電子化されていないことに危機感を感じるの
は筆者だけではあるまい。
また、これ以外にも『正統道蔵』
『蔵外道書』など
開されており、漢訳浄土経典や親鸞等の著作からなる
の道教経典や、中国各地の地方志が気軽にダウンロー
『浄土真宗聖典』と、『十住毘婆沙論』から『選択本願
ドできるようになったのは、中国仏教研究者にとって
念仏集』に至る『浄土真宗聖典七祖篇』のテキストデー
大きな意味を持つだろう。特に後者については、小島
タベースを、ダウンロード(一部未公開)とオンライ
岱山氏が 2001 年に東京大学で開かれた日本印度学仏
ン検索から利用できる。文字コードはシフト JIS であ
教学会において、
り、検索システムも若干使いにくいインターフェース
であるが、底本、フォーマット、文字コードに関する
これまでの中国仏教学は大正大蔵経と敦煌文
献とでこと足りていたが、いまや膨大な量の方
情報が丁寧に解説されており、他のデータベースも見
習うべき内容であろう。
志(地方志)と無限の量の石碑を無視しては立
ち行かない時代となった。
(当日のレジュメよ
❏『聖語蔵経巻』天平十二年御願経
り)
昨年刊行を開始した丸善によるデジタル版『聖語蔵
と述べられたが、超星数字図書館からこのように手軽
経巻』の第 2 弾である。今回は、前回の隋・唐経篇(本
にダウンロードできるようになると、地方志を見なく
誌前号のレビューを参照)に続き、第二期・天平十二
て済む理由がなくなってしまう。中国の学者が我々よ
年御願経の第 1 回配本で、聖語蔵に現存する 750 巻
りも気軽にアクセスしている現実を考えると、資料調
のうち、約 3 分の 1 に当たる 246 巻、CD-R で 22 枚
査のレベルで大きな差が生まれるかも知れず、日本に
に相当する。
おけるアクセス環境の向上(できれば国内のミラー設
置)が切に望まれる。
天平十二年御願経は光明皇后が発願したもので、天
平 12(740)年 5 月 1 日付の願文があることから一
般には「五月一日経」と呼ばれることが多い。五月一
❏ 浄土真宗教学研究所
日経は言うまでもなく天平写経の代表作として名高い
が、日本古代史の分野では『正倉院文書』などに基づ
http://www2.hongwanji.or.jp/kyogaku/
いた数多くの研究があり、この度の CD-ROM の販売
によってより一層の進展が期待できるだろう。
ここでは、『浄土真宗聖典』聖教データベースが公
Journal of JAET vol.3 ● 177
学術リソース レビュー
中国史学
山田 崇仁
書集成続編』
❏ 中国史学研究上の二大インパクト
『叢書集成三
編 』『 叢 書 集
『四部叢刊』
中国史学に関する基本資料のデジタル化という観
点からすると、昨年から今年にかけて『四庫全書』及
成 新 編 』『 中
国歴史地図
集』等々がそ
れである。
び『四部叢刊』がデジタル化されたことは特筆される
筆者もブ
べきだろう[1]。この二つと中央研究院漢籍電子文献
ロードバン
を組み合わせることで、極基本的な中国古典文献がデ
ド環境移行
ジタルデータベースとして利用可能な環境になったと
を 機 に、 超
いえるからである。
星を利用し
中国学の IT 分野については、このように西風が東
始めたが、高
風を圧倒する状況は衰えそうもない。中国学用電子テ
額本や絶版本
キストは、この二つの CD-ROM の登場でとりあえず
が気軽に入手できることに驚き、また出先に本を持ち
一息ついたといえるだろう(尤も数年以内に第二波・
歩かなくてよくなったことに喜んでいる。書籍の画面
第三波が来ることは確実なので、小休止に過ぎないか
を見ながら同じ画面で原稿を入力するのには向かない
もしれない)。また、俗にコピー天国と揶揄されるお
が、研究会等で参考書として利用する分には大変重宝
国柄である以上、これまで主流を占めていた中央研究
している。
図 1 超星で『郭店楚墓竹簡』を閲覧
院系海賊版電子テキストに加えて、書同文系電子テキ
以前は、海外からのオンライン通販が書籍販売業
ストも増加すると思われる。更に書同文自体も電子テ
態を変えるかと思っていたが、超星の攻勢はそれ以上
キストの個別作成を請け負っており、今後漢字文献の
のインパクトがある。特に図書購入予算やスペースを
デジタル化は、個人がコツコツ作るものより、企業に
持たない研究者にとって魅力的である反面、これまで
依頼して作成するという段階に入ったといえる。そし
「本が入手できなかった」ですましていた部分が、超
て電子テキストの系統や版本はますます曖昧になり、
星を使うことで解決されてしまう可能性がある。これ
利用に際してその出所に更なる注意を要することにな
はある意味諸刃の剣に近いかもしれない。
るだろう
[2]
。
超星
http://www.ssreader.com/
❏ Web サイト
定番サイトの変化としては、台湾の中央研究院漢
電子テキストではないものの、電子化された書物
籍電子文献[3]や文物図像資料庫[4]に幾つか検索可
という意味では、超星の大攻勢も見逃せない。超星に
能な書籍が追加されたこと、また中国古典文献検索サ
ついては別にレビュー記事が載せられているので、そ
イトとしてよく知られている台湾故宮の寒泉[5]から、
れを参照していただきたい。
二十五史が無くなっている点が目につくだろう。寒泉
中国史学の面から見れば、各種文史資料や『中国
の変化の背景には版権問題があると思われるが、漢籍
近代史料叢刊』など、近現代史方面を中心に大量の
電子文献の外字に独自校訂を行っており、それなりに
書籍が登録されていたが、最近古代史や考古学関連の
使い道があったのを思えば残念な限りである。
書籍も数多く登録されるようになった。例えば『正続
中国大陸に目を向けてみると、国学[6] の「国学
皇清経解』『続修四庫全書』
『四庫全書存目叢書』
『叢
宝典古文検索[7]」が目新しいところだが、簡体字で
178 ● 漢字文獻情報處理研究 第 3 号
中国史学
らして、今は余り使い道がないが、今後期待したい。
日本の電子テキストサイトでは青空文庫
[8]
が著
名だが、日本発の中国古典電子テキストは新作を得
 大東文化大学の古典籍目録検索システム
http://www.daito.ac.jp/tosyo/f/koten/FMPro?DB=kanseki.fmj&-Format=S.htm&-View
これらについては、本誌の小島氏によるレビュー
られなくなった。これは中国側の大量の電子テキスト
記事を参照していただきたい。
を目の前にして制作意欲が無くなっているためだろう
 立命館大学東洋史学専攻
が、『唐令拾遺』や『入唐求法巡礼行記』等の日本人
http://www.ritsumei.ac.jp/kic/lt/eah/index-j.html
の著作まで中国側で電子化されている現状を見ると、
大学の東洋学関連講座の一例としてあげた。教員・
日本中国学の電子化に対する立ち後れを思わざるをえ
院生の紹
ない。
介の他、開
国内東洋学関連研究機関の Web サイト
催学会発
行誌の内
それでも情報発信を行う日本の中国史学系研究機
容ダイジ
関は徐々に増えている。大学関係ではおおむね専任
ェスト等
教員・開講講座・運営学会の紹介が中心だが、独自の
が載せら
プロジェクトやデータベースを立ち上げている所もあ
れ て お り。
る。既に本誌のバックナンバーや『電脳中国学』で紹
中国の研
介したものもあるが、幾つか挙げておこう。
究機関の
 日本中国学会
Web サ イ
http://wwwsoc.nii.ac.jp/ssj3/
 東方學會
http://www.tohogakkai.com/
図 2 立命館大学東洋史学専攻
トに比べて、論攷という面では劣るが、中国学研究機
関の Web サイトとしてせめてこの程度は実現して欲
しいものである。
両方とも、学会の紹介がメインであり、リンク集
多くの日本の大学の中国学講座の Web サイトは未
などはない。日本中国学を代表する学会の Web サイ
だ道半ばといった所だろうか。また、Web サイトの
トとしては、少々寂しいと感じるがどうだろうか。
制作は大学院生が中心になって行っているはずであ
 新潟大学 人文・敦煌プロジェクト
り、その時々の担当者のスキルと熱意によって、サイ
http://h0402.hle.niigata-u.ac.jp/~dunhuang/
トの充実度や更新頻度が異なってくる。従って、個人
新潟大学人文学部の「敦煌文献の総合的・学際的研
や企業が運営する Web サイトよりも、
「継続」という
究」プロジェクト Web サイト。詳細は本誌所収の岩
部分が一番ネックとなってくる可能性があり、その辺
本氏の論攷を参照。
りをどうするかが鍵となるだろう。
 京都大学人文科学研究所付属漢字情報研究センター
http://www.kanji.zinbun.kyoto-u.ac.jp/
中国の古代史関連の Web サイト
『東洋学文献類目』のオンライン版 CHINA3 は、最
続いて、中国史学関連の個人的に気になった Web
新版で著者名検索にも対応し、使い勝手がずいぶんと
サイトを幾つか挙げてみた。筆者の専門が先秦史とい
上がった。UTF-8 で構築されているので要注意。
うこともあり、かなり偏った紹介になってしまった。
 アジア歴史研究センター
 郭店楚簡資料庫(BIG5)
http://www.jacar.go.jp/index.htm
国立公文書館が運営する Web サイト。日本の公文
書のうちアジア関連のものが検索可能。地方在住者に
とって、非常に有用かと思われる。
文書は画像(DjVu もしくは jpeg)で閲覧する。
 全国漢籍データベース(UTF-8)
http://www.kanji.zinbun.kyoto-u.ac.jp/kanseki/
http://decapps.lib.cuhk.edu.hk/basisbwdocs/
bamboo/bam_main.html
竹簡『老子』を初めとする郭店楚墓出土の竹簡や
関連論攷を検索可能。
 簡帛研究(GB)
http://www.bamboosilk.org/
竹簡・帛書に関する各種論攷や馬王堆漢墓帛書が
Journal of JAET vol.3 ● 179
学術サイト
ある点とデータが漢籍電子文献の系統と思われる点か
学術リソース レビュー
閲覧可能。
く、あくまで参考程度である。
 荊楚文化網(GB)
 中国歴史博物館(GB, BIG5)
http://chu.jznu.net/
http://www.nmch.gov.cn/default1024.asp
春秋戦国の楚国に関する論攷・電子テキスト等、
日本語ページもあるが、何故か GB で日本語ページ
様々な情報が見られる。
も書かれているため、エンコードを日本語にすると文
 北京大学中国古代史研究中心(GB)
字化けしてしまう(閲覧には、エンコードを簡体字中
http://www.pku.edu.cn/academic/zggds/
所属教員の研究論文なども数多く掲載。日本の大
学の中国史学関連の Web サイトが、まだまだ講座の
国語に指定する必要がある)。QuickTime VR による
3D 館内散策が可能。
 e- 国宝(UTF-8)
紹介だけに留まっているのに対し好対照。
http://www.emuseum.jp/
東京・京都・奈良の国立博物館が所蔵する国宝の
 長城全接触(GB)
http://www.meet-greatwall.org/
万里の長城に関するサイト。画像や論文の他、古
精細な画像が閲覧可能。解説(日本語を含む数カ国語)
もあり。
籍の電子テキスト(簡体字。元は海賊データと思わ
れる。)まで利用可能。同様な長城関連サイトとして、
長城小站
[9]
や中国長城網
❏ おわりに
[10]
もある。
この一年で日本の Web サイトを中心に UTF-8 で書
 孔子 2000(GB)
http://www.confucius2000.com/
孔子や儒家を中心に、各時代の儒学の解説や各種
論攷・電子テキストなどを掲載するサイト。
デジタルミュージアム
上述の如く、電子テキストの面では一息ついた観
があるが、画像を中心としたデジタルミュージアムと
かれた Web ページが増加している。多漢字(多言語)
ページを多くの利用者に閲覧してもらうための選択
肢として UTF-8 が適切であると判断したのだろうが、
それは UTF-8 をそれと意識せずに閲覧可能な環境が
整いつつあることの裏返しだろう。色々と問題の多い
Unicode だが、多漢字あるいは多言語環境として広ま
りつつあるのが実情のように思われた。
いう点では、まだまだ試行錯誤が続いているといって
よい。各博物館・美術館の Web サイトで公開されて
いる画像にも、本格的な資料のデジタル化を目指すの
か、単なる所蔵品の画像公開だけにとどまるのか等、
それぞれに個性が見られて興味深い。
 拓片數據庫檢索(GB)
http://www.nlc.gov.cn/RubbingImg/
中国国家図書館の運営する Web サイト。所収の拓
注
[1]『四部叢刊』については本誌レビュー記事もあわせて
参照していただきたい。
[2] 電子テキストの系統に関しては、本研究会発行メーリ
ングリストの千田大介氏のコラム参照。
[3] http://www.sinica.edu.tw/ftms-bin/ftmsw3
本の検索と閲覧(jpeg 形式の画像)が可能。画像付
[4] http://saturn.ihp.sinica.edu.tw/~wenwu/ww.htm
き所蔵目録という位置づけなので、画像サイズは小さ
[5] http://210.69.170.100/s25/index.htm
図 3 拓片數據庫檢索
[6] http://www.guoxue.com/
[7] http://www.guoxue.com/web/home.htm
[8]http://www.aozora.gr.jp/
内藤湖南・桑原隲藏等の論文も公開されている。
[9] http://www.thegreatwall.com.cn/
[10] http://www.chinagreatwall.org/
180 ● 漢字文獻情報處理研究 第 3 号
中国史学・日本古典文献
大内 英範
❏ はじめに
ここでは日本古典文献に関するテキスト・テキスト
画像を発信しているサイト、研究に役立つビジュアル
資料を発信しているサイトなどを紹介する。
❏ テキスト・テキスト画像
 新編群書集成プロジェクト
伊藤鉄也氏(国文学研究資料館)の個人サイト「へ
は、他大学・機関でもこうした形での貴重書の公開を
ぐり通信」(http://www.mahoroba.ne.jp/~genjiito/)内
進めてほしい。
に公開された。権利関係のクリアなことを前提に、さ
 日本語テキストイニシアチブ
まざまなテキストを提供しようという試み。まずは塙
http://etext.lib.virginia.edu/japanese/index.html
保己一の「群書類従」からはじめ、適宜テキストを追
ピッツバーグ大・ヴァージニア大による、日本文学
加しながら 10 年かかって充実させていくというので
作品の電子化プロジェクト。登録作品は古代は万葉集
ある。さしずめ古典版青空文庫とでもいえようか。
「群
から近現代は太宰治・林芙美子まで 50 を超える。こ
書類従」所収のさまざまなタイトルをすべてオンライ
れまでは SGML によるタグ付けがなされており、こ
ン公開しても、その有益性はタイトルごとに微妙な差
の夏からは XML によるタグ付けに移行する旨、仄聞
があるだろう。しかし「群書類従」総体で考えた場合、
している。勿論、今後もタイトルの充実が予定されて
その有益性ははかりしれず、特に海外の日本文学文化
いる。
研究者には喜ばれるのではないだろうか。ただ、本稿
 渋谷栄一研究室
執筆時現在、アップされているのは2タイトルのみ
渋谷栄一氏(高千穂大学)のサイト。本誌創刊号で
(
「和泉式部日記」と「御成敗式条」
)
。今後に期待したい。
既に紹介されているが、その後の充実ぶりも含めてあ
なお、「群書類従」については大空社より CD-ROM
らためてレポートしたい。氏のサイトは大きく2つに
版が発売されており、画像のレベルでは既に電子化さ
れている。
 源氏物語写本(大正大学)
分かれている。
「定家本古典籍データベース研究会」のページ
(http://www.takachiho.ac.jp/~eshibuya/kenkyukai.html)
大正大学附属図書館のサイト(http://www.tais.ac.jp/
では、「藤原定家と平安朝古典籍の書写校勘に関する
lib/)では、同館蔵の「源氏物語」五十四帖(室町後期
総合データベース」というタイトルの通り、定家によっ
写)の全ての画像を閲覧することができる。源氏物語
て書写された古今集や土佐日記、源氏物語などの本文
の本文についての再検討の機運が高まっている中での
が公開されている。また、関連する研究文献目録や年
こうした公開の意義は大きい。閲覧には無料のプラグ
譜等の資料も充実している。
インが必要で、同サイトで案内されている。画像は非
もうひとつのサイト、「源氏物語の世界」(http://
常に鮮明で軽い。マイクロフィルムの白黒の紙焼きよ
www.sainet.or.jp/~eshibuya/)では、源氏物語の本文/
りずっといい。研究にも耐えうるクオリティを持った、
ローマ字版/現代語訳/注釈/翻刻資料(大島本と明
貴重な公開といえる。1ファイル(つまり見開き)ず
融臨模本) が、とうとう全巻完結した。その内容に
つ bmp 形式で保存することも可能であるが、ファイ
は圧倒されるばかりである。なお、上記「日本語テキ
ルサイズはかなり大きくなるので注意が必要。願わく
ストイニシアチブ」の源氏物語本文は本サイトの本文
Journal of JAET vol.3 ● 181
学術サイト
日本古典文献
学術リソース レビュー
をもとにしている。
❏ ビジュアル資料ほか
 風俗博物館
http://www.iz2.or.jp/
源氏物語の“立体的な”雰囲気を味わうならここ。
同館には 1/4 スケールの六条院春の御殿の模型が展
示されており、web 上でもその一端を見ることがで
きる。「平安貴族の生活」
「日本服飾史」など、資料の
コーナーも充実。なんといってもさまざまな道具類・
大殿油・二階棚・鏡箱・鏡台・鏡・唐櫛笥 ( からくしげ )
装束などを画像で確認できるのがうれしい。
というリンクがあり、クリックすると風俗博物館のそ
 源氏の部屋
れぞれの模型の写真と管理人氏による解説を見ること
http://homepage2.nifty.com/Eva-Genji/
ができる。注釈等での知識はあっても、視覚に飛び込
このサイトの管理人小池笑芭氏は、
「研究者」では
んでくることで強烈に印象に残る。許可を得た上で高
なく「源氏物語愛好者の1人」だということである。
校などの授業で教材として使わせてもらうとよいので
しかしここにはさまざまな研究情報が詰まっており、
はないだろうか。
もはや研究者も必見のサイトというべきである。本誌
発行時には開設2年足らずで恐らく 10 万件のアクセ
❏ 書誌学
スを突破しているはずで、この数字からも本サイトの
内容の充実ぶりがうかがわれる。
たとえば「情報カレンダー」には向こう数カ月分の
源氏物語関連の催し物情報が整理されている。本サイ
ト内の掲示板に寄せられた情報が核の一つとなってお
り、リピーターからの絶え間ない情報提供と管理者の
絶え間ない更新作業によって、源氏物語関連のポータ
ルサイト的な存在となっていることがわかる。
 和書のさまざま−書誌学入門
http://www.nijl.ac.jp/~koen/
washyonosamazama/index.htm
国文学研究資料館のサイト内、「ヴァーチャル展示」
のひとつ。
最近は学部で教わることも少なくなった書誌学の基
本について教えてくれる。
さてここで特に紹介したいのが本サイト内の「風
粘葉装や列帖装といった「装訂」、枡形本や横本と
俗博物館を 10 倍楽しむ!」である。先に紹介した風
いった「書型」、外題や内題といった「本の各部」、鳥
俗博物館の展示物のデジカメ画像を中心に構成されて
の子や薄様といった「紙質」について、具体例を画像
いる。風俗博物館の公式サイトとはまた異なる視点で
で示しながら解説してくれる。そのほかに版本や写本
のビジュアル資料が満載である。展示に関する詳細レ
などの「さまざまな本の形」、はては「概説書・入門書・
ポートのほか、女性の装束/男性の装束/調度/暮ら
辞典の紹介」まで、至れり尽せりの構成。
し/節句/仏事関連/食事といったカテゴリによって
分類されている。たとえば、
「調度」には執筆時現在、
182 ● 漢字文獻情報處理研究 第 3 号
やはり高校の授業や、学部での講義の教材にも活用
できるだろう。
日本古典文献・四部叢刊
学術ソフトウエア
❖ 学術ソフトウエア
四部叢刊
山田 崇仁
意が必要である。
❏ 一大基本叢書がついに CD-ROM 化
インストール後、書同文にインストール用 ID ナン
バーを利用して生成した番号をメールで送付し、折
北京書同文数字化技術有限公司(以下、
書同文と略)
[1]
が開発した CD-ROM 版『四部叢刊』
。元となった
のは中華民国期初頭に商務印書館から発売された同名
の叢書(初編・続編・三編)である。
『四部叢刊』は
り返しプロテクト解除&アップデートファイルが送ら
れてくるので、それらをインストールして指定された
アップデート作業を行えば起動準備完了である。
さて、起動すると FLASH で描かれたオープニング
当時の可能な限りの善本を影印した一大叢書であり、
が起動後、実際の利用画面に移動する。基本的な画面
刊行以来高く評価されてきた[2]。
自体は『四庫全書』と似ているが、『四庫全書』が瑠
刊行から 80 年近く経った現在では、それよりも良
璃色をベースとした配色なのに対し、『四部叢刊』は
いとされる写本・版本の影印や校訂本が出版されてお
黒色ベースの配色であり、ある意味対照的である。長
り、必ずしも『四部叢刊』が最良ではない。しかし、
時間使う分には、『四部叢刊』の配色の方が目は疲れ
安価な洋装影印版が出回っていることもあって多くの
ないのでよいかもしれない。
中国学系研究機関が所蔵しており、共通の土台として
今なお利用されている叢書である。
❏ 検索と結果の表示について
その民国期を代表する一大叢書が、電子化されて生
まれ変わった。書同文は言うまでもなく、
『四庫全書』
『四部叢刊』は Unicode アプリケーションなので、
の開発にも関わった中国の IT 企業で、おそらく漢籍
テキストそれ自体やキーワード入力も Unicode に対
を電子化するノウハウにかけては、現在世界最高水準
応しており、ATOK や MS IME からの入力も可能であ
にあると言ってよい。
『四部叢刊』の制作も書同文の
る。また、異体字シソーラス(かなり力業なので賛否
OCR プログラムを利用して、効率的に開発を行って
両論あると思うが)も実装しているので、旧字・新字
おり、極短期間に市販にまでこぎ着けたその技術力に
の区別に悩む必要もない。ただ、そのおかげで、キー
は驚嘆せざるを得ない。
ワードによっては不必要な検索結果が膨大にできてし
さて、『四部叢刊』の CD-ROM 版だが、豪華な木箱
に収められているのが印象的である。あたかも線装
まうこともある。
図 1 『四部叢書』のキーワード入力画面
本の帙箱を思い起こさせるが、その中身は CD-ROM・
マニュアル・及びインストール用 ID ナンバーが書か
れたラミネート加工の紙等がおさめられている。CDROM はテキスト及びプログラム本体が収録された 4
枚と、版本の画像が収録された 20 枚とに分かれる。
画像を見る必要のない場合は、4 枚(インストール時
の作業領域と合わせ、
2GB ほど必要)
のみをインストー
ルすればよい。日本語 Windows 環境でも動作するが、
解像度が 800 × 600 以上を要するのでその辺りは注
Journal of JAET vol.3 ● 183
学術リソース レビュー
IME 経由で文字を入力する以外に、部首や画数での
入力や書籍・著者指定入力も可能である。ただ、
「某
書の何巻と某書の何巻」などの指定はできない。
複数キーワード指定も可能だが、通常の検索ではか
なり遠くに離れたキーワード同士を結びつけるため、
キスト版検索該当個所に移動する。[検索結果]をク
リックすると一覧表示の画面に戻る。
電子テキストには誤植がつきものである。その為に
も、検索結果と元版本の画像とを比較が可能なのはあ
りがたい限りである。
それほど実用的ではない。しかし、その不都合を回避
ただし、検索結果の表題について苦情(というより
するための裏技が存在する。これは『四庫全書』と共
要望)がある。『四部叢刊』の検索結果では、書名+
通なので是非憶えておきたい。
巻数が表示されるが、それに篇名なども同時に表示し
てくれると有りがたい。漢籍を引用する際、しばしば
【キーワード 1】%nnnn【キーワード 2】
 nnnn 字以内にキーワード 1 と 2 との両方
が出現する
【キーワード 1】&【キーワード 2】
 キーワード 1 と 2 との and 検索(& 一つ
で一文字)
例:
巻名より篇名で引用元を記す場合がある。先秦古籍で
は特にその傾向が顕著である。篇名が表示されていな
いと、結果表示をしてもそれがどこにあるか感覚的に
認識しづらく、いちいち各篇の先頭まで移動する必要
がある。結果的に一手間増えてしまい、多量の用例を
調べる際には、この一手間が存外面倒だったりする。
この辺は評者のずぼらと浅学とを曝しているだけかも
子&仁
⇨ 子曰仁…
しれないが、是非とも今後のアップデートで実装して
子 && 仁
⇨ 子言之仁…
ほしい機能である。
ただし前者の裏技を『四部叢刊』には入れ忘れたそ
❏『四部叢刊』をどう使うか
うなので、
『四庫全書』
でしか使えない。
今後のバージョ
ンアップで実装される事を期待したい。
大学院生の頃洋装影印の『四部叢刊』を利用してい
検索キーワードを指定して入力し、検索を実行する
た評者にとって、電子テキスト化されて簡単に検索で
と、検索結果の一覧が表示される。それぞれの一覧か
きるようになったのを目の当たりにすると、なんとも
ら必要な部分をクリックすると、当該書籍の検索該当
複雑な思いがする。実際、『四部叢刊』『四庫全書』と
個所に移動する。ここで表示される文字は、Unicode
台湾中央研究院漢籍電子文献があれば、中国学に必要
テキストなので、コピー機能を利用すれば他のアプリ
最低限の文献は(版本の程度は別に)、ほぼ電子化さ
ケーションへのコピー&ペーストも可能だ。
[原文図
れていると言えるかもしれない。
像]をクリックすると、検索該当個所の版本画像が表
もっとも今日では、研究材料として既存文献だけで
示される。[文本頁面]をクリックすると、先程のテ
はなく、出土資料や現地の行政文書や写本・碑文等の
分析まで求められており、決して文献資料のみの研究
図 2 『四部叢刊』の検索結果
に安住していられる状況ではない。しかし、大量の文
献の電子化は、それらの資料に対する既存文献の再評
価に大きな役割を果たし、加えて、文献資料それ自体
の扱い方も変革する可能性をも秘めているのである。
特に、名物学・歴史言語学等の観点から用語の典拠
やその使用状況を調べる場合、従来とは比較にならな
い精度と速度で、大量の用語の抽出をすることができ、
電子テキストの威力を実感するだろう[3]。
このように研究環境に劇的な変化をもたらす『四
部叢刊』だが、問題が皆無というわけではない。
『四部叢刊』に限らず漢籍電子文献のような大規模
データベースを初学者が利用すると、辞書や注釈書と
184 ● 漢字文獻情報處理研究 第 3 号
四部叢刊・古典文献 CD-ROM
されることに圧倒され、目的とする情報を選り分けら
れず、データベースの利用をあきらめる場合がある。
このために初学者が大規模データベースを使うこと
注
[1] 詳細は本誌前号のインタビュー記事及び今号の特集記
事を参照。
に批判的な向きも一部にはあるが、大規模データベー
[2] 正史は別途百納本として刊行されている。
スが存在することは紛れもない事実であるし、その利
[3] 最もこれについては、検索方法の間違いに起因する検
用についてとやかくいわず、むしろ積極的に利用させ
索ミスが生ずる可能性を無視している点に留意してお
て、データベースの長所短所を身につけさせる方がよ
きたい。
いのではないだろうか?今後はその点を踏まえて、中
国学の教育カリキュラムの中に、初等者向け電脳東洋
[4] 本誌掲載の筆者の論攷は、東洋学向け電脳初等教育の
試みについて記したものである。
学教育を取り入れる必要性を指摘したい[4]。
古典文献CD-ROM
千田 大介
000 円)と少々高め。
❏ 進行する文献データデフレ
『中華経典文庫』は、諸子百家・『全唐詩』・『全宋
詞』・『全元曲』・明清小説・筆記・文論・近現代精華
卓群科技の CD-ROM
などを CD-ROM 12 枚に収録する。価格は 1,500 元(約
23,000 円)。他の CD-ROM やオンラインデータの転
PDF の古典文献 CD-ROM で知られる北京卓群数碼
用とおぼしいものも見られるが、諸子百家・明清小説・
科技有限公司の製品、
『中華歴史文庫』と『中華経典
筆記・文論などは、Web 上に公開される『国学宝典』
(後
文庫』を紹介する。いずれも昨年夏の発売であるが、
述)の目録と重なる部分が多く、他では見かけないデー
前号では紹介できなかった。
タも含まれる。前号で紹介した卓群の二十六史等は国
『中華歴史文庫』は、二十六史・
『資治通鑑』
・
『続
資治通鑑』をはじめ、艶史・野史・歴史演義などを
CD-ROM 10 枚に収録する。価格は 1,300 元(約 20,
学の協力をパッケージにうたっていたので、これらの
製品も同様なのであろう。
両者ともに、簡体字・繁体字のハイブリッド版。簡
体字・繁体字の選択起動画面が、CD-ROM をセット
すると表示されるが、筆者の日本語 Windows XP で
はうまく動作しなかった。CD-ROM を開いて、直接フォ
ルダに収められた PDF を開けば問題なく閲覧できる。
ファイル名は英数のみで、日本語モードでも問題なく
開くことができる。
さきに言及した『国学宝典』は、オンライン学術情
報サイトの国学網(htto://www.guoxue.com/)が出版
する文献 CD-ROM。既に発売されているが、まだ入
手できていないので、レビューは次号までお待ち頂き
たい。
『家庭蔵書集錦』の再版
一方、紅旗出版からは青蘋果科技の開発で 1997 年
に発売された中国の PDF 電子書籍の草分け、『家庭
Journal of JAET vol.3 ● 185
学術ソフトウエア
は違い、全く選り分けられていない情報が大量に出力
学術リソース レビュー
蔵書集錦』が再版された。発売当初は 3,000 元とい
う価格で市場にもさほど出回らなかったが、その後
の正規版ソフトの価格低下傾向に合わせて、今回は
298 元というリーズナブルな価格での再版となった。
二十四史・諸子から小説まで、古典文献の充実もさる
ことながら、マルクス・レーニン・毛沢東など共産主
義経典著作や、魯迅・老舎などの全集や選集を収録し
ており、現代文学等の分野にも十分に活用が可能であ
る。ただし、底本の表示はなく、著作権問題をクリア
できているのかについても充分な説明書きはなく疑問
が残るので、利用に当たっては注意されたい。
騰図電子出版社の CD-ROM
この価格で採算がとれるということは、二十五史の
データが独自の入力でないことの証左でもある。古典
今年になって、あらたに電子文献 CD-ROM 市場に
文献データは著作権が切れているから大丈夫だ、とば
参入したのが騰図電子出版社である。二十五史や『資
かりに、さまざまなソフトハウスが安易に市場に参入
治通鑑』、『三国演義』
、
『紅楼夢』などがある。一枚に
し、デフレ傾向に拍車をかけているのである。
一作品を収録した CD-ROM を、一枚 15 元程度の価
現状では、二次著作権への配慮が全くないのは大き
格で販売するが、データは PDF 形式でファイル名に
な問題であるし、なによりも、安易な転用によってデー
は簡体字が使われているので注意が必要。ただし、販
タ構築者の投資がペイしないようなことになれば、古
売されている文献は、オンラインや他の PDF 製品で
典文献デジタル化の動きが鈍くなることが予想される。
も見かけるものばかりである。
古典文献データがデフレスパイラルに陥らないことを
芝麻開門シリーズ
芝麻開門(開けゴマ)シリーズは、1 タイトル 10
祈る。
❏ これから出る CD-ROM
∼ 20 元程度の低価格で正規版ソフトを提供するもの。
このシリーズにも、二十五史、諸子、古典小説などの
本誌の特別寄稿記事にも見えるように、書同文公
多くの文献データ CD-ROM が収録されている。いず
司(http://www.unihan.com.cn/ 日 本 語 版 は http://
れも価格は 10 元。
www.unihan.com.cn/JP/JPindex.asp)では、『歴代石刻
同 シ リ ー ズ の 文 献 デ ー タ の う ち、 二 十 五
彙編』と『永楽大典』のデジタル化をすすめている。
史・『 資 治 通 鑑 』 な ど は 億 友 数 字 図 書 館(http://
また、その他にもいくつかの大規模古典籍デジタル化
www.dbook.com.cn/) デ ー タ の CD-ROM 版 と な っ
が計画されていると仄聞しているので、期待したい。
て い る。 閲 覧 に は 専 用 ブ ラ ウ ザ が 必 要 で、 中 文 版
一 方、 今 年 秋 か ら 発 売 が 開 始 さ れ る は ず の『 中
Windows を 利 用 す る か Windows 2000/XP を 中 文
国基本典籍庫』であるが、執筆時点では同プロジェ
モードに切り替える必要がある。データコピーは、一
クトの公式サイトである中国典籍網(http://www.cn-
度に 200 文字までの制限がある。このほか、前号で
classics.com/)がサーバ使用料未払いとのエラーが出
紹介した新華世紀の PDF 文献 CD-ROM も同シリーズ
て閲覧できなくなっている。少々不安を感じさせるが、
に収録されている。
国内中国書籍店のカタログにも掲載され始めているの
それにしても、あの膨大な二十五史の価格が、わず
か 150 円ほどにまで暴落するとは驚嘆を禁じ得ない。
186 ● 漢字文獻情報處理研究 第 3 号
で、無事にプロジェクトは進行しているようだ。販売
開始が待ち遠しい。
『漢字と日本人』・『情報文明の日本モデル』▪
■
書評
漢字と日本人 高島俊男 著
文春新書 198 2001 年 10 月 ISBN 4-16-660198-9 720 円 + 税
情報文明の日本モデル 坂村健 著
PHP 新書 173 2001 年 10 月 ISBN 4-569-61849-9 660 円 + 税
二階堂 善弘
漢字に問題があるのは確かである。しかし、JIS が工
❖ 高島俊男『漢字と日本人』
業規格であることに文句を言ってもほとんど意味はな
い。また「德」の字は第一・第二水準になかったとは
毎日使っていても意識しない漢字。その様々な問題
いえ、かなり早い時期からパソコンで打てたはずであ
を軽妙な語り口でわかりやすく解説しており、各地の
る。さらに JIS に縛られずに旧字体を使うことも、か
書店で新書のベストセラーになった。
なり早い時期からできた。どうも高島センセイは、パ
漢字の日本への伝来から始まり、音読み訓読み、呉
ソコンについてはあまりお詳しくないようである。
音漢音などなど、語り口に引き込まれているうちに自
そういった問題はあるものの、漢字文化を扱ったエ
然と理解できるようになっている。しかしそれは、深
キサイティングな本であることは間違いない。ただ、
い知識と個性的な文章と、そして鋭い批判精神に裏付
読む側も主張を鵜呑みにせず、大いに批判精神を保ち
けられたものである。
「売れる好著」とはこのような
つつ読むべきであろう。
ものかと、売れない新書を出している自分としては、
反省することしきりである。
❖ 坂村健『情報文明の日本モデル』
もちろんこの本は「楽しく教養を身につける」だけ
のものではない。日本人が漢字を受け入れて日常的に
こちらも旺盛な批判精神で、「日本独自の情報戦略
使っていながら、その認識があまりに浅いことを鋭く
の」構築を提言する話題の本である。どちらかという
突く。特に、第四章で展開される「国語改革」への追
と、同著者による『21 世紀日本の情報戦略』(岩波書
究は的確である。おっしゃる通り、漢字を廃止しよう
店)の方が日本の「情報戦略の欠如」に関して的確な
などという動きは、バカバカしいものであった。なん
批判となっており、また主張も穏当で読みやすい。
でそのような主張が力を得たのか不思議なくらいであ
る。
それに比してこちらの『情報文明の日本モデル』で
は、TRON ついて強調された主張が展開されている。
ただ、高島センセイ、時として筆がすべるのか、い
アメリカの情報戦略、Linux のようなオープンソフト
ささか「え?」と思う記述もあった。164 ページか
の動向に関する分析は、かなり的確であろう。また後
ら展開される「西洋人以上の西洋人」の箇所では、日
半の、日本の IT 戦略に対する批判も大いに賛同したい。
本人には種族や歴史による差別の概念はもともと無
しかし問題は、例によって漢字処理のところであ
かったというが、はてそうだろうか。もちろん、単純
る。例えば、131 ページに、Unicode では日本語と中
に「進歩史観」を受け入れてしまったことは問題だが、
国語の混在文書が作れない、という主張がある。しか
中国直輸入の「華夷」の概念と、
「尚古主義」という、
し、Windows でも Mac OS でも、Word などを使って
ある意味「退歩的」な史観はもっと始末の悪いものと
Unicode を使った日中混在文書はいくらでも作れる。
して受け入れていたのではなかったか。
Web 文書ですら、いまや分けて表示することが可能
それから、225 ページから述べられる、コンピュー
タと漢字に関する部分は、どうもいただけない。JIS
なのだ。この本の間違った主張を真に受ける人がいる
と困る。
Journal of JAET vol.3 ● 187
書評
■
▪『文字符号の歴史 アジア編』
また、143 ページから、
「漢字については国語学者
ある時は統合しないなどといったバランスの悪さはあ
や漢字学者がやってくれればいい」という意見があっ
る。しかし、
「もともと区別していなかったものを区別」
た。これを受けて、自分は「漢字学者」ではないが、
しようとしても、それには無理があるのだ。結局、超
あえて言おう。「多くの漢字を使う立場からすれば、
漢字 4 で「ゆらぎ検索」を取り入れなければならなかっ
どうみても Unicode を使う方が有利である」と。
たのは、まさにそこが問題だったからではないか。
もちろん、Unicode に問題があるのは百も承知であ
さらに、TRON と Linux を同列に扱って「オープン」
る。だが、もともと漢字は、使いこなす者にとっては
だと称しているのは問題であろう。仕様のオープンと、
日本の漢字であろうが、中国の漢字であろうが、
「同
ほぼ製品版に近いものまでが提供され、ダウンロード
一漢字」として考える方が一般的であったのだ。それ
や更改がかなり自由であるのではかなりの距離がある。
からすれば、統合漢字の概念の方が、元来の東アジア
とはいえ、日本の情報戦略の乏しさに関する批判や
的世界観に合致しているのである。変に区別する方が、
提言は、大いに有効であると考える。こちらの本も妄
むしろ近代的な観念にとらわれすぎている。
信せずに、読者の目で適宜判断しながら読まれること
むろん、その統合漢字の曖昧な設定については問題
をおすすめしたい。
がある。「与」や「説」といった漢字で、
ある時は統合し、
文字符号の歴史 アジア編 三上喜貴 著
共立出版 2002 年 3 月 ISBN 4-320-12040 7,500 円 + 税
師 茂樹
いが、これらを読み解くだけでも大変な労力であった
❖ (規格)書を捨てよ町へ出よう
ためか、規格の整合性やバグ探し、あるいは包摂規準
をめぐる様々な批評を通じて、康煕字典などにおける
我が国でおたくと称される人々が形成してきた文化
非常に特殊な文字の考え方や、コンピュータという離
は世界に誇るべき水準の高さを持ったものが少なくな
散機械でしか通用しない文字のあり方が議論の中心と
いが、文字コードに関しても、他の分野と比べれば
なり、結果としてリアルな文字の現場との乖離を招い
少数ではあるがそのような人々が存在する。彼らは昼
てしまったことは大きな問題だったように思う。様々
夜を問わず、オンライン・オフラインも問わずにしこ
な資料を精査し質の高さでは世界に並ぶものがない我
しこと情報収集に努め、決して安くはない各国のコー
らが JIS X 0208:1997 と同 0213:2000 は、このよう
ド表を買い漁り、データベースを作ったりしては通信
な規格書内に閉じこもった文字コード批評へのアンチ
網の片隅で喧々諤々の議論を楽しんでいた(というこ
テーゼだったように思われるが、そのすさまじく煩瑣
とにしておこう)のであるが、いつごろからか――思
な作業に忙殺されて国際社会へのコミットが遅れたの
い返すに日本文芸家協会がびっくりするほど的外れな
もまた事実である。
“批判”を始めたころからではないか――規格書(と
前置きが長くなってしまった。ここで取り扱う三上
その近隣にある康煕字典のようなオフィシャルなテキ
喜貴『文字符号の歴史 アジア編』は、その名の通り
スト)の中に閉じた議論が盛んになっていったように
「アジア地域を対象とした文字符号の歴史」(p. 3)を
思う。もちろん、規格書こそが規格としての文字コー
扱ったものであり、したがってその中では文字コード
ドを語る上で最重要なテキストであることは変わらな
の規格についての説明が多く割合を占めている。しか
188 ● 漢字文獻情報處理研究 第 3 号
『コンピュータが子供たちをダメにする』▪
■
書評
し、類書と決定的に異なる点は、文字が使用されデジ
深く読んだ。GB 18030 の政治性については評者もか
タル化が求められている現場が、数多くの写真やエピ
つて論じたことがあるが[1]、簡体字版 Windows を
ソードを伴って語られている点ではないだろうか。文
開発していたのが台湾人であったために Microsoft が
字コードおたくの中にも各国の現場に詳しい人は少な
何度も失敗していること、天安門事件をきっかけに米
からずいるが、本書のようにアジア全域にわたってい
中の IT 人材の強いコネクションができあがったこと
るものは極めて稀であるし、逆に言えば「広く浅く」
などは、規格書には決して書かれることのないダイナ
の印象はどうしてもつきまとうが、近現代のアジアに
ミズムである。
影を落とす帝国主義や国民国家の軛を思えば、アジア
今後、コンピュータにおける文字処理について関心
という大きなコンテクストを扱うことは単に対象地域
を持つ者がそれぞれの立ち向かう現場――現在の社会
を拡大する以上の価値がある。
であれ、古典のテキストであれ――における文字のあ
出版にあたっては「掲載した図表類は合計 273 点
り方とその処理の仕方を深く追求すると同時に、それ
に及び、本文や図表中に貼り込んだ「外字」は合計
を本書のように広い視野に立って大きなコンテクスト
9430 個所に及」んだという(p. 6)
。その結果価格が
へと還元する、その両方が求められてくるのであろう。
少し高めになったことは残念であるし、また多言語
その点において本書の意義は非常に大きいのではない
フォントを自在に操る文字コードおたくから見れば不
だろうか。
毛に泥臭い作業であったかもしれない。しかし、この
泥臭さこそが、実は文字コードと現場の文字とをつな
ぐ近道に思えてならないのである。
評者の個人的な関心としては、第 5 章「文字符号
表の分裂と統合」において、中国という巨大市場を
めぐる国際的な駆け引きが文字コード規格の変遷をめ
なお、本書は情報・通信関係の優れた著作に対して
贈られる大川出版賞を受賞した。
注
[1] 師茂樹「GB18030 とは何か 大陸の戦略」(『漢字文
献情報処理研究』第 2 号、平成 13 年 10 月、好文出版)
ぐって描写される箇所(p. 320 ∼ 328)を大変興味
コンピュータが子供たちをダメにする
クリフォード・ストール 著、倉骨彰 訳
草思社 2001 年 11 月 ISBN 4-7942-1096-5 1,500 円 + 税
平林 宣和
「コンピュータに詳しい人」に対する周りの反応は、
る。といっても著者はコンピュータ反対論者、反技術
呪術師に対するそれに近い。畏怖と反感、恐れられ敬
主義者ではない。彼はインターネットに立ち上げ時か
われつつ、またどこか怪しい者として聖別される。コ
ら関与した天文学者であると同時に、ネット上のハッ
ンピュータに向き合う人々の振る舞いにも、また同様
カー追跡劇で有名になった第一級の「コンピュータに
の振幅がある。過度に期待を寄せるか、逆に反発する
詳しい人」である。その彼が、コンピュータに熱狂す
か。やたらに反感を持たれるのも困るが、コンピュー
る教育界に対して、これってどこかおかしいんじゃな
タを使えば何でもできると思っている熱狂的信者はさ
いか、と言上げをしているのだ。
らに厄介だ。
教科書を全廃してあらゆる知識をコンピュータで提
本書は、前著『インターネットは空っぽの洞窟』で
供しようと考える人々。コンピュータ教室を作るため
インターネットへの過度の期待に警鐘を鳴らしたクリ
に取り壊される音楽室や工作室。子供にできる限り早
フォード・ストールが、コンピュータの導入に狂奔す
くからコンピュータ教育を施そうと躍起になる親や教
る教育界に対し、大きな疑問符を突きつけた書物であ
師たち。普通の教材にはお金をケチるのに、コンピュー
Journal of JAET vol.3 ● 189
書評
■
▪『オンライン教育の政治経済学』
タのためならいくらでも予算をつける国や自治体。コ
「普通に」考えることを勧めている。インタラクティ
ンピュータを前にすると、人々はなぜか俄「未来派」
ブなマルチメディア教材を使うと、人は本当に賢くな
になってしまう。100 年前の未来派は自動車の速度
るのか。シミュレーションでお絵かきや自然探訪をす
に酔ったが、今はビットのスピードに熱狂する。本書
ることは子ども達にとってよりよいことなのか。イン
が述べる数多くの珍事はすべてアメリカの事例だが、
ターネットで情報収集すれば、それがそのまま真っ当
おそらく日本でも同じような出来事にはこと欠かない
な学びになるのか。オンデマンドネットワーク教育で
だろう。
3センチ四方の小さな顔が長々と講義をするのを、人
気の毒なのは子ども達だ。全生徒にノートパソコ
は毎日あきずに聞くことができるのか。
ンの所有を義務づけた小学校では、子どもにとっては
ストール自身が述べるように、「コンピュータに関
ずっしりと重いパソコンを、毎日背負って学校に持っ
しては、健全な懐疑心を少し示しただけで、時代遅れ
てこなければならない。しかも通学途中で悪い大人に
の「技術革新反対論者」呼ばわりされてしまう」とい
盗まれないようにと、親は子どもの送り迎えを強いら
うのが現状だ。しかしそれであればなおさらのこと、
れた。高い金を払わされた上に毎日送り迎えなんて、
過信も反感も捨てて、それこそ「健全な」精神をもっ
親の方もいい迷惑である。
て事態に向き合う必要があるだろう。なんかおかしい
ストールはテクノロジーを人間との関わりの中で
ぞ、と思っている人には必読の書である。
オンライン教育の政治経済学 木村忠正 著
NTT 出版 2000 年 4 月 ISBN 4-7571-4017-7 2,100 円 + 税
平林 宣和
オンライン教育というコミュニケーションの一形態
ンクさせている。
が、社会文化的な営みとして今後人間のコミュニティ
後半の四、五、六章では、本書の主題である「オン
にどのように組み込まれていくのか。コンピュータ・
ライン教育の政治経済学」が専らに論じられている。
教育・社会という三項が複雑に絡まるこの問題をめぐ
四章では主にオンライン教育から生まれる諸問題が析
り、本書は教育論議にありがちな情緒的主張に陥るこ
出され、それに続く五、六章では、それらの諸問題を
となく、多面的な議論を繰り広げている。著者は認知
ふまえた上で、オンライン教育が採用しうるいくつか
人類学という学際的分野を専門とするが、認知科学的
の具体的ソリューションが示される。むろん著者の言
な視点と人類学的な認識、さらに社会学的な統計調査
うように、そのソリューションはあくまで選択肢の一
が巧みに組み合わされているところが本書のユニーク
種でしかない。しかし、コンピュータと教育という問
な点である。
題を、社会文化的文脈の中に再配置した場合の一つの
本書の序章から第三章までは比較的短い文章で構成
され、コンピュータと教育をめぐる様々な立場や、従
来の関連領域についての議論の分析がなされている。
可能態を示すことにより、本書はこれまでの学習理論
直結型の議論を一歩踏み越えているのである。
多面的な議論であるがゆえに章によっては論点が拡
特に第三章で語られる「教育の情報化に関するパラド
散する印象もあるが、コンピュータと教育に関わる議
クス」は興味深い。これまで多くの優れた教育用ソフ
論は、教育と技術の双方を含み混む社会的営為につい
トウェアが開発されてきたにもかかわらず、それが一
て考えることにほかならない、という一貫した認識が、
向に普及しないのはなぜなのか。著者はこの問題にコ
本書に従来には見られない包括的視点をもたらしてい
ンピュータと教育をめぐる従来の議論の矛盾点を見い
るといえるだろう。
だし、それを四章以下のソリューションの提示へとリ
190 ● 漢字文獻情報處理研究 第 3 号
『日本文学どっとコム』▪
■
書評
日本文学どっとコム 伊井春樹 編
おうふう 2002 年 5 月 ISBN 4-273-03239-2 1,800 円 + 税
大内 英範
「Ⅱインターネットへ」は、インターネットに接続
❖ 「電脳国文学」から1年半
するまでの誘導である。回線の違いやプロバイダ選び
の考え方、TCP/IP の設定まで図入りで解説してくれる。
当会編になる「電脳国文学 インターネットで広が
ここまでインターネットを利用するための前提とな
る古典の世界」から1年半。今年5月に出版された本
る、インターネットに接続できる環境作りについて紙
書は、「電脳∼」がインターネットでの情報入手とい
幅を割いている。用語等についても文中で過不足なく
うところから書き起こしているのに比べてさらに初心
ケアされており、これからパソコンを買ってインター
者を読者として意識しているといえる(詳細は後述)
。
ネットをやろうと思っている人には大変親切な構成と
まずは章立てを記す。
Ⅰ初めてのパソコン/Ⅱインターネットへ/
いえるだろう。
❖ 実践編
Ⅲメールを使いこなす/Ⅳインターネットで情
報収集/Ⅴ市販データベースの活用/Ⅵデータ
さて、Ⅲ∼Ⅵ章は実践編というべき章である。特に
の活用/Ⅶホームページを作る/Ⅷ情報収集の
「Ⅵデータの活用」ではエクセルを利用したデータの
将来への展望/Ⅸデータ・文字・互換性/付録
URL 集
活用術を解説している。
まず、csv 形式の解説からはじまり、エクセルの基
本操作(グラフ作成や検索・並び替え・フィルタまで)
以下、主な章の概要を見ながら、本書の特徴を紹介
したいと思う。
が具体例を示しながら解説されている。
さらに、国文学研究資料館の「国文学論文目録デー
タベース」の検索結果をエディタで csv 形式に加工し
❖ パソコンやプロバイダの選び方まで解説
てエクセルにとりこむまでの手順が解説されている。
当然、改行記号の置換作業などが必要になってくるわ
「Ⅰ初めてのパソコン」は、なんとパソコンの選び
けで、正規表現についても言及されている。それは詳
方から始まるのである。Windows の A4 オールイン
細には及ばず、テキスト処理初心者には過不足のない
ワン型ノートを選ぶべきであると。しかも「とりあえ
程度であると思われる。評者も先述のような情報処理
ずソニー」なのだそうだ。そして、周辺機器の説明に
関係の入門科目で、正規表現についてはちょうど本書
移ってゆく。
に触れてある程度のことを扱っているので共感を覚え
大学1年生を主対象とする情報処理関係の入門科目
た。
を担当していると、必ず何人かの学生からどんなマシ
ンを買うべきかの相談を受ける。そのことを思い合わ
❖ ホームページ作成と HTML
せれば、ソニーのオールインワン A4 ノートを勧める
是非はともかくとして、なるほどそういった段階から
書き起こす意味はあるかもしれない。
「Ⅶホームページを作る」では、実例を交えながら、
ホームページを構想・作成・公開するまでを扱ってい
Journal of JAET vol.3 ● 191
書評
■
▪『日本文学どっとコム』
る。まず、Yahoo!JAPAN の Geocities への申請からは
じまり、デジカメなどを使った素材集め、画像処理へ
❖ 「文学研究情報センター」の構想
と展開する。
実際のページ作成はホームページビルダーを用い 、
「Ⅷ情報収集の将来への展望」では、まず情報の
「HTML とはホームページを作成するための言語であ
整理法と検索技術について触れられ、電子図書館のト
る。しかし、最近は HTML を知らなくても、十分に
ピックから「文学研究情報センター」の構想へと展開
ホームページを作成することが可能になっている」と
する。ここには研究用のテキストと加工されたデータ
して、HTML についての具体的な解説は一切省かれて
が集積され、利用者は思い思いの検索をし、研究に利
いる。予想される読者層を考えて、
あえてこうしたホー
用できる。確かに「夢のような話」だが、インターネッ
ムページ作成法を勧めているのだと信じたいが、しか
ト上における昨今のテキスト類・資料類の充実ぶりを
し、本書 21 ページ(「Ⅱインターネットへ」
)には「イ
見ると、いつか実現されるのではないかと思えてくる。
ンターネットはハイパー百科大事典」との記述があ
る。前章でデータベースの検索結果を再利用するため
❖ 基礎知識や基本操作などの解説
の加工について具体的に解説しているのは、本書が基
本的にインターネットをそのように位置付けているこ
「Ⅸデータ・文字・互換性」では、ビットとバイ
との延長線上にあるものと思う。であれば、本章でも
ト、1 バイト文字と 2 バイト文字、等幅フォントとプ
正しい HTML ソースを書いてデータの再利用をし易
ロポーショナルフォント、特殊文字や文字コード、編
くするような工夫を勧めるべきではなかったか。少な
集操作(Copy&Paste と Cut&Paste)などについて簡
くともせめて前章での正規表現程度には取り上げてほ
単に解説されている。また、異機種間でのデータのや
しかった。h タグだけを取り出せば簡単に目次ができ、
り取りについても触れられており、想定される読者層
blockquote タグを取り出せば引用部分を一覧できる
を考えれば、非常に重要な章といえる。
ような HTML ではなく、文字を大きくするために h
タグを使い、インデントの調整のために blockquote
❖ おわりに
タグを使うような HTML では、データの再利用どこ
ろではなくなるのであるから。
「あとがき」にあるように本書の想定される読者層
なお、本章の最後の節、
「開設とプレゼンテーショ
は、「関心があり、パソコンをしてみようとか、持っ
ン」では、ホームページはブラウザで表示してプレ
てはいるものの、もっぱらワープロ機能しか利用して
ゼンにも使うことができる旨の記述があり、さらに
いない、といった方々」である。本書はとにかく具体
は PowerPoint で作成したプレゼンをホームページ化
例を示しながら解説するところに特徴がある。想定さ
することもできる旨の記述がある。それらについて
れる読者層を常に意識しながら、至れり尽せりの案内
はもっともなことと思うが、
「ブラウザと PowerPoint
をしてくれる。本書がそうした「方々」の、一歩前に
との往還」と書かれてしまうと、HTML ファイルを
踏み出すきっかけに十分なり得ることは間違いないだ
PowerPoint で読み込んでプレゼンが可能だと誤解す
ろう。また、文系の情報処理入門科目を担当している
る読者もいるのではないだろうか。もちろん HTML
教員にも、大変参考になると思われる。
を PowerPoint に読み込むことは可能であり、そのこ
そして、本書想定外の読者、既に一歩前に踏み出し
とを前提に作成された HTML ファイルなら別だが、
ている読者でも十分役に立つ内容といえる。ただし、
一般的に PowerPoint で HTML を読み込んで実際にプ
親切な記述がかえって一般性を損なう結果となってい
レゼンに使えるように整形するのは非常に面倒で、現
る部分もあるように思えたので、その辺り注意が必要
実的ではない。その意味で
「往還」
という言葉は当たっ
かもしれない。
ておらず、誤解を招く恐れがあるように思われる。
192 ● 漢字文獻情報處理研究 第 3 号
漢字文献情報処理研究会彙報
2001.9 ∼2002.9
/TRON コード 二階堂善弘(茨城大学人文学
部助教授)
、師茂樹(早稲田大学講師)
、谷本玲
2001 年 10 月 1 日
機関誌『漢字文献情報処理研究』第二号出版。
2001 年 11 月 30 日
本会編『電脳中国学Ⅱ』
(好文出版)出版。
2001 年 12 月 22 日
第 4 回大会・2001 年度総会開催。
2002 年 1 月 1 日
漢情研 BBS 改変。
2002 年 1 月 15 日
漢情研メールマガジン創刊。
(http://www.jaet.gr.jp/mag/index.html)
2002 年 3 月 31 日
大(茨城大学講師)
3. ディスカッション
◆新世紀の漢字文献データベースと大規模漢字
コード
総会(16 時 50 分より):
◆『漢字文献情報処理研究』第二号・『電脳中国
学Ⅱ』出版報告
◆ 2001 年度事業報告・会計報告(会計監査:小
口雅史、山崎直樹)
◆会則改正
◆執行部の改選
春期公開講座「漢字文献データベース最前線」
代表:二階堂善弘
開催。
副代表:千田大介・師茂樹
2002 年 4 月 14 日
会員名簿発行。
2002 年 6 月 30 日
「電脳中国語フォーラム シンポジウム」
(早
稲田大学、主催:日本中国語学会、協力:漢字
会計(経理担当):師茂樹(兼任)
会計(名簿担当):野村英登
幹事:上地宏一・小島浩之・田邉鉄・
平林宣和・山田崇仁
◆ 2002 年度事業計画・予算案
文献情報処理研究会・日本中国語 CAI 研究会)
◆漢情研 BBS の改変について
開催。
◆日本中国語学会との協力について
春期公開講座
第 4 回 大 会 ・2 0 0 1 年 度 総 会
日時:2001 年 12 月 22 日(土)
題目:漢字文献データベース最前線
会場:慶應義塾大学三田キャンパス 東館 6F
日時:2002 年 3 月 31 日(日)
G-SEC Lab
研究発表(13 時 00 分より)
:
1. 漢字文献データベース最新事情
◆『三国演義』版本対照ソフト紹介 中川諭(新
会場:慶應義塾大学三田キャンパス 東館 6F
G-SEC Lab
・
特別講師:朱岩(書同文科技公司 高級専員)
朱江(書同文科技公司 市場部経理)
通訳:山下一夫(慶應義塾大学文学部講師)
潟大学教育人間科学部助教授)
◆文献データ CD-ROM の氾濫∼中国の現状 千
田大介(慶應義塾大学経済学部専任講師)
※当日、書同文公司より本会に『四部叢刊』
全文検索版 1 セットをご恵贈頂いた。
2. 大規模漢字システムの現状
◆ Unicode/GB 18030/ 今 昔 文 字 鏡 /GT 明 朝
Journal of JAET vol.3 ● 193
著者紹介
岩本 篤志(いわもと あつし)
小島 浩之(こじま ひろゆき)
1970 年静岡県生まれ。早稲田大学大学院博士課程
1971 年岐阜県高山市生まれ。東京大学経済学部資
(東洋史)単位取得退学。現職は新潟大学大学院現
料室助手。富山大学経済学部、京都大学大学院文学
代社会文化研究科助手。専門は魏晋南北朝隋唐史で、
研究科修士課程を経て、京都大学附属図書館勤務の
文化史・社会史的アプローチを試みてきた(つもり
のち現職。東洋史学と図書館情報学の狭間で資料、
である)。最近の著作は「北斉徐之才『薬対』考」
(
『東
書誌、目録に関して研究している。主な論文は「唐
洋史研究』60-2,2001)
。電脳関係では
「包山楚簡デー
の玄宗 - その歴史像の形成 -」
(『古代文化』52-8)、
「現
タベース」(『電脳中国学』,1998)など。
代中国書の書誌的特徴」
(『大学図書館研究』64)など。
遠藤 光暁(えんどう みつあき)
齊藤 正高(さいとう まさたか)
1958 年生まれ。青山学院経済学部教授。中国語音
1970 年愛知県生。中国哲学専攻。愛知大学大学院
韻史・方言学専攻。著書:
『
《翻訳老乞大・朴通事》
中国研究科博士課程単位取得退学。愛知大学・静岡
漢字注音索引』(好文出版、1990 年)
、
『中国音韻
理工科大学、各非常勤講師。研究テーマは長期的に
学論集』(白帝社、2001 年)
、
『漢語方言論稿』
(好
は方以智の思想及び明末の自然学、短期的には漢文
文出版、2001 年)
。
に於ける類似表現の自動抽出・中国語 CAI サイト
大内 英範(おおうち ひでのり)
1968 年生。早稲田大学・専修大学・戸板女子短期
大学、各非常勤講師。国文学研究資料館研究情報部
の構築など。論文、
「光肥影痩論に就いて」
(『東方學』
第百四輯掲載予定)。
清水 哲郎(しみず てつろう)
非常勤職員。主たる研究テーマは平安時代の女流日
1957 年生まれ。文学部史学科卒業後、コンピュー
記文学の作品論と源氏物語の本文。著書:
『電脳国
タ関係の企業を経て、現在はフリーライター。ビジ
文学』
(好文出版 2000 共著)
。
『源氏物語別本集成』
ネス系ソフトとともに、学術分野における PC 活用
9 ∼ 15 巻(おうふう 1999 ∼ 2002 共著)
。
や文字コードにも関心を寄せている。著書は『図解
小川 利康(おがわ としやす)
1963 年生。早大大学院博士課程中退、大東文化大
学外国語学部を経て、現在、早稲田大学商学部助教
でわかる文字コードのすべて』・『Excel97/2000 操
作大事典』など。
朱 岩(Zhū Yán)
授。専攻は現代中国文学、周作人を中心とした散文、
1938 年天津生まれ。1959 年北京機械学院機械系
小品文作家に関心がある。今年は多人数の授業ばか
卒。1976 年より 1998 年まで中国国家図書館のコ
りのため、CALL で授業をしたくても出来ない状態。
ンピュータ化に従事する。現在、北京書同文数字化
上地 宏一(かみち こういち)
1976 年大阪府生シンガポール育ち。慶應義塾大学
大学院博士課程在学中。コンピュータ上の言語処理
全般に興味があり、現在の研究テーマは漢字字形の
コンピュータによる自動生成システムの構築。パブ
リック・ネットワーク・フォントという新しいスタ
イルを考案中。
194 ● 漢字文獻情報處理研究 第 3 号
技術有限公司高級顧問。著書『中国機読目録格式』
のほか、ISO/IEC 10646 (Unicode) の CJK 統合漢字
コードの研究と制定に参与。
朱 江(Zhū Jiāng)
平林 宣和(ひらばやし のりかず)
1967 年 北 京 生 ま れ。1993 年 よ り 日 本 に 留 学、
1966 年生まれ。早稲田大学演劇博物館助手を経て、
1999 年明海大学経済学部卒業。現在、北京書同文
現在は広島経済大学専任講師。専門は中国近現代演
数字化技術有限公司市場部経理。
『e 康煕字典』日
劇史で、民国期北京、現代台湾の京劇史などが目下
本語版 CD-ROM(三省堂)
、
『四部叢刊』電子版、
『孫
の関心領域だが、最近は教育学関連の書籍を読む時
中山数字化図書館』の開発に従事。
間が多く、俄副専攻化している。
鈴木 愛(すずき あい)
師 茂樹(もろ しげき)
1978 年北海道生まれ。現在北海道大学大学院国際
1972 年、大阪府生まれの福島県育ち。早稲田大学、
広報メディア研究科博士前期課程二年。専門はマル
東洋大学大学院等を経て現在、花園大学専任講師。
チメディア論。目下の関心は「ケータイ・メディア
日本を基点とした東アジアの仏教思想史研究、およ
が既存の人間関係に及ぼす影響」
。
び計算機上の文字処理やテキスト処理、統計的分析、
田邉 鉄(たなべ てつ)
1963 年京都府生まれ。北海道大学情報メディア教
そしてこれらすべてに関する方法論について思考を
めぐらすことが目下の課題。INBUDS、SAT などの
プロジェクトで、技術・公開面を担当。
育研究総合センター助教授。専門は中国語 CALL と
マルチメディア表現論。最新の研究テーマは「イン
ターネット・ガバナンスから見たグローバルな合意
形成」。
千田 大介(ちだ だいすけ)
1968 年東京都生。慶應義塾大学経済学部専任講師。
中国の歴史物語の変遷を、受容史や、小説・演劇・
芸能など各種メディアの相関関係といった視点か
山崎 直樹(やまざき なおき)
1962 年生。大阪外国語大学外国語学部所属。専攻
は,中国語学および中国語教育。現在の興味の対象
は,電子媒体上の構造化テキスト (HTML/XML) の
言語教育への応用。
山田 崇仁(やまだ たかひと)
ら研究している。詳細は、弊サイト「電脳瓦崗寨」
1970 年、愛知県生。立命館大学文学研究科修了。
(http://wagang.econ.hc.keio.ac.jp/)を参照されたい。
博士(文学)。現在は立命館大学文学部非常勤講師。
二階堂 善弘(にかいどう よしひろ)
専門は中国先秦史のはずだが、授業で担当してい
るのはパソコン講座。お陰で専門研究も先秦古典を
1962 年東京生まれ。東洋大学文学部卒業。システ
N-gram モデルを利用して統計学的観点から分析し
ムエンジニアなどを経て、早稲田大学大学院文学研
てその成立を探るだの、自分の専門が一体どこにあ
究科東洋哲学専攻博士課程単位取得退学。専門は中
るのか解らなくなりつつある。最近の業績:
「『國語』
国の民間信仰研究。現在、茨城大学人文学部助教授。
韋昭注引系譜資料について― N-gram 統計解析法に
著書に『封神演義の世界』
(大修館書店)
、
『電脳中
よる分析―」『立命館史学』22 号等。
国学 II』
(共著・好文出版)
『中国の神さま』
、
(平凡社)
、
翻訳に『三国志平話』
(共訳・コーエー)などがある。
横山 裕(よこやま ゆたか)
サ イ ト「 電 気 漢 文 箱 」
(http://nika01.hum.ibaraki.
1966 年宮崎生まれ。九州大学大学院文学研究科博
ac.jp/~nikaido/)を運営。
士課程単位取得退学。現在、九州保健福祉大学専任
講師。専門は中国哲学史、中国語教育。
Journal of JAET vol.3 ● 195
編 集 後 記
『漢字文献情報処理研究』第 3 号をお届けする。
漢字文獻情報處理研究 第 3 号
発行日
2002 年 10 月 1 日
定価
本体 2,000 円+税
編集
© 漢字文献情報処理研究会
http://www.jaet.gr.jp/
いつまで続くか危ぶまれた本誌が、とにもかくに
も第 3 号にまでたどりつけたのは、ひとえに漢字文
献情報処理研究会会員各位のご助力のたまものであ
る。また、編集にご協力いただいた日本中国語 CAI
研究会、刊行にご尽力いただいた好文出版の尾方社
長には、毎度の事ながら大変お世話になった。この
編集委員
場を借りて御礼申し上げたい。
本会では、昨年末、
『電脳中国学Ⅱ』を刊行した。
旧『電脳中国学』は Windows 98/NT 4.0 環境対応で
あり、さすがに古さは否めなくなっていた。そこで、
Windows 2000・Office XP に対応するとともに、旧
版で要望の強かった初心者向けの解説を増やしたも
のである。本誌の内容はちょっと難しすぎる、とい
う方は、ぜひ併せ読んでいただきたい。
本誌のレビュー記事は『電脳中国学Ⅱ』以降の変
化を中心に記載したため、既刊各号よりも分量が少
千田 大介
上地 宏一
田邉 鉄(CAI)
野村 英登
師 茂樹
山田 崇仁
小川 利康(CAI)
小島 浩之
二階堂 善弘
平林 宣和
山崎 直樹(CAI)
横山 裕(CAI)
デザイン
DTP
電脳瓦崗寨
http://wagang.econ.hc.keio.ac.jp/
発行人
尾方敏裕
発行所
株式会社好文出版
〒 162-0041
東京都新宿区早稲田鶴巻町 540-106
℡:03-5273-2739
:03-5273-2740
なめになっている。その代わりに、
「求められる学術
情報の発信」と「人文学情報処理教育」
、二つの特集
を掲載した。
中国学の情報化は、大規模データベースの出現に
よって大きく進展した。しかし、それらは中国・台
本誌に関する訂正・補足情報は、漢字文献情報
湾で構築されたものであり、わが国の中国学がひと
処理研究会サイト(http://www.jaet.gr.jp/)に掲載
り情報化から取り残されている状況には、じつは変
します。
化がない。
特に問題なのは、中国期刊網や台湾国家図書館に
本誌の定期購読をご希望の方は、
相当する大規模論文データベースの構築がまったく
・送付先住所 ・氏名 ・年齢
進んでいない点である。理系では、ここ一・二年で
・職業 ・勤務先 ・必要部数
情報化が進まないと危機的な状況になるとの認識が
を明記の上、好文出版まで、書面・FAX もしく
示されているようだが、人文学とて例外ではなかろ
は電話にてお申し込みください(住所・FAX・
う。論文をインターネットで入手するのが常識化す
電話は上記奥付参照)。
れば、中国学においても日本とばし、いわゆるジャ
パン・パッシングが急速に進行し、取り返しのつか
漢字文献情報処理研究会への入会をご希望の方
ないことになる可能性が高い。
は、http://www.jaet.gr.jp/guiding.html の趣意書お
本号の特集記事は、これからの中国学・人文学が
よび規約をよくお読みの上、同ページにリンク
いかにあるべきかという問題に対する、情報処理と
が掲載されている入会フォームよりお申し込み
いう側面からのアプローチである。もちろん、そう
ください。書面での申し込みは受け付けており
簡単に結論の出るような問題ではないので、今後と
ません。
も議論・研究を深めていく必要があろう。読者諸賢
にも、ご意見をお寄せ頂ければ幸甚である。
(☃)
ISBN-4-87220-062-4
C3004
¥2000E