【特集:デジタルアーカイブの展望】
永崎 研宣:デジタルアーカイブの現在地とこれから──公開から連携へ
2024/11/05
テキスト資料のためのTEI
IIIFが分野を問わないコンテンツ連携の規格であるのに対し、分野に特化することで有用性を高めるDA関連規格も様々に存在する。ここでは、人文学分野、特にテキスト研究に焦点を当てたデータ形式、TEI(Text Encoding Initiative)ガイドラインに注目する。というのは、DAにおいて現在のところ多くを占めるのは古典籍や古文書等のテキスト資料であり、その可用性や連携可能性を検討するならその種の資料を主に対象とする規格が有用だからである。
TEIガイドラインは、1987年に主に欧米の人文学や情報学の研究者らが集まって開始されたものである。その後30年以上にわたり、人文系研究者を中心としたコミュニティによって支えられて現在に至っている。現在は、おおむね半年に一度TEI技術委員会が中心となってガイドラインの改訂を行っている。
人文学でテキスト研究を行う分野、と一口に言っても、そこには様々な研究手法があり、それによって着目する点も様々である。同じテキスト資料を見ても、分野や関心に応じて、資料の書式や紙の材質、文字の字体等の外形的なことに関心を持つ場合もあれば、テキストの内容や登場する固有名詞、あるいは各単語の品詞情報など、内容面に関心を持つ場合もある。この多様な人文学において共通のデータ形式を作るというのは容易なことではない。これを乗り越えて共通の形式を策定していくことがTEIが目指すところである。この取組みは、単にデジタル技術を応用したりDAを発展させたりするだけでなく、人文学分野における方法論に関する議論に発展し得るものであり、人文学内での分野横断的な取組みとしても興味深い。
多言語の問題
TEIのコミュニティにおいて近年重要となっているもう1つの要素として、多言語の問題がある。英語圏以外からの参加も多いものの、TEIガイドラインはそれ自体が英語で書かれており、関連する議論も主に英語が使用されるため、このガイドラインは暗黙的に英語での資料の扱い方を前提としている面がある、と指摘する向きもある。コミュニティとしては国際化・多言語化に取り組んでおり、タグ等の説明の部分に関しては、日本語を含む7カ国語訳がすでに公開されている。しかし、ガイドライン全体に関してはその分量と専門性のため、近年はまとまった翻訳は公開されていない。TEIのコミュニティ自体が、2018年に東京で年次大会を開催するまで、一度も欧米以外の地で年次大会開催をしたことはなかった。
TEIの多言語化にあたっては、内容面と実用面の両方で対応する必要がある。実用面は、よく用いられるガイドラインやチュートリアルの日本語訳が求められる。また、内容面では、西洋言語の資料を前提として策定されたTEIガイドラインを日本の古典籍や古文書にそのまま適用することは難しい。この課題の解決は容易なものではないが、これを乗り越えられれば、欧米の多くのデジタル化テキスト資料と互換性を持った形で横断的な分析やツールの共有等ができるようになるため、昨今の学術情報流通における1つの大きな流れである研究データの利活用にも大きく貢献できる。
筆者がこれに取組み始めたのは2006年頃だったが、その後10年を経て、2016年に、この協会では初めて、特定言語圏に関する議論をする分科会として東アジア/日本語分科会を設置できた。この分科会での議論を踏まえて年次大会や技術委員会との議論、GitHubでの議論も経て、さらにその5年後、2021年には日本語でよく用いられるルビのルールがTEIガイドラインに追加された*2。多言語化の流れとしては、2017年にはインドテキスト分科会も設置されるなど、徐々にその動きが強まってきている。日本からの動きがインド関連の研究者の動きを後押ししたという面もあり、こうした事柄については、非欧米圏では比較的早くから人文学が発展した日本の強みとして、今後も日本が国際的に貢献できるポイントであるように思われる。
DAにおけるTEIガイドラインの活用は、日本ではまだ始まったばかりであり、今後の広がりを期待するところである。特に、DAにおいて画像が公開されている多くの古文書や古典籍、すなわち、漢文やくずし字の資料は、一般の閲覧者にとっては、文字が読めても意味がわからなかったり、そもそも文字が読めなかったりすることも十分に想定されるものであり、テキストデータを付与したり、現代語訳を用意できると望ましい。そのようにしてDAに新たなコンテンツを付与していくこともまた、価値を高めていくことになるだろう。なお、TEIに関する詳細は、筆者らが昨年に刊行した『人文学のためのテキストデータ構築入門』(文学通信)を参照されたい。
TEIとIIIFの組み合わせによるDA連携
特に画像との連携に関しては、TEIガイドラインに準拠してIIIF対応画像の任意の箇所とテキストをリンクさせて表示することが可能であり、たとえば、TEI準拠で作成された石清水社歌合では、内閣府文庫と群馬大学から公開されている写本を、テキストデータを読みつつ双方が異なる箇所についてはIIIF準拠画像の対応箇所を表示できるようになっている。すなわち、それぞれの機関から公開されているDAの画像が、公開者側では特にそれ以上の努力をせずとも、和歌文学研究者が独自にそれを活用して学術コンテンツの重要な要素としての価値を与えているのである。原本にどう書かれているのかを、現地に見に行くのでもなく、あるいは該当箇所を冒頭から探していくのでもなく、ワンクリックで確認できるのは、現地に資料を見に行くような重厚で濃密な体験には遠く及ばないものの、むしろ、少し縁の遠い分野の資料をごく少ない手間できちんと閲覧できたり、あるいはこういった研究手法の教育の入口として活用できるなど、新しい可能性は様々に考えられる。
DA画像に対して古文の原文だけでなく現代日本語訳と英訳も付与して公開している例としては、本年3月に公開された「十番虫合絵巻」がある。これも、TEI準拠テキストからIIIF準拠画像へのリンクが行われ、ここでは和歌に対応する絵巻中の絵がそれぞれ表示され、さらに、3つのテキストのいずれかをクリックすると、それに対応する箇所が表示されハイライトもされるようになっている。技術面のみならず、内容面からみた場合にも、現代日本語訳や英訳は、それぞれ、古文は読めないが現代日本語を読める人々や英語が読める人々にDAのコンテンツをつなげるものである。技術面で連携することが人々をつなぐことにも貢献する。このコンテンツを通じてつながった人々は、将来何らかの形でこの分野に貢献をしてくれる可能性もあるだろう。そうなったとしたら、そこでは技術面と内容面が相互に高め合う好循環が形成されることになる。
このように、標準的なデータ形式で作成されたDAは、技術的にも内容的にも、そして人的にも、連携を支える核となり得るものである。今後のDA構築・運用においては、この方向を一層推進していくことが、よりよい知識の共有を促して社会のネットワーク形成を支える、強く豊かな礎を形作っていくことだろう。
【註】
*1 高野明彦「DAの3つの価値」『デジタルアーカイブ学会誌』2024, vol.8, no.3, p. 107-108.
*2 https://tei-c.org/Vault/P5/current/doc/tei-p5-doc/readme-4.2.0.html
※所属・職名等は本誌発刊当時のものです。
2024年11月号
【特集:デジタルアーカイブの展望】
カテゴリ | |
---|---|
三田評論のコーナー |