近時の情報ネットワークの爆発的な進展にともない、好むと好まざるとに関わらず、あらゆる情報伝達が英語(ラテン文字)を中心に進んでいるかのようである。かつては、その過程で、他の言語は淘汰されていくという予想すらされていた。しかし実際には、情報ネットワークが広く普及すればするほど、自国の、あるいは民族固有の言語での情報発信が飛躍的に増加しつつあることが確認されている。発信される情報の量も、英語と比較して、相対的に増大しつつあり、この傾向はますます顕著になりつつある。これは、優勢言語によって囲い込まれた情報の壁を打ち破り、あらゆる意味で平等に情報を共有していこうとするという、情報ネットワークの本来の目的に近づきつつある点で、いたって健康的な姿である。
一方、情報ネットワーク上に多くの言語が流通するにつれて、さまざまな社会的・技術的問題が顕在化してきている。そのもっとも根本的なものは、各言語固有の文字の問題であり、文字を媒介とする言語活動である書字(écriture, script)の問題である。私たちが取り組んでいる「文字情報学」は、この21世紀の知識と情報のライフラインである情報ネットワークにおける文字の問題を、その根源から、解決しようとする研究領域である。
文字は、人類最大の文化遺産である。しかし、驚くべきことに、これに焦点をあてた学問領域はいまだに未開拓なまま取り残されている。文字にもっとも近い学問分野である言語学は、「言語の本質は音声であり、文字は音声言語の二次的な派生物である」という観点から、文字を科学の対象として正面から捉えてこなかった。今日までの文字研究と称されるものの多くは、もっぱら未知の言語の解読や個別言語の歴史的な変遷を追跡することを目的とした限定された分野における孤立した研究作業であった。
「文字は言語を前提とするが、言語は文字を前提とはしない」という命題がどれほど正しいにせよ、皮肉なことに、情報ネットワークをかけめぐる言語の発信は、圧倒的に音声ではなく文字に依存している。漢字仮名が使用できないネットワーク環境で、やむをえずラテン文字(ローマ字)で日本語のメールを送った経験のある人も少なくないであろう。
現在、世界で使われている文字は、そのほとんどがアジアで使われている。つまりアジアは、地球上、文字種がもっとも密集している地域である。各文字の使い手が、慣れ親しんできた本来の文字で、自由かつ平等に言語表現を行いたいと考えることは、当然の権利であると言えるだろう。そのことが保証されない、文字の種類に起因するデジタルディバイドを残したままのネットワーク環境は、従来からの読み書き環境と比べてはるかに後退した言語の表現環境であると言わざるをえない―当然ながら、それは我々の目指すところではない。
こうした問題を背景に、情報発信の基盤をなす文字、およびその裏づけとなる文字理論の整備が目下の急務となっている。私たちが構築しつつある文字理論は、その応用の一つとして情報ネットワーク上の文字の規範も目指している。その規範は、便宜的に作り出されたものではなく、言語と文字の歴史的かつ具体的な事実関係が参照できるデータベース(言語コーパス、文字コーパス)から抽出された、実証に基づくものであることが望まれる。本研究のタイトルの前半部分「アジア書字コーパスに基づいた」は、こうした方法論を指している。つまり今日的な情報分野の問題解決を、場当たり的に、あるいは拙速に行うのではなく、20世紀までの文字文化を正当に継承し、21世紀のデジタル環境で十分使用に耐える根拠とそれへの熟慮に基づいて行うべきであると考えている。
アジアの文字を情報ネットワーク上で扱うにあたっては、多様な文字をどう入力するのか、多様な文字をどう表示・印刷するのか、多様な文字をどう検索するのかなど、英語(ラテン文字)ではほとんど問題にならない個々の技術的問題を解決する必要がある。このような問題の解決が、21世紀の文字文化と、情報ネットワークの質を決定する重要な鍵になっていく。また、21世紀のアジアの文字の問題と解決は、世界の文字の問題と解決につながるであろう。我々が文字情報学の名の下に目指すのは、20世紀までの文字文化とその研究を理論化することという人文科学的基礎に基づいて、このような問題の解決を視野に入れた情報学的視点をも加えた新たな学問領域の創成である。
GICASの置かれたアジア・アフリカ言語文化研究所は、日本の学術機関としては唯一、Unicode Consortiumのリエゾンメンバー として招聘されている他、ISO(国際標準化機構) SC2(文字コード委員会)からも助言を求められている機関です。
GICASの研究代表者であるペーリ・バースカララーオによるUnicode Consortiumへの提言: