ことば・コーパス

撮影済の画像を単に陳列する「画像データベース」・「電子図書館」、翻刻済の文献をOCRなどで取り込んで単純な文字列検索で供する「全文データベース」の類は世に溢れているが、GICAS のコーパスがこれらと一線を画するのは、提供される情報資源が、それぞれの書字の歴史を踏まえ用法を熟知した上で、それぞれの専門研究者によって厳選されたものとして、それぞれの書字体系の「縮図」として示されている点にある。

GICAS は、ソースデータの採取に当たっては厳密な文献学の手法を徹底し、既存複製で満足せずに文字資料の原本・原碑文の高精度の画像を取得することに努めた。こうして得られた高品位の文字資料に対して厳密な翻刻を行い、十分な注釈・解釈を施したものを原文全文データベースとして共同研究員間で共有し、更にそれらのデータベース間を横断した相互自動検索も実施して、収集したデータの位置付けが自ずから明らかになるようにした。その上で、その中から厳選した情報資源を「コーパス」として広く公開している。

書字史は書字コーパスなくして成立せず、一方書字コーパスは背後に書字史の大観がなければ構築できないのである。

辞書・字書

losalplat.jpg インドの四つの言語の電子辞書
ヒンディー・パンジャービー・カンナダ・テルグの辞書・見出し語辞書
ヒンディー語(デーヴァナーガリー文字)、パンジャービー語(グルムキー文字)、カンナダ語(カンナダ文字)、テルグ語(テルグ文字)関係の計8種類の電子辞書を公開している。検索は全文検索の手法を採用しているため、見出し語のみならず辞書の記述内容に関しても検索が可能。検索文字入力は、画面上部にある文字メニューによって画面右下のソフトキーボードが切り替わる。GICASが開発した入力ツールAAA+が利用可能。ソフトキーボードによる入力は、すべての検索窓に同じ文字が同時に入力されるため、同じ文字や綴りを異なるリソースにおいて検索する際便利である。
losalsh.jpg 世界初のシンハラ語電子辞書
シンハラ語辞書
日本はもちろん世界でも初のシンハラ語辞書の全文検索。見出し語数約4万。見出し語、発音、語義(日本語)、類義語、反意語が収録されている。用例も追加中。現在シンハラ語部分はラテン文字による翻字だが、シンハラ文字による検索および表示の準備中。
losaltb.jpg チベット語の動詞を調べる
現代チベット語動詞辞典
本研究の成果物である『現代チベット語動詞辞典(ラサ方言)』(東京外国語大学アジア・アフリカ言語文化研究所, 2003)のオンライン版。フィールドワークにより蓄積されたデータをもとに、コロケーション情報を通じて動詞の意味記述した口語の動詞辞典。チベット語、日本語からの検索が可能。チベット文字表示、全文検索の機能を備えている。またチベット語のテキストコーパスとの連動など、書籍にはない工夫が凝らされている。書籍版は第2回日本学術振興会賞および第2回日本学士院学術奨励賞を受賞。
santal_olchiki.gif インド最大の少数民族サンタル族の言語を調べる
Bodding's Santali Dictionary Search
インドのビハール州南部で宣教師として活動するとともに、1000万人近くの人口を持つインド最大の少数民族サンタル族の言語と文化の調査をしたP.O. Bodding (1868~1936)の記念碑的な業績を電子化したもの。

テキスト・コーパス

dbhc.jpg ヒンディー語古典文学のテキスト
ヒンディー語古典データベース
ヒンディー語古典文学テキストの全文検索。現在公開中のテキストは、1)トゥルスィーダース作『ラームチャリトマーナス』、2)ジャーエスィー作『パドマーワト』、3)プレームチャンド作『ゴーダーン』の3点。デーヴァナーガリー文字(UTF-8形式)入力機能付き。3)に関しては、自動形態素解析による語の活用形検索も可能。
ind-scrip.jpg ヒンドゥー教聖典のテキスト
ヒンドゥー教聖典データベース
ヒンドゥー教聖典のうちでデータベース化が進んでいない文献のテキストデータベース。サンスクリット語で書かれたインドの聖典がアルファベット転写、ナーガリー文字表記、印刷画像(一部)の3種の形式で検索できる。
otdo.png 敦煌出土チベット語テキスト
古代チベット語文献オンライン
かつて中央ユーラシアの中心的存在であった、チベットおよびその周辺の歴史を解き明かすための重要な一次資料である、敦煌出土チベット語文献(フランス国立図書館および大英図書館所蔵)の調査研究の成果。注釈付きのテキスト・コーパスとして公開、検索機能も充実している。10世紀以前のチベットおよびその周辺の歴史、宗教、言語、政治、交易等の研究に寄与。

arrow

GICASについて | About Us
» English