ゼミ生による発表「幽霊文字について」『電脳社会の日本語』6章


「幽霊文字について」(高橋)

幽霊文字:辞書や文字表の類に載せてあるが、典拠がみつからず、かつ実際に使用された証拠もなく、現実に存在しないような漢字の字形や自体
e.g. 彁(か)、暃(はな/ひ)、妛(し)、碵(おお/すぐ/せき)、駲(しゅう)、恷(きゅう/もと)etc.

幽霊文字は誤字/作字である事が多いが、間違った字もJIS漢字から削除されない〜その字が既に使われた可能性、新たな混乱を避けるため。何百年も前に同じ転記ミスがあったり、書き誤った字体が定着したケースもある。

幽霊文字の一方で、JISでは書けない文字の存在:高島屋の「高(ハシゴ高)」、小説家内田百ケンの「ケン(門構えにモ月モを入れる字)」など。

JISから漏れた字の問題:自分の名前に使われる文字が、電子処理できない人々のアイデンティティ〜自分の名前がJISになく、それを確かめる辞書もない

学生の質問:幽霊文字問題は他の漢字圏(中国大陸、台湾、日本、韓国等)でも共通しているのか?〜漢字圏各国それぞれ簡略化していて調整の機会はなく、ユニコードもフォントは各国ごと。今後の課題だろう。


報告『電脳社会の日本語』6章(坂野)

JIS基本漢字の三度目の改訂〜97JIS
97JIS原案委員会委員長/芝野耕司:JIS批判
作業状況をHPで公開、一般の意見を聞く試みと、文字コードのために働く人材の収集

78JISが典拠とした「国土行政区画総覧」を復元〜幽霊漢字の解明
一方、人名用漢字285文字を追加

「今昔文字鏡/e漢字/GTコード」:現在公開中か、公開予定の大文字セット

今昔文字鏡:文学、仏教学、歴史学など様々な分野の研究者の支援のもとに構築した、フォントと漢字データベース
部首を更に分解する「解字」という手法→漢字の理論的生成過程を「解字木」というツリー式で見ることが可能
従来の文字セットとの相違点:
1.JIS基本漢字、JIS補助漢字、ユニコードと異なり、研究者が直接採録し、典拠が明確
2.従来の文字セットが明朝体を無批判に用いるのに対し、字源主的な独自の字体を採用

e漢字:歴史上現れた全ての漢字を網羅した単一文字セットを作るのは不可能というコンセプト。e漢字としての通し番号はつけず文字同定もしない。

GTコード:「人文系多国語 テクスト・プロセシング・システムの構築に関する研究」で作成しようとしている文字セットとフォント。

TRONコード:世界中のあらゆる文字を収録するコード。GTコードと密接な関係。

(文責:佐々木)