ユニコード、コーパスと文字の実地検証2(タイ文字)
ユニコード(竹松)
1.Unicodeの経緯
- アメリカ西海岸の大手コンピューター企業有志が独自に開発を進めていた内部処理用コードが発端。
- 当時の極東市場(漢字圏)は経済成長を続けており、新製品投入を容易にするため(コスト減)アメリカの大手コンピューター企業(IBMやアップル社など)が参加し、1991年に「ユニコード・コンソーシアム」(私的企業集団)が正式に発足。
- Universal(普遍的)、Uniform(固定長※しかし最初から不定長)、Unique(一意的)というモットーから名称が考案された。世界各地域の言語の文字を収録した国際符号化文字集合。ISO/IEC10646作業部会とユニコードコンソ-シアム(上記参照)によって1991年に設定。
- 10646原案ができた同時期にでき、その目的が同じゆえに1991年当初は10646原案と対立した。しかし、その後折衷案が出て、1992年1月にUnicode1.1はISO10646の文字を含み互いの文字コードもわかるようになった。
- Unicode1.0(1991年)→ Unicode1.1(1993年) →Unicode2.0(1996年)→Unicode2.1(1998)→Unicode 3.0(2000年)→Unicode3.1と改善され今に至る。
2.各Unicodeの特徴
- Unicode1.0は振文字を16ビットで表現する。すべての文字に16進数4桁のコード(0000〜FFFF)がふられている。27923字を収録。また、その漢字パートは、漢字に無知なアメリカの技術者が、アメリカ企業各社の漢字表を切り貼りして作った。
- 日中韓の統合漢字構想がUnicodeの出現により普遍文字コード構想へ広がった。
- 中国とあるアメリカ企業が作ったHan Unificationとは日中韓で同じと見なせる漢字には一つの文字コードしか与えないというもの。日本の批判は大きい。
- Unicode1.1は16ビット推進がむずかしいとわかるとハンユニフケーションを進めて、アルファベット、記号、ハングルを変えたISO10646-1のBMP(基本多言語面)に合わせて改訂した。25字削除、6720字の追加、10字の移動。
- Unicode 2.0への改正で4717字の追加と6656字の移動で計38885字を収録。サロゲートペアで100万字分が入る。そこだけは1文字=32ビットである。不定長コードになったゆえんである。(サロゲートペアの「サロゲート」とは「代理」とか「代わり」という意味で、サロゲートペアは二文字で一文字の代わりをする。半人前文字ということ。)
3.Unicodeの問題点
- Unicodeが対象とする情報分野は英語で記述するのでそれをローカルな言語に置きかえる際の利便性のためにUnicodeが存在するという考え方が基本。例えば中国語と日本語がネット上で混在するなど想定されていないのではないか。(「Unicodeの概要と動向」)
- Unicodeは各国に特定して使うには問題は少ない。国際化というより地域化を能率的に行うものと考えた方が良い。
4.ハ
UTF-8とは何か
- 既存の ISO 2022系とは基本的なところから作り直さなければならず、コストがかかりすぎてまったく対応していない。そのため7または8ビットに変換するための符号変換方式(UTF)が工夫され、UTF-8が本命とされた。
- UTF-8は優先度の高い文字ほど短い符号列に変換している。Unicodeに、ある演算を施してASCUと無理やり上位互換したコードである。(テキストP166を参照 )
- UTF-8はUnicode=ISO10646の文字符号を1バイトから6バイトに変換する。
参考文献
- 太田昌孝『いま日本語が危ない』 (株)丸山学芸図書 1997年
- 加藤弘一「ほら貝」〈http://www.horagai.com/www/moji/code4.htm〉2000.6.29.
- 川俣 晶『パソコンにおける日本語処理/文字コードハンドブック』(株)技術評論社1999年
- 安岡孝一・安岡素子『文字コードの世界』 東京電機出版局 1999年
- 「使いこなそうユニコード」 〈http://homepage1.nifty.com/nomenclator/unicode/〉(公開開始2000-04-16. 最終更新2001-06-26)
〈コーパス〉について(鈴木和)
コーパスとは?
- コーパス(corpus)はもともと「ある目的のために集められたテキスト・データ」を指す。
- 現在ではコーパスといえば、一般に「機械可読テキストの集積」を指す。
- ただ単にテキスト・データを集積しただけではなく、ある特定の言語の「様々な分野」から「バランスよく」抽出したテキスト・データの集まりを指す。
→こうしてサンプリングされたテキストデータこそ、その言語の特徴を対表しているとも言える。もっとも「様々な分野」とはどういう分野か、また「バランスよく」とはどのようなものかについては必ずしも明確ではない。(そもそも細かく規定することによりむしろ量を増やすことの方がかえって現実を表しているのではないかとも考えられる)
コーパスを利用して言語に関する情報を獲得する研究
- 古典的なのは単語の使用例を利用する辞書の開発
- 形態素解析用連接規則の自動獲得、構文規則の自動獲得、動詞の格情報の自動獲得、共起関係の獲得、単語の翻訳における多義性解消のための知識、シソーラスの自動形成
コーパス利用(ある英語教育の場合)
- 授業の中でHis opinion is different ( ) mine.の答えとしてfromを正解としたものの、thanでもいいという記述がどこかにあったような記述がどこかにあったような気がする場合、コンコーダンサーで検索。different from は書き言葉で91、話し言葉で54、一方different than は書き言葉で21、話し言葉では68の例が見つかる。
※コンコーダンサー=コーパスから必要な表現を抽出し、検索した語(Key Word)がモニター画面の中央にくるように出力してくれる(Key Word in Context, KWIC表示という)機能などを有するソフト。(膨大なデータを処理するための必須道具)
【今までは、カードなど手作業だったので完璧ではなかった。パソコン作業になってから、正確さが求められるようになり、漏れが許されなくなった。】
『大正新脩大藏經』テキストデータベース研究会(SAT)
- 台湾=中華電子仏典協会(CBETA)。台湾大学仏教研究センターが中心。史書や仏教文献は台湾中央研究院の〈漢籍全文資料庫に集め、インターネットでも公開。
- 韓国=サムスン財閥の全面的バックアップで、海印寺版『高麗大藏経』の電子化が勧められ、1996年に「四庫全書」の全文電子化(OCRで読み込むやり方)が完成。(『電脳社会の日本語』p.242)
- 日本=「大正新脩大藏經テキストデータベース研究会」(SAT)を中心に、いくつかの団体が協力して大正大藏經び電子テキスト化にあたっている。→不況もあり、支援の輪は今ひとつ広がらない状況。
参考資料
- 加藤弘一「ほら貝:文字コード」<http://www.horagai.com/>、2001.6.
- 須賀廣「コーパス利用のすすめ」<http://www1.harenet.ne.jp/~suga/jfirst.htm>、2001.6.
- 中川広「例文データベースとしてのコーパス」<http://www.forest.dnj.ynu.ac.jp/>、2001.6.
- 「大正新脩大藏經テキストデータベース SAT Home Page」<http://www.l.u-tokyo.ac.jp/~sat/japan/index.html>、2001.6.
タイ文字について(柳下)
タイ文字の歴史
タイ文字の起源は今から700年以上前のスコータイ王朝(1220頃〜1378)にまで遡ります。第3代のラームカムヘーン大王が今のタイの国土より広い範囲を制覇した時に、カンボジアの文字を元にしてタイ文字を制定したといわれています。その後、今からおよそ300年前、アユッタヤー王朝(1350〜1787)のナーラーイ王の時代に今と大体同じ形が出来上がりました。カンボジアの文字から来たとはいってもタイ文字の元になった文字がカンボジアの文字ということで、言葉としては違うものです。ですから、カンボジアの人とタイの人がそれぞれの言葉で話しても通じません。
1.母音
長母音と短母音があり、それぞれ9つずつある。短母音の発音のコツとしては最後に「ッ」をつけるとよい。
2.子音
一つの発音に複数の文字がある。大まかに、無気音・有気音・有気無気の区別のないもの・その他に分けられる。
<参考>
声調は5つある。実際の文字については以下のページから「タイ文字」を選択してください。タイ文字だけでなく、様々な文字が見られます。
- 「世界の文字」〈http://nacos.com/moji/index.html〉中西印刷株式会社 2001.7.3.