読者です 読者をやめる 読者になる 読者になる

しろもじメモランダム

文字についてあれこれと。

「Unicodeの基礎知識と異体字について」に行ってきた

文字コード 字形字体

IVS技術促進協議会のセミナー「Unicodeの基礎知識と異体字について」があったので、ちょっと聴きに行ってみた。

Unicodeの基礎知識と異体字について
主催:IVS技術促進協議会 後援:日本電子出版協会電子出版制作・流通協議会

内容
(1)Unicodeに関わる用語や基礎知識、IVSについてご説明します。
講師:Unicode Consortium Director 小林 龍生 氏 
(2)外字・異体字に関するプロジェクト等についてご説明します。
講師:凸版印刷株式会社 情報コミュニケーション事業本部 田原 恭二 氏、総合研究所 秋元 良仁 氏

セミナー情報|IVS技術促進協議会

以下、ざっとレポート。スライドのPDFとあわせてどうぞ。

(1) IVS時代の文字コード入門

charater glyph model

最初に character(「文字」)と glyph(「抽象字形」)の関係(charater glyph model)について、ISO/IEC TR 15285 というTRでの定義をもとに簡単な説明があった。

character は文字というよりも、ただのビット列と考えた方が往々にして意味が摑みやすいとのこと。glyph については、抽象的な字形(デザイン差は吸収される)を指す場合と具体的な字形(実際に表示・印刷される形)を指す場合とがあるが、このTRをはじめ、文字コードに関する精しい議論などでは前者の意味で使われている。この定義を採る場合、具体字形は glyph image と呼ばれる。イメージとしてはこんな感じだろうか。

抽象←  character > glyph > glyph image  →具体

一方、フォント技術関係では具体字形を glyph と呼ぶ場合も多いので注意。このブログでは、こちらの用法の方が多い。

日本の文字コードと漢字政策

次に日本の文字コードや漢字政策の変遷について、要点を搔い摘んでの説明があった。このあたりはよく知られている通り。改定常用漢字表と同日付で「改定常用漢字表に対するJIS漢字コード規格の対応状況について」が公表されたように、近年は文字コード規格と国語施策の連係がとれるようになってきた。

Windows Vista では JIS X 0213 の改正への対応が話題になったが(JIS2004問題)、マイクロソフトとしては「常に最新の規格に合わせるという方針」を採っているとのこと。

外字・異体字・IVS/IVD

その後は外字・異体字のさまざまな例が紹介された。かの有名なカナダ漢字の話もちょろっと。肝心のIVS/IVDの解説が時間不足でざっくり省略されてしまったのは残念。

なお、今回の内容は以下の論文の中でだいたい述べられている。

(2) 「字形共通基盤」プロトタイプによる実証実験のご紹介

字形共通基盤の概要

最初に、字形共通基盤はどういったものなのか、何を目的としたプロジェクトなのかといったことについて説明があった。現在の出版界では、外字・異体字については各社それぞれが独自のワークフローで処理をしている。それらのグリフを整理・収集して共通インフラ(字形共通基盤)を構築すれば、外字・異体字への対応コストが軽減され、データの互換性も高まるのではないか、というアイデア。ちなみに、行政向けの「文字情報基盤」とは(名前が紛らわしいが)無関係。

既存の多グリフ環境としては文字鏡・GT明朝・グリフウィキなどいろいろなものがあるが、これらは学術向けのものが多い。そのため、そのままでは出版用途には向いていないと判断された。そこで、文字情報基盤ではそれらの成果を取り入れつつも、独自のインフラを整備することになる。

仕組みとしては、各グリフにはgi番号(例:gi001125 [=亜])という背番号を割り当て、これで管理することになる。これに対して、代表的な明朝体での glyph image、各種文字コードや内部コード、読み・部首・画数、異体字関係など、さまざまな情報が紐づけられている。

課題としては、収録基準の制定や運用組織・運用ルールの整備などがあるようだ。

なお、今年の3月に「平成22年度 コンテンツ配信型・ハイブリッドビジネスモデル実証事業(デジタル・ネットワーク社会における出版物の利活用推進のための外字・異体字利用環境整備調査)」という報告書(PDF)が出ている。

プロトタイプの動作デモ

概要の説明の後に、デモとして実際にプロトタイプでの実演があった。

字形検索では web ブラウザがクライアントとなり、読み・画数・部首・部品・文字コードなどをキーとした検索ができるようになっている。検索結果の詳細画面では、上に挙げたようなさまざまな属性が表示される。

入力方法としては、字形共通基盤との通信機能が実装された、専用のATOKが用意されている。また同様に字形共通基盤と通信できるテキストエディタも用意されており、これらを使うことで実際の字形を見ながらの入力・編集ができるようになっている。字形共通基盤のグリフを入力した箇所は interlinear annotation を利用して表現されるようになっている。

雑感

IVS技術促進協議会のセミナーだったのでIVSについての話が中心になるのかと思ったら、そうでもなかった。でもその分、字形共通基盤の詳しい話を聴けたので満足。特に、実際にプロトタイプが動いているのを見ることができ、なかなかおもしろかった。自分は出版業界の中の人というわけでもないのでこれがどの程度活用されていくのかはよくわからないが、とりあえずあれば(個人的に)便利なことは確か。

あとひとつ、質疑応答の場面などで小林さんがちょっとぶっちゃけ話的なことをおっしゃっていたが、ああいうのは聞いていておもしろいと思った。「あー、この人はこういう風に考えてるんだ」とか「やっぱそうですよねー」というような感じで、規格票からでは読み取れないことがいろいろと見えてきて興味深いな、と。