しろもじメモランダム

文字についてあれこれと。

文字コード

LINE絵文字概観

LINEで使える3種類の絵文字について、昨年末の社内勉強会でざっくりと解説しました。そのときのスライドを上げておきます。ざっくり概観なので、厳密でない表現や調査が不十分な箇所はありますが、雰囲気はつかめるんじゃないでしょうか。 参考ページ 【LINE…

『[改訂新版] プログラマのための文字コード技術入門』を読んだ

年末に発売されていたので読みました。タイトルに「プログラマのための」あるように、プログラミング経験者がターゲットになっています。ビット・バイト、2進数・16進数、ファイル、プロトコルのような「常識」についてはさらっとした説明で済まされているの…

「Windows 8 で変わる文字 - 異体字と Unicode IVS」雑感

Microsoft のセミナーに行ってきた。 文字コードと異体字と Unicode IVS 〜 情報システムにおける日本語処理 〜 | スキルアップ カリキュラム - マイクロソフト イノベーション センター 目新しい情報はあまりなかったが、イベントレポート書いて的な圧力を …

svivs の現状について

Twitter を見ていて、あーそういやそんなもんあったなーと思いだしたのですが、以前 svivs というツールを作りました。 IVS(異体字シーケンス)入力ツール svivs - しろもじ作業室 現状 当時は更新・拡張したい点などいくつかあったわけですが、結局のとこ…

JIS X 0208 と JIS X 0213 が改正されていた件

昨年12月に小林さんの講演を聞いたとき、JIS X 0213 が近々改正されるというようなことをおっしゃっていた。そんなことはほとんど忘れていたのだが、 584 デフォルトの名無しさん 2012/03/11(日) 13:26:15.37 そういや結局0213って改正するの? 常用漢字の関…

花園明朝OT+Web フォントによるIVSと OpenType feature tag の表示テスト

ブラウザ上で異体字を表示するには、2つの方法がある。異体字セレクタを使ってIVSで異体字を表現する方法と、CSS3の font-feature-settings プロパティを使って OpenType feature tag によるグリフ置換をする方法だ。今回、花園明朝OTを Web フォントとして…

花園明朝OTを0.510に更新、IVD 2012-03-02版に対応

Adobe-Japan1-6 準拠の漢字フォント・花園明朝OTを ver. 0.510 に更新。 花園明朝OT - しろもじ作業室 以下、主な変更点について解説。 IVD 2012-03-02 版に対応 今月2日にIVD(Ideographic Variation Database)の最新版が公開され、Adobe-Japan1 に32個、H…

Windows 8 Consumer Preview のIMEにおけるIVS対応

昨年9月13日に公開された Windows 8 Developer Preview では、IMEの変換候補にIVSを含む語が現れるようになっているとのことだった。 Windows 8 では IVS(Ideographic Variation Sequence)を変換候補から選択できるようになっています。IVSとは?について…

「Unicodeの基礎知識と異体字について」に行ってきた

IVS技術促進協議会のセミナー「Unicodeの基礎知識と異体字について」があったので、ちょっと聴きに行ってみた。 Unicodeの基礎知識と異体字について主催:IVS技術促進協議会 後援:日本電子出版協会、電子出版制作・流通協議会 内容 (1)Unicodeに関わる用…

IVS入力ツールsvivsを公開しました

前回のエントリで「試作中」と書いたIVS入力ツールの svivs だが、とりあえずある程度までできあがったので、このへんで一旦公開してみる。バージョン1.0.0。Windows XP でしか動作確認をしていないが、Adobe AIR で動くので一応 Mac でも大丈夫。 IVS(異体…

IVSを入力するツールを試作中

IVSを手軽に入力したい 最近、Mac OS X Lion のヒラギノやIPAmj明朝、Windows 8 Developer Preview に搭載されたIMEなど、IVS(Ideographic Variation Sequence; 異体字シーケンス)を扱うための環境が徐々に充実しつつある。といっても、意図した異体字のIV…

はてなダイアリーの文字コードがこの秋UTF-8に

YAPC::Asia TOKYO 2011 で発表された「新はてなダイアリーの裏側」のスライドが公開されている。 YAPC::Asia TOKYO 2011 で「新はてなダイアリーの裏側」というトークをしてきました - 大西日記 - はてなダイアリー ブクマのコメントを見た限りではあまり文…

PRI #187 汎用電子のIVD登録第2弾のレビュー

汎用電子IVS(URL)のレビューは明日10/5まで。文字一覧表はこちらURL。確認済の課題は URL 等を参照の上、これら以外の間違い等を見つけたら報告をお願いします。2011-10-04 22:21:17 via YoruFukurou汎用電子情報交換環境整備プログラム(長い…)のIVDへの…

Firefoxなどで半角濁点が前の文字と一緒に選択される理由

Firefox などで下の半角濁点「゙」・半角半濁点「゚」を選択してみてほしい。 ガ、あ゙、漢゙、a゙、 ゙、☃゙、✐゙ え゙゙゙゙゙゙゙゙゙゙゙゙゙゙゙゙゙っ!! ぷ゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚。 ぬ゙゙゚゙゙゙゚゚゚゚゙゙゙゙゚゙゚゙゙゚゙゙゙゙゙゚゙゙゙゚゙゚゚゚゙゙゙゚゚゚゚゚゚゚゙゙゙゚ーん いくら半角(半)濁点だけ…

初代ポケモンの文字コード

初代ポケモン(要するに赤・緑)の文字コードの解説ページを読んだので紹介。 文字コードリスト(ポケモン版) これを読めばわかるが、外で一般に使うJISだの Unicode だのとは違い、まさにポケモン専用の文字コードになっている。8ビットコードのようだ。[改…

Flash Text Engine でIVSを表示させてみる

mandel59 さんがエントリ「Flash Text Engineで異体字の表示」で書いているように、Flash Player 10 の Flash Text Engine ではIVSをちゃんと表示してくれるらしい。というわけで、試してみた。正直なところ ActionScript がどういうものなのかすらよく分か…

Snow LeopardはIVSに対応しているらしい

Ken Lunde 曰く、 Finally. Yesterday, Friday, August 28th, 2009 is significant, at least for me, in that it represents the release date for Mac OS X Version 10.6 (aka, Snow Leopard). What is important about Snow Leopard is that it is the fi…

東京都最強うんぬん

重箱の隅。 404 Blog Not Found:javascript+regexp - ていうか首都最強東京bookmarklet (function(e){ e.innerHTML = e.innerHTML.replace( /東京都?([\u3200-\u4DBF\u4E00-\u9FFF\uF900-\uFAFF]+)/g, '首都$1東京' ) })(document.body) 漢字を判定する正規…

CJKV Information Processing の Appendix の一部のPDF

CJKV Information Processing: Chinese, Japanese, Korean, and Vietnamese Computing作者: Ken Lunde出版社/メーカー: O'Reilly Media発売日: 2009/01/08メディア: ペーパーバック クリック: 6回この商品を含むブログ (11件) を見る昨年末に第2版が出た CJK…

ここまでのまとめ:10646次版ドラフトの字体チェック

当初はここまでグリフに差があるとは思っていなかったので「字形を比較してみる」としたけど、蓋を開けてみるとデカい差(というか作字ミスというか)がポコポコと出てきたので「字体」の方がいいような気がしてきた。 Ext. B の字形を比較してみる - しろも…

Ext. C と Ext. D も比較してみる

Ext. A の字形も比較してみる - しろもじメモランダム 続き。 http://www.itscj.ipsj.or.jp/sc2/open/02n4079/CD10646-2A700-2B81F.pdf Ext. C CJK Unified Ideographs Extension C はソースのダブりが少ないので、すべての文字について現在の規格票と比較し…

Ext. A の字形も比較してみる

UROの字形も比較してみる(3) - しろもじメモランダム 続き。今回は CJK Unified Ideographs Extension A。 http://www.itscj.ipsj.or.jp/sc2/open/02n4079/CD10646-3400-4DBF.pdf 㩋 U+3A4B Hの横画が多い。 㬊 U+3B0A Jの字体が違う(誤字?)。現在の版で…

Ext. C で重複符号化?

UROの字形も比較してみる(2) で取り上げた「槱」(U+69F1)について。 U+69F1 (現在の版、左からG/T/J/K)U+69F1 には、2通りの字体が包摂されて(しまって?)いる。G/Tが「⿰木⿱酉灬」で、J/Kは「⿱⿰木酉灬」。この文字の KanXi Index KangXi Index は …

UROの字形も比較してみる(3)

UROの字形も比較してみる(2) - しろもじメモランダム さらに続き。U+8452 から最後まで。 http://www.itscj.ipsj.or.jp/sc2/open/02n4079/CD10646-8452-9FFF.pdf 虁 U+8641 現在の版(下)ではくさかんむりの下の「ソ」の有無が統一されていないが、このドラ…

UROの字形も比較してみる(2)

UROの字形も比較してみる(1) - しろもじメモランダム 続き。今度は U+6936 から U+8451 まで。 http://www.itscj.ipsj.or.jp/sc2/open/02n4079/CD10646-6936-8451.pdf 槱 U+69F1 GT/JKで組み立て方が違う。これは現在の版でも同様。 〈追記:U+2ACDD と重複…

UROの字形も比較してみる(1)

Ext. B の字形を比較してみる - しろもじメモランダム 今度はメインの CJK Unified Ideographs を見てみる。まずは U+4E00 から U+6935 まで。 http://www.itscj.ipsj.or.jp/sc2/open/02n4079/CD10646-4E00-6935.pdf こっちの方は大抵フォントのミスだろうけ…

Ext. B の字形を比較してみる

ISO/IEC 10646 の次の版(≠次の追補)のドラフトが公開されていた。 http://www.itscj.ipsj.or.jp/sc2/open/02n4079/ この版からは Ext. B の文字表もマルチカラムになるので、各ソースの字形が一目で分かるようになる。で、早速目を通してみたので、途中で…

花園明朝、補助漢字にも対応

グリフウィキで制作・改良が続けられているフリーなフォント「花園明朝」が、今日公開の2009年5月1日版で補助漢字(JIS X 0212)にも対応した。 Hanazono fonts 花園明朝が対応している主な漢字集合は、次のようになる。 JIS X 0208(第1水準・第2水準漢字)…

パーツ?

Unicode の CJK Compatibility ブロックには、㍍ とか ㌷ とか ㍇ とか ㌮ とか、カタカナの組み文字が87種類収録されている(U+3300〜U+3357)。 UTF-8 Browser Test for Unicode Block 'CJK Compatibility' で、この87文字のうち、1文字を除いた86文字は A…

第4水準の1点しんにょう

第4水準の漢字には、1点のしんにょうで例示されているものが2文字存在する。𨑕(2-89-75; U+28455)と 𨕫(2-89-90; U+2856B)がそれ。単純に考えれば常用漢字外だから2点になりそうなもんだけど(事実、上の2文字以外は2点になっている)、これだけがどうし…