しろもじメモランダム

文字についてあれこれと。

文字コード

「Windows 8 で変わる文字 - 異体字と Unicode IVS」雑感

Microsoft のセミナーに行ってきた。 文字コードと異体字と Unicode IVS 〜 情報システムにおける日本語処理 〜 | スキルアップ カリキュラム - マイクロソフト イノベーション センター 目新しい情報はあまりなかったが、イベントレポート書いて的な圧力を …

svivs の現状について

Twitter を見ていて、あーそういやそんなもんあったなーと思いだしたのですが、以前 svivs というツールを作りました。 IVS(異体字シーケンス)入力ツール svivs - しろもじ作業室 現状 当時は更新・拡張したい点などいくつかあったわけですが、結局のとこ…

JIS X 0208 と JIS X 0213 が改正されていた件

昨年12月に小林さんの講演を聞いたとき、JIS X 0213 が近々改正されるというようなことをおっしゃっていた。そんなことはほとんど忘れていたのだが、 584 デフォルトの名無しさん 2012/03/11(日) 13:26:15.37 そういや結局0213って改正するの? 常用漢字の関…

花園明朝OT+Web フォントによるIVSと OpenType feature tag の表示テスト

ブラウザ上で異体字を表示するには、2つの方法がある。異体字セレクタを使ってIVSで異体字を表現する方法と、CSS3の font-feature-settings プロパティを使って OpenType feature tag によるグリフ置換をする方法だ。今回、花園明朝OTを Web フォントとして…

花園明朝OTを0.510に更新、IVD 2012-03-02版に対応

Adobe-Japan1-6 準拠の漢字フォント・花園明朝OTを ver. 0.510 に更新。 花園明朝OT - しろもじ作業室 以下、主な変更点について解説。 IVD 2012-03-02 版に対応 今月2日にIVD(Ideographic Variation Database)の最新版が公開され、Adobe-Japan1 に32個、H…

Windows 8 Consumer Preview のIMEにおけるIVS対応

昨年9月13日に公開された Windows 8 Developer Preview では、IMEの変換候補にIVSを含む語が現れるようになっているとのことだった。 Windows 8 では IVS(Ideographic Variation Sequence)を変換候補から選択できるようになっています。IVSとは?について…

「Unicodeの基礎知識と異体字について」に行ってきた

IVS技術促進協議会のセミナー「Unicodeの基礎知識と異体字について」があったので、ちょっと聴きに行ってみた。 Unicodeの基礎知識と異体字について主催:IVS技術促進協議会 後援:日本電子出版協会、電子出版制作・流通協議会 内容 (1)Unicodeに関わる用…

IVS入力ツールsvivsを公開しました

前回のエントリで「試作中」と書いたIVS入力ツールの svivs だが、とりあえずある程度までできあがったので、このへんで一旦公開してみる。バージョン1.0.0。Windows XP でしか動作確認をしていないが、Adobe AIR で動くので一応 Mac でも大丈夫。 IVS(異体…

IVSを入力するツールを試作中

IVSを手軽に入力したい 最近、Mac OS X Lion のヒラギノやIPAmj明朝、Windows 8 Developer Preview に搭載されたIMEなど、IVS(Ideographic Variation Sequence; 異体字シーケンス)を扱うための環境が徐々に充実しつつある。といっても、意図した異体字のIV…

はてなダイアリーの文字コードがこの秋UTF-8に

YAPC::Asia TOKYO 2011 で発表された「新はてなダイアリーの裏側」のスライドが公開されている。 YAPC::Asia TOKYO 2011 で「新はてなダイアリーの裏側」というトークをしてきました - 大西日記 - はてなダイアリー ブクマのコメントを見た限りではあまり文…

PRI #187 汎用電子のIVD登録第2弾のレビュー

汎用電子IVS(URL)のレビューは明日10/5まで。文字一覧表はこちらURL。確認済の課題は URL 等を参照の上、これら以外の間違い等を見つけたら報告をお願いします。2011-10-04 22:21:17 via YoruFukurou汎用電子情報交換環境整備プログラム(長い…)のIVDへの…

Firefoxなどで半角濁点が前の文字と一緒に選択される理由

Firefox などで下の半角濁点「゙」・半角半濁点「゚」を選択してみてほしい。 ガ、あ゙、漢゙、a゙、 ゙、☃゙、✐゙ え゙゙゙゙゙゙゙゙゙゙゙゙゙゙゙゙゙っ!! ぷ゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚。 ぬ゙゙゚゙゙゙゚゚゚゚゙゙゙゙゚゙゚゙゙゚゙゙゙゙゙゚゙゙゙゚゙゚゚゚゙゙゙゚゚゚゚゚゚゚゙゙゙゚ーん いくら半角(半)濁点だけ…

初代ポケモンの文字コード

初代ポケモン(要するに赤・緑)の文字コードの解説ページを読んだので紹介。 文字コードリスト(ポケモン版) これを読めばわかるが、外で一般に使うJISだの Unicode だのとは違い、まさにポケモン専用の文字コードになっている。8ビットコードのようだ。[改…

Flash Text Engine でIVSを表示させてみる

mandel59 さんがエントリ「Flash Text Engineで異体字の表示」で書いているように、Flash Player 10 の Flash Text Engine ではIVSをちゃんと表示してくれるらしい。というわけで、試してみた。正直なところ ActionScript がどういうものなのかすらよく分か…

Snow LeopardはIVSに対応しているらしい

Ken Lunde 曰く、 Finally. Yesterday, Friday, August 28th, 2009 is significant, at least for me, in that it represents the release date for Mac OS X Version 10.6 (aka, Snow Leopard). What is important about Snow Leopard is that it is the fi…

東京都最強うんぬん

重箱の隅。 404 Blog Not Found:javascript+regexp - ていうか首都最強東京bookmarklet (function(e){ e.innerHTML = e.innerHTML.replace( /東京都?([\u3200-\u4DBF\u4E00-\u9FFF\uF900-\uFAFF]+)/g, '首都$1東京' ) })(document.body) 漢字を判定する正規…

CJKV Information Processing の Appendix の一部のPDF

CJKV Information Processing作者: Ken Lunde出版社/メーカー: Oreilly & Associates Inc発売日: 2008/12/30メディア: ペーパーバック クリック: 6回この商品を含むブログ (11件) を見る昨年末に第2版が出た CJKV Information Processing*1 ですが、その App…

ここまでのまとめ:10646次版ドラフトの字体チェック

当初はここまでグリフに差があるとは思っていなかったので「字形を比較してみる」としたけど、蓋を開けてみるとデカい差(というか作字ミスというか)がポコポコと出てきたので「字体」の方がいいような気がしてきた。 Ext. B の字形を比較してみる - しろも…

Ext. C と Ext. D も比較してみる

Ext. A の字形も比較してみる - しろもじメモランダム 続き。 http://www.itscj.ipsj.or.jp/sc2/open/02n4079/CD10646-2A700-2B81F.pdf Ext. C CJK Unified Ideographs Extension C はソースのダブりが少ないので、すべての文字について現在の規格票と比較し…

Ext. A の字形も比較してみる

UROの字形も比較してみる(3) - しろもじメモランダム 続き。今回は CJK Unified Ideographs Extension A。 http://www.itscj.ipsj.or.jp/sc2/open/02n4079/CD10646-3400-4DBF.pdf 㩋 U+3A4B Hの横画が多い。 㬊 U+3B0A Jの字体が違う(誤字?)。現在の版で…

Ext. C で重複符号化?

UROの字形も比較してみる(2) で取り上げた「槱」(U+69F1)について。 U+69F1 (現在の版、左からG/T/J/K)U+69F1 には、2通りの字体が包摂されて(しまって?)いる。G/Tが「⿰木⿱酉灬」で、J/Kは「⿱⿰木酉灬」。この文字の KanXi Index KangXi Index は …

UROの字形も比較してみる(3)

UROの字形も比較してみる(2) - しろもじメモランダム さらに続き。U+8452 から最後まで。 http://www.itscj.ipsj.or.jp/sc2/open/02n4079/CD10646-8452-9FFF.pdf 虁 U+8641 現在の版(下)ではくさかんむりの下の「ソ」の有無が統一されていないが、このドラ…

UROの字形も比較してみる(2)

UROの字形も比較してみる(1) - しろもじメモランダム 続き。今度は U+6936 から U+8451 まで。 http://www.itscj.ipsj.or.jp/sc2/open/02n4079/CD10646-6936-8451.pdf 槱 U+69F1 GT/JKで組み立て方が違う。これは現在の版でも同様。 〈追記:U+2ACDD と重複…

UROの字形も比較してみる(1)

Ext. B の字形を比較してみる - しろもじメモランダム 今度はメインの CJK Unified Ideographs を見てみる。まずは U+4E00 から U+6935 まで。 http://www.itscj.ipsj.or.jp/sc2/open/02n4079/CD10646-4E00-6935.pdf こっちの方は大抵フォントのミスだろうけ…

Ext. B の字形を比較してみる

ISO/IEC 10646 の次の版(≠次の追補)のドラフトが公開されていた。 http://www.itscj.ipsj.or.jp/sc2/open/02n4079/ この版からは Ext. B の文字表もマルチカラムになるので、各ソースの字形が一目で分かるようになる。で、早速目を通してみたので、途中で…

花園明朝、補助漢字にも対応

グリフウィキで制作・改良が続けられているフリーなフォント「花園明朝」が、今日公開の2009年5月1日版で補助漢字(JIS X 0212)にも対応した。 Hanazono fonts 花園明朝が対応している主な漢字集合は、次のようになる。 JIS X 0208(第1水準・第2水準漢字)…

パーツ?

Unicode の CJK Compatibility ブロックには、㍍ とか ㌷ とか ㍇ とか ㌮ とか、カタカナの組み文字が87種類収録されている(U+3300〜U+3357)。 UTF-8 Browser Test for Unicode Block 'CJK Compatibility' で、この87文字のうち、1文字を除いた86文字は A…

第4水準の1点しんにょう

第4水準の漢字には、1点のしんにょうで例示されているものが2文字存在する。𨑕(2-89-75; U+28455)と 𨕫(2-89-90; U+2856B)がそれ。単純に考えれば常用漢字外だから2点になりそうなもんだけど(事実、上の2文字以外は2点になっている)、これだけがどうし…

メイリオ ver. 6.01 で変更されたグリフ

Windows 7 Beta に付属しているメイリオ ver. 6.01 では、いくつかのグリフが変更されている。FontForge の「フォントを比較」を使って、アウトラインの変更を調べてみた結果、以下の6グリフが変更されていた。 「○◇□△」

メイリオは補助漢字をサポートしている(ver. 6.01では)

今までのメイリオ(ver. 5.00)が収録している漢字のレパートリーは Adobe-Japan1-5 のそれと同じであり、補助漢字(JIS X 0212)を完全にはサポートしていなかった。 メイリオは補助漢字をサポートしていない - Mac OS Xの文字コード問題に関するメモ で、W…

GlyphWikiで83字形のグリフが揃った

2ヶ月前からちまちま作ってきて、ようやく225文字すべてが完成。 グループ:JIS90での変更点 - GlyphWiki 左が90/97JISの字形、右が83JISの字形。ざっと一通りは確認したけど、あくまでも参考程度に。まぁ、附属書6やJIS漢字字典よりかは正確なはず。 グルー…

お前が見ている世界は、無限の可能性の中のひとつの事象に過ぎない、という話

例えば、新常用漢字の候補となっている「謙遜(けんそん)」の「遜」は、表外漢字字体表では、点二つの「●」が用いられている。(●は点二つのシンニュウに「孫」) 常用漢字 IT時代踏まえ議論深めよ : 社説・コラム : YOMIURI ONLINE(読売新聞) この記事を…

JIS漢字字典の83字形

『現代日本の異体字』の83字形 - しろもじメモランダム 上のエントリで id:works014 さんから「JIS漢字字典も附属書6と同じ字形になっている」と教えていただいたので、遅ればせながら図書館に行って、自分でも確認してみた。で、1997年発行の『JIS漢字字典…

月見団子

Google Japan Blog: 絵文字のユニコード符号化: 符号化提案用のオープンソースデータ 先週からいろいろと話題になっている、絵文字と Unicode。ドラフトを見てみたのですが、MOON OVER A HOUSE。その発想はなかった。それはともかくとして、今後どうなってい…

83JISの字形について、ここまでのまとめ

これまでのエントリ(日付の古い順) Adobe-Japan1 の「絳」 - しろもじメモランダム 第一水準の83字形を比較してみる - しろもじメモランダム 第二水準の83字形も比較してみる - しろもじメモランダム 『現代日本の異体字』の83字形 - しろもじメモランダム…

『現代日本の異体字』の83字形

『現代日本の異体字』*1という本をパラパラとめくっていたら、ここにも83字形の誤りを発見。 笹原宏之「4.4 JIS漢字」『現代日本の異体字』三省堂、2003、p. 277 拡大。JIS X 0208 の規格票の字形は以下の通り。「App. 6」は、例の附属書6の字形。2文字だけ…

第二水準の83字形も比較してみる

第一水準の続き。今回は附属書6の画像は割愛。JIS X 0208-1983 の規格票の字形と、Adobe-Japan1 の小塚明朝の83字形とを比較し、微妙な差があるものを並べてみた。また、小塚明朝が何を区別し、何を区別していないのかを知るために、90JISの字形も示した。 …

第一水準の83字形を比較してみる

昨日のあれは附属書6を参照したからなのかもしれない、というコメントをいただいたので、90JISで変更された他の漢字についてもちょっと調べてみる。第一水準の中で、差異に気がついたものを並べてみた。左から順に、JIS X 0208-1983 の規格票の字形、JIS X 0…

Adobe-Japan1 の「絳」

こんなことは既出なのかもしれませんが、気になったのでとりあえず書いてみる。JIS第二水準の「絳」(69-12) は、一応「90JIS で字形が変更された」ということになっている。実際の規格票を見てみると結構微妙な差(「ヰ」の上の横棒の長さの違い)なのだが、…

ISO国際登録簿の JIS X 0213:2000

ISO国際登録簿なるものがあって、これは ISO 2022 のエスケープシーケンスと、符号化文字集合とを対応付けているらしい。さまざまな文字集合が登録されていて、下のページにそのPDFが置いてある。 INTERNATIONAL REGISTER OF CODED CHARACTER SETS TO BE USE…

濳潦線内で架線トラブル

電光掲示板の文字化け。「都営三田線は、濳潦線内で架線*1トラブルが発生したため…」という感じ。 #61 駅員さんがメモしているものは? - ニィス・文字グラフィ シフトJISだと「濳」は 0xe04a、「潦」は 0xe052。「JR」が 0x4a 0x52 だから、どうもこれが化…

「JIS X 0212 と Adobe-Japan1-4 の微妙な違い」の図

Adobe-Japan1-4 で追加されたグリフと JIS X 0212 規格票との微妙な字形差 - しろもじメモランダム このエントリで、字形の比較画像を どなたか気が向いた方、作ってください>< と書いておいたら、id:NAOI さんがわかりやすい図を作ってくださいました。あ…

Adobe-Japan1-4 で追加されたグリフと JIS X 0212 規格票との微妙な字形差

Adobe-Japan1-4 では、補助漢字(JIS X 0212)の一部のグリフを CID+14296〜15385 に収録した。が、先のエントリに書いたように、JIS X 0212 の規格票と比較してみると微妙な字形差が見られるのもある。この字形差の原因については、id:NAOI さんから以下の…

Adobe-Japan1-6 の「鋋」のヒゲ

GlyphWiki を触っていて気づいたことその2。鋋 のえんにょう部分、ヒゲ(筆押さえ)の有無について。以下、隣の符号位置にある 鋌 と比較しながら見ていく。 鋋 鋌 UCS/Unicode U+92CB U+92CC JIS X 0212 68-26 68-27 JIS X 0213 1-93-16 1-93-17 規格票の字…

眉毛いろいろ

キモすぎなんだけどマジ!誰こいつを流行らそうとしている奴は!誰だよこいつを面白いって言った奴は出てこいよ!ぶっころしてやるよ俺が!きーめーなまじキモカワイイとか言ってまじで!その顔文字、俺の顔にクリソツなんだよ!そういうタグ要らねぇからこ…

博多電碼

博多電碼。 Simply diànmǎ or diànbàomǎ may refer to the “Chinese telegraph code” whereas diànmǎ is a general term for “code,” as seen in Móěrsī diànmǎ (traditional Chinese: 摩爾斯電碼; simplified Chinese: 摩尔斯电码) for the “Morse code” an…

中文の古本を眺める(5)『標準電碼本』

しばらく間が空いたけど、5冊目。人民郵電出版社の中華人民共和国郵電部編『標準電碼本(修訂本)』。1983年発行、定価0.60元。201ページ。この「電碼」とは、電報で中文をやりとりするための文字コードのこと。個々の漢字を4桁の数字*1に対応させている。詳…

電光掲示板の文字化け

2007年3月23日早朝、JR関西本線、0505奈良発加茂行き始発列車。LEDディスプレイが文字化けしていた。「弔」「娼」「嘘」という字も表示されたりして、なんともいえない不安感を醸す。車輌はクハ221-12。 YouTube - 車内案内表示装置の文字化け(Mojibake : Ro…