A Reintroduction To Ruby M17 N

A REINTRODUCTION TO RUBY M17N

NARUSE, Yui

序今日はみなさんに日本を生ま

れた事を後悔してもらいに来ました

の、つもりだったのだが…… 「地球に生まれた事に」に

なってしまった……

話す事・話さない事

話す事文字コード Ruby M17N

話さない事メッセージの切り替え時刻・時間とか通貨とか

コンピュータで文字を扱う表示・印刷字形 ( グリフイメージ ) 字体 ( グリフ ) 書記素クラスタ (grapheme

cluster) コードポイント符号化文字集合 ( コードユニット ) (UTF-16/32) バイト文字符号化方式処理・格納

「文字コード」とは「文字」をコンピュータで扱う仕組み

のうち、比較的低層の部分つまり、グリフやフォントよりちょっ

と下まで扱う文字を決め、番号を振る文字列を番号列、バイト列、ビット列

にする

文字集合 Abstract Character Repertoire どのような文字を扱うかある文字とある文字が同じか違うか

の決定何文字扱うか、扱えるか必要な文字 vs. メモリサイズ・性能

何を扱うかアラビア数字アルファベット大文字 ― 6bit アルファベット小文字 ― 7bit カタカナ ― 8bit ひらがな漢字絵文字など ― 16bit などなどなど ― 21bit

文字の同定ある文字とある文字が等しいかどうかの決

定包摂規準 ( その文字の射程範囲の決定 ) 何が一文字か e.g. リガチャ「 ffi 」典拠の確保―いい加減だと幽霊文字が混

じったり、重複したり

e.g. 妛𡚴「あけんばら」で検索

字形の違い色々な「フォント差」「書体差」

a a a a a a a a a 「 g 」「 g」メガネ

g 「 l 」「 l 」ループ L

言言言

字体の違い

JIS では同じだが Unicode では別「高」と「髙」「吉」と「」𠮷

JIS でも Unicode でも同じコードポイント

符号化文字集合 CCS / Coded Character Set 文字集合を構成する「文字」、一つ一つに

番号を振ったもの一般にはこの番号を「コードポイント」 Unicode の場合

「 Unicode Scalar Value 」「あ」→ U+3042 (Unicode)

JIS X 0208「ビット組合せ」や「区点コード」「あ」→ 04 区 02 点 (JIS X 0208)

符号化文字集合の例 ASCII 英数記号 ISO/IEC 8859-1 アクセント付き文字 JIS X 0201 いわゆる半角カナ JIS X 0208 第一・第二水準漢字など JIS X 0212 補助漢字など JIS X 0213 第三・第四水準漢字など Unicode いろいろ

JIS X

02

08

http

://ww

w.ka

nji.zin

bun.ky

oto

-u.a

c.jp/~

yasu

oka

/kan

jibuku

ro/ja

pan.h

tml

http://www.kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kanjibukuro/japan.html

http://www.kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kanjibukuro/japan.html

文字符号化方式 CES, Character Encoding Scheme 符号化文字集合の番号をバイト列に変

換する方式 Shift_JIS

「あ」 → 04 区 02 点 → "\x82¥xA0"「い」 → 04 区 04 点 → "\x82\xA2"

UTF-8「あ」 → U+3042 → "\xE3\x81\x82"「い」 → U+3044 → "\xE3\x81\x84"

エンコーディング encoding (W3C) charset (IETF) あるバイトデータを解釈するには、

「文字符号化方式」と「符号化文字集合」を共に特定する必要

Shift_JIS"\x82¥xA0" → 04 区 02 点 → 「あ」

UTF-8"\xE3\x81\x82" → U+3042 → 「あ」

IANA Charset 各々のエンコーディングに名前を付けて登録管

理インターネット上に流すデータは登録されてる

必要一部のエンコーディングは実態と乖離もhttp://www.iana.org/assignments/character-sets

ISO-2022-JP EUC-JP Shift_JIS Windows-31J

用語の整理 charset

Character set が由来と思われるため、「文字集合」の意味に感じられるが、用法としては encoding と同じ

文字コード文字集合encodingある文字のコードポイント

Unicode 用語集 UCS-2 は文字集合ではなく encoding

ISO/IEC 10646 の定義13.1 Two-octet BMP form (UCS-2)

This coded representation form permits the use of characters from the Basic Multilingual Plane with each character represented by two octets.

Unicode の定義“UCS-2. ISO/IEC 10646 encoding form: Universal Character Set coded in 2 octets, limited to the Basic Multilingual Plane.”http://www.unicode.org/glossary/#UCS_2

History of I18N

Internationalization, 国際化 I .{18} N I18N S12N (Scherpenhuizen さんが元祖 ) http://blog.miraclelinux.com/yume/2007/01/i18n_8bc0.html

http://blog.miraclelinux.com/yume/2007/01/i18n_8bc0.html

略語解説 L10N (Localization) ( 地域化 )

それぞれの地域・言語に適したようにすることある言語に対応することcf. nls (national language support)

I18N (Internationalization) ( 国際化 ) 地域化しやすいように、あらかじめソフトウェア側を抽象化し

ておくこと言語を切り替えて使用できるようにすること

M17N (Multilingualization) (多言語化 )複数の言語などで利用するためにローカライズ同時に複数の言語を扱えるように (Ruby)

国際化というからには

元は国際対応じゃない

最初はどうだったのか ?

始まりは ASCII 1970年頃 ASCII以前から文字コードはあっ

た ASCII は電信の遺産を継承してい

るまぁ情報通信的には ASCII から始まるていうか ISO/IEC 646 でしょEBCDIC のことを忘れないでくだ

さい

ECMA-6 IRV(≒ ASCII)

http

://ww

w.e

cma-in

tern

atio

nal.o

rg/p

ublica

tions/sta

ndard

s/Ecm

a-0

06

.htm

ASCII に含まれる文字種

アラビア数字アルファベット大文字アルファベット小文字記号全 94 文字

文字が足りないアクセント付きアルファベット

(ISO 8859シリーズ ) 577 文字いわゆる半角カタカナ

(JIS X 0201) 56+7 文字漢字など

(JIS X 0208) 6355+524 文字

ASCII を拡張しよう JIS X 0201 (ASCII 亜種・ 8bit 化 ) ISO-8859-1 (8bit 化 ) ISO-2022-JP ( エスケープシーケン

ス ) SJIS / EUC / UTF-8 (マルチバイト ) UTF-16 (16bit 化 ) UTF-32 (32bit 化 )

拡張したよ！ASCII-8BIT, UTF-8, US-ASCII, Big5, Big5-HKSCS, Big5-UAO, CP949, Emacs-Mule, EUC-JP, EUC-KR, EUC-TW, GB18030, GBK, ISO-8859-1, ISO-8859-2, ISO-8859-3, ISO-8859-4, ISO-8859-5, ISO-8859-6, ISO-8859-7, ISO-8859-8, ISO-8859-9, ISO-8859-10, ISO-8859-11, ISO-8859-13, ISO-8859-14, ISO-8859-15, ISO-8859-16, KOI8-R, KOI8-U, Shift_JIS, UTF-16BE, UTF-16LE, UTF-32BE, UTF-32LE, Windows-1251, IBM437, IBM737, IBM775, CP850, IBM852, CP852, IBM855, CP855, IBM857, IBM860, IBM861, IBM862, IBM863, IBM864, IBM865, IBM866, IBM869, Windows-1258, GB1988, macCentEuro, macCroatian, macCyrillic, macGreek, macIceland, macRoman, macRomania, macThai, macTurkish, macUkraine, stateless-ISO-2022-JP, eucJP-ms, CP51932, GB2312, GB12345, ISO-2022-JP, ISO-2022-JP-2, CP50221, Windows-1252, Windows-1250, Windows-1256, Windows-1253, Windows-1255, Windows-1254, TIS-620, Windows-874, Windows-1257, Windows-31J, MacJapanese, UTF-7, UTF8-MAC

Ruby 1.9.2 サポート予定分

どうしてこうなった ?制約の中でベストを尽くそうとするためメモリ容量処理速度プログラミングの複雑さ必要な文字の違いベンダ間の調整不足結局、ほっとけば文字コードは増える →統一への努力

どうしよう…… ? 敵を知るしかない知った上で個別撃破たいていの罠は「歴史的経緯」

歴史を知る事が重要

ISO 646― 分裂の始まり ISO/IEC 646 ASCII の ISO バージョン一部の文字の置き換えを認めている

択一 #/￡ $/¤任意 [ ＼ ] ^ { | } ~

ISO 646 の各国ごとの違い16進 ASCII CN DE DK/

NO GB HU JP KR MT SE YU

23 # # # # £ # # # # # #

24 $ \ $ $ $ ¤ $ $ $ ¤ $

40 @ @ § @ @ Á @ @ @ @ Ž

5B [ [ Ä Æ [ É [ [ ġ Ä Š

5C ＼＼ Ö Ø ＼ Ö ¥ ₩ Ż Ö Đ

5D ] ] Ü Å ] Ü ] ] ħ Å Ć

5E ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ Č

60 ` ` ` ` ` á ` ` ċ ` ž

7B { { ä æ { é { { Ġ ä š

7C | | ö ø | ö | | Ż ö đ

7D } } ü å } ü } } Ħ å ć

7E ~ ‾ ß ~ ~ ˝ ‾ ‾ Ċ ~ č

http

://ja.w

ikipedia

.org

/wiki/IS

O_6

46

http

://en.w

ikipedia

.org

/wiki/IS

O/IE

C_6

46

http://ja.wikipedia.org/wiki/ISO_646


http://en.wikipedia.org/wiki/ISO/IEC_646

ISO 646 文字の意味論の違いCode Characters for each ISO 646 compatible charset

hex INV T.61 US JA JA-O KR CN TW IRV GB DK NO NO-2 SE SE-C DE HU FR FR-0 CA-1 CA-2 IE IS ita por PT esp ES CU MT YU

22 " " " " " " " " " " " " " " " " " " " " " " " " " " " " " " "

23 # # # # # # # # £ # # § # # # # £ £ # # £ # £ # £ # # # # #

24 ¤ $ $ $ $ ¥ $ $ $ $ $ $ ¤ ¤ $ ¤ $ $ $ $ $ $ $ $ $ $ $ ¤ $ $

27 ' ' ' ' ' ' ' ' ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ' ’ ’ ’ ’ ’ ’ ’ ’

2C , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

2D - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

2F / / / / / / / / / / / / / / / / / / / / / / / / / / / / / / /

40 @ @ @ @ @ @ @ @ @ @ @ @ @ É § Á à à à à Ó Ð § § ´ § · @ @ Ž

5B [ [ [ [ [ [ [ [ [ Æ Æ Æ Ä Ä Ä É ° ° â â É Þ ° Ã Ã ¡ ¡ ¡ ġ Š

5C ＼ ¥ ¥ ₩ ＼＼＼＼ Ø Ø Ø Ö Ö Ö Ö ç ç ç ç Í ＼ ç Ç Ç Ñ Ñ Ñ ż Đ

5D ] ] ] ] ] ] ] ] ] Å Å Å Å Å Ü Ü § § ê ê Ú Æ é Õ Õ ¿ Ç ] ħ Ć

5E ^ ^ ^ ^ ^ ^ ˆ ˆ ˆ ˆ ˆ ˆ Ü ˆ ˆ ^ ˆ î É Á Ö ˆ ˆ ˆ ˆ ¿ ¿ ˆ Č

5F _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _

60 ` ` ` ` ` ` ` ` ` ` ` é ` á µ µ ô ô ó ð ù ` ` ` ` ` ċ ž

7B { { { { { { { { æ æ æ ä ä ä é é é é é é þ à ã ã ° ´ ´ Ġ š

7C | | | | | | | | | ø ø ø ö ö ö ö ù ù ù ù í | ò ç ç ñ ñ ñ Ż đ

7D } } } } } } } } å å å å å ü ü è è è è ú æ è õ õ ç ç [ Ħ ć

7E ~ ‾ ‾ ‾ ‾ ˜ ˜ ˜ ¯ | ˜ ü ß ˝ ¨ ¨ û û á ö ì ° ˜ ˜ ¨ ¨ Ċ č

赤字は文字合成を許すもの。例 : <A BS “>→ Ä

まだまだ足りないアクセント付きアルファベッ

ト(ISO 8859シリーズ ) 577 字

いわゆる半角カタカナ(JIS X 0201) 56+7 字

漢字など(JIS X 0208) 6355+524 字

ISO/IEC 2022 Character Code Structure and Extension

Techniques ISO 646 を拡張した文字コードの作り方を定

める具体例

ISO 8859シリーズ (8bit 化 )ISO-2022-JP ( エスケープシーケンス )EUC系 (多バイト )

シフト JIS や UTF-8 などは違う

EC

MA

-35

(≒ IS

O/IE

C 2

02

2)

http

://ww

w.e

cma-in

tern

atio

nal.o

rg/p

ublica

tions/sta

ndard

s/Ecm

a-0

35

.htm

ISO/IEC 2022 の構造

\x20|

\x7F

\xA0|

\xFF

JIS X 0201ローマ字

JIS X 0208

JIS X 0201片仮名

JIS X 0212

AESC ( B A

US-ASCII

JIS X 0213

EUC-JP G1 EUC-JP G2

EUC-JP G3

\x8E (SS2)漢ESC $ B 4A

ISO 2022 のバイト列どの文字集合を使うか指定

バッファへの指示 (stateful)バッファからの呼び出し○ シングルシフト○ ロッキングシフト (stateful)

その文字集合のどの文字を使うか指定

ISO/IEC 2022系の欠点状態を持つ事 (持たないものもあるが ) 文字コードがどんどん増える文字コードごとに別のコードが必要になる規格が複雑になってしまった

Unicode

1986年頃から Xerox と Apple が始める 1988年 ISO に Unicode 88 を持ち込む 1991年 1.0 ( 漢字なし ), 1992年 1.0.1 1993年 1.1 で ISO と同期 1996年 2.0, UTF-8 と UTF-16 登場 2002年 3.2 で JIS X 0213 対応 2010年末 6.0 で絵文字対応 ?

Design Of Unicode 文字コードから地域・言語を分離

1 つの Unicode 文字列には複数の言語を混ぜられない

フラットな空間に全ての文字を入れる16bit → 32bitUTF-16 の制限から 1,114,112 文字種

用字系が同じならば文字統合

漢字統合plaintext+encoding からフォントを決定できない

一見大きな問題に見えるが

トルコ語では” i”.upcase →“İ”

ドイツ語では” ss”.upcase →“ß”

実は ASCII の範囲も言語の指定が必要

There Ain't No Such ThingAs Plain Text.

Joel Spolskyhttp://www.joelonsoftware.com/articles/Unicode.html

TEXT needsEncoding and Language

http://www.joelonsoftware.com/articles/Unicode.html

http://www.joelonsoftware.com/articles/Unicode.html

Legacy Encoding Unicode以前の文字コードたち Unicode 時代のプログラムで動かす

には変換して取り込む必要

変換表をどうするか ? 人によって変換表が異なると問題

ご存じですか ? CP932

他の話がさっぱりでも「 CP932 の存在」だけは知って帰って頂きたい

Windows Codepage 932IBM Codepage 932 とは微妙に違う

Windows版シフト JIS 正式名称 : Windows-31J JIS 規格由来の Shift_JIS と変換表が異

なる CP932 を用いるといくつかの問題を回避可能

円記号問題「 \ 」

問題の始まり ISO 646系の 0x5C JIS X 0201 円記号￥ ASCII バックスラッシュ＼

ISO 646 の各国ごとの違い16進 ASCII CN DE DK/

NO GB HU JP KR MT SE YU

23 # # # # £ # # # # # #

24 $ \ $ $ $ ¤ $ $ $ ¤ $

40 @ @ § @ @ Á @ @ @ @ Ž

5B [ [ Ä Æ [ É [ [ ġ Ä Š

5C ＼＼ Ö Ø ＼ Ö ¥ ₩ Ż Ö Đ

5D ] ] Ü Å ] Ü ] ] ħ Å Ć

5E ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ Č

60 ` ` ` ` ` á ` ` ċ ` ž

7B { { ä æ { é { { Ġ ä š

7C | | ö ø | ö | | Ż ö đ

7D } } ü å } ü } } Ħ å ć

7E ~ ‾ ß ~ ~ ˝ ‾ ‾ Ċ ~ č

http

://ja.w

ikipedia

.org

/wiki/IS

O_6

46

http

://en.w

ikipedia

.org

/wiki/IS

O/IE

C_6

46



http://en.wikipedia.org/wiki/ISO/IEC_646

どこで問題になるか ?

まずは表示上の問題「円記号」のつもりが「バックスラッシュ」で表示JIS X 0201 データを ASCII端末で表示

「バックスラッシュ」のつもりが「円記号」で表示ASCII のデータを JIS X 0201端末で表示

取り違えると「文字化け」する

制御コードとの衝突バックスラッシュは制御記号扱い

C 言語のエスケープ記号MS-DOS のパス区切り文字

同じ 0x5C の円記号も同じ扱いに\n\e 「えんいー」

シフト JIS と円記号問題「表」はシフト JIS では \x95 \x5C シフト JIS を理解しないプログラムで問題

% cat yen.rbputs " 表 "% ruby1.8 ./yen.rb./yen.rb:1: unterminated string meets end of file

理由

puts " 表 " puts "\x95\x5C" p u t s " \x95 \ " puts "\x95\" 引用符を閉じていない扱い

に ! unterminated string meets end of file

回避方法 Ruby 1.8 の場合 -Ks Ruby 1.9 の場合 magic

comment% cat yen.rb#coding:Windows-31Jputs " 表 "% ruby1.8 -Ks ./yen.rb表

Unicode と円記号

シフト JIS の 0x5C を Unicodeに変換

Shift_JIS の 0x5C は本来 JIS X 0201 JIS X 0201 扱いなら、 U+00A5 ASCII 扱いなら、 U+005C EUC-JP の 0x5C は ASCII のはず

それぞれの変換の問題

ASCII: 0x5C が U+005C になると、表示がバックスラッシュになる ?

JIS X 0201: 0x5C が U+00A5 になると、パス区切りではなくなるソースコードのエスケープじゃなくな

る

Windows での解決 0x5C は U+005C に変換する (ASCII風 )

日本語用フォントでは、U+005C のグリフを「円記号」にする

5C = U+005C : REVERSE SOLIDUS (YEN SIGN) http://msdn.microsoft.com/en-us/goglobal/cc305152.aspx

韓国のウォンでも同様の問題 5C = U+005C : REVERSE SOLIDUS (WON SIGN) http://msdn.microsoft.com/en-us/goglobal/cc305154.aspx

波ダッシュ問題「～」 JIS X 0208: U+301C(WAVE DASH) CP932: U+FF5E(FULLWIDTH TILDE) 問題

Windows は U+301C をシフト JIS に戻せない

CP932 の変換テーブルにないからXP添付のフォントで U+301C を表示しよ

うとすると、誤ったグリフになる「〜」(Vista以降では修正済み )

Shift_JIS と CP932 の違いシフト JIS UCS (JIS) Unicode (CP932)

0x5C \ U+00A5 (YEN SIGN) U+005C (REVERSE SOLIDUS)

0x7E ~ U+203E (OVERLINE) U+007E (TILDE)

0x815C ― U+2014 (EM DASH) U+2015 (HORIZONTAL BAR)

0x815F ＼ U+005C (REVERSE SOLIDUS)

U+FF3C (FULLWIDTH REVERSE SOLIDUS)

0x8160 ～ U+301C (WAVE DASH) U+FF5E (FULLWIDTH TILDE)

0x8161 ∥ U+2016 (DOUBLE VERTICAL LINE) U+2225 (PARALLEL TO)

0x817C － U+2212 (MINUS SIGN) U+FF0D (FULLWIDTH HYPHEN-MINUS)

0x8192 ￡ U+00A3 (POND SIGN) U+FFE1 (FULLWIDTH POUND SIGN)

0x819C ￠ U+00A2 (CENT SIGN) U+FFE0 (FULLWIDTH CENT SIGN)

0x81CA ￢ U+00AC (NOT SIGN) U+FFE2 (FULLWIDTH NOT SIGN)

機種依存文字マイクロソフト標準キャラクタセット NEC 特殊文字

①Ⅰ など㌶ IBM拡張文字

ⅰ￤髙など﨑 NEC選定 IBM拡張文字

CP932風別エンコーディング

CP51932Windows版日本語 EUCCP932 にある機種依存文字があるJIS X 0212 がないWeb 上の「 EUC-JP 」はこれかも

CP50221Windows版 ISO-2022-JPいわゆる半角カナがあるCP932 にある機種依存文字がある

シフト JIS関連の名前「シフト JIS 」マイクロソフトウェア・アソシエイツが名

付けた。総称として用いられる「 Shift-JIS 」「 Shift JIS 」「シフト JIS 」の英語表記「 MS 漢字コード」開発者の山下による命名「 SJIS 」 Unix 方面での名前「 Shift_JIS 」 IANA Charset での名前「シフト符号化表現」 JIS X 0208:1997 附属書 1 「 Shift_JISX0213 符号化表現」 JIS X 0213:2000 付属書

1 「 Shift_JIS-2004 符号化表現」 JIS X 0213:2004 付属書

1 「 CP932 (Windows Codepage 932) 」 Microsoft 実装「 Windows-31J 」 CP932 の IANA Charset での名前「 IBM CP932 」 MS CP932 とは別物「 IBM943 」 MS CP932 とおおむね同じ、 JIS X 0201 「 IBM943C 」 MS CP932 と同じ、 ASCII

日本語 EUC関連の名前「日本語 EUC (圧縮形式 ) 」情報交換用の EUC 、普通は

これ「日本語 EUC (固定長形式 ) 」 System V での内部表現「 eucJP 」 UI-OSF 日本語環境実装規約で定義「 EUC-JP 」 IANA Charset での名前「 UJIS 」 ΣOS での名前「 CP51932 」 Internet　 Explorer での日本語 EUC 実装

「 eucJP-ms 」 TOG/JVC CDE/Motif 技術検討 WG が定義

「 EUC-JISX0213 」 JIS X 0213:2000 付属書 3 「 EUC-JP-2004 」 JIS X 0213:2004 付属書 3

処理系の課題

内部エンコーディングを何にするか

様々な encoding の入力の扱い

地域・言語ごとに異なる規則

内部コードはどうするか

UCS正規化内部では特定の 1 つに変換するCSI (Code Set Independent) それぞれの文字コードに対応す

る

UCS正規化

Universal Character Set Java, Perl などほとんどが採用内部コードを統一入出力で変換が必要

入力はそのコードに変換内部コードで処理出力時に再び変換

CSI 方式

それぞれの encoding に対応

入出力を変換しない入力そのまま取り込むそのまま処理そのまま出力

Java 開発時期 : 1990～ 1995 内部コード : UTF-16 ( サロゲートペアは

1.5 から ) 文字型 : char ( コードポイントは int) 文字列型 : java.lang.String グリフ列 : CharSequence, BreakIterator

等「 Java における Unicode 補助文字のサ

ポート」 Windows NT も同時期

.NET Framework 2000年リリース内部コード : UTF-16 文字型 : Char 構造体

( コードポイントは Int32) 文字列型 : System.String グリフ列 : System.Globalization.StringInfo http://msdn.microsoft.com/ja-jp/library/system.globalization.stringinfo.aspx http://msdn.microsoft.com/ja-jp/library/system.globalization.cultureinfo.aspx

Perl 5.6 2000年リリース内部コード : UTF-8 文字型 : なし文字列型 : バイト列 / 文字列 (utf8

フラグ ) Perl は「型」の概念が薄い http://github.com/github/perl/blob/blead/utf8.c

Python 1.6 2000年リリース内部 UTF-16 文字型 : char (UTF-16 code unit; 16bit)

文字列型 : String (UTF-16) http://www.egenix.com/www2002/python/

unicode-proposal.txt

Ruby 1.8 内部コード : ASCII/SJIS/EUC/UTF-8 文字型 : Fixnum (8bit) 文字列型 : String $KCODE でプロセスの文字コードを指定

「文字」のサポートはほとんどない

Ruby 1.9 2007年 1.9.0 リリース 2009年 1.9.1 リリース内部コード : N/A (CSI) 文字 : 1 文字 String 文字列型 : String グリフ列 : なし

Ruby 1.9 の特徴 String が文字単位になった

バイト操作と文字操作を区別する必要 CSI 方式

特定の内部エンコーディングがないString それぞれが encoding を持つ

正規表現エンジンの刷新鬼車ベースに変更

文字志向な String " あいう ".length

→ 3 " あいうえお "[0]

→ " あ " " あい ".gsub(/ あ /," か ")

→ " かい " "abc".tr("abc"," あいう ")

→ " あいう "

String#each_*

String#each_byte String#each_codepoint String#each_char String#each_line

String#each は削除された

1 文字 String 専用の文字型は無い文字は 1 文字 String で表す ?a → "a" "abc"[0] → "a" "abc"[0] == ?a は 1.9 でも成り立つ

「文字」型に必要なもの

コードポイント , Encoding, ( 言語 )

String は両方持っている Ruby は大クラス主義 String を使えばよい

Ruby 1.9 の Regexp /(.)/ =~ " あ " → 0

$1 → " あ " /\w/ =~ " あ " → nil

1.9.1-p376 以降、 1.9.2

以下は Unicode系 /(\p{Alphabetic})/ =~ " あ "

$1 → " あ " /(\p{Ideographic})/ =~ " 漢 "

$1 → " 漢 "

1.9 の String に必要なこと

適切に encoding が設定されていること理由

String の encoding を見て処理するから設定方法

Magic comment ( リテラル )IO のオプション (入出力 )String#force_encoding (強制指定 )

encoding が誤っている時 invalid multibyte char (US-ASCII)

Magic comment忘れ Encoding::CompatibilityError

異なった encoding の String を混ぜた時文字列をバイナリ扱いのままにしている時

ArgumentError: invalid byte sequence単純な指定ミス壊れた入力

Magic Comment

リテラルのエンコーディングを指定String, Regexp

デフォルトは US-ASCIIMagic Comment がないとソースに ASCII以外を書くことはできない

#coding:utf-8 #!/usr/local/bin/ruby

#coding:utf-8 # -*- coding: UTF-8 -*-

ERB 用 Magic Comment

ERB でも Magic Comment が必要 <%# coding: UTF-8 %>

IO と Encoding

入出力の encoding を指定する外部リソースの encoding を指定 open("foo.txt","r:UTF-8") 未指定なら

Encoding.default_external

ネットワークからの入力 Socket, Net::HTTP など現在はバイナリ API 扱い → 文字列の場合は自分で Encoding を設定する必要

Encoding の強制指定 String#force_encoding(enc) 任意の encoding の文字列をバイナリ

から作りたい時str = "\xE3\x81\x82"

str.force_encoding("UTF-8")str #=> " あ "

外部から来たデータに設定する時IO なら外部エンコーディングを設定するべ

きsocket や net系のライブラリで必要

$KCODE is obsolete

$KCODE は内部コード指定のため使われた

Ruby1.9 ではシステム全体の内部コードは、

決定不可能なため、廃止。 $KCODE を参照しているスクリプトは注意

結局 encoding とは

String にとっての「型」型が違えばエラー型同士で互換性があれば、自動変換されることも→ ASCII互換でのasciionly

Encoding の 3 分類 ASCII互換 ASCII非互換ダミー

ASCII互換フルサポート Ruby スクリプトのソース

エンコーディングとして使用可能

UTF-8, Shift_JIS, EUC-JP, ...

Major Encodings

US-ASCIIASCII-8BITUTF-8

日本語用Shift_JISEUC-JP

Other Encodings Big5, Big5-UAO, EUC-KR,

EUC-TW, GBK, ISO-8859-X, KOI8-R, KOI8-

U, etc

Windows機種依存 Windows-31J CP51932 eucJP-ms Windows-125X

ASCII-8BIT ASCII互換バイト列バイナリだけど ASCII互換 ASCII互換の恩恵を得るた

め

ASCII Only 特別扱い

ASCII互換エンコーディング内容が 7bit

"abcde".ascii_only?→true "abcde" + " あいうえお "

ASCII互換エンコーディングなら、両者のエンコーディングによらず成功

ASCII非互換限定サポートソースコードには使えな

い UTF-{16,32}{BE,LE}

UTF-16 & UTF-32 UTF-16BE, UTF-16LE UTF-32BE, UTF-32LE しかし、 UTF-16 や UTF-32 には非対応BOM 対応が困難なため

Dummy encoding Ruby は名前を知っているだ

け「文字」のサポートはしない for stateful encodings Encoding#dummy?

→ true ISO-2022-JP, UTF-7

Encoding 「エンコーディング」を司るク

ラス CSI ではエンコーディングが内

部処理でも使われるから活躍でも、たいていエンコーディン

グ名を表す文字列でよい

Encoding の取得 enc = Encoding.find(“UTF-8”)

=> #<Encoding:UTF-8> Encoding.find(“external”)

デフォルト外部エンコーディング Encoding.find(“internal”)

デフォルト内部エンコーディング Encoding.find(“filesystem”)

ファイルシステムエンコーディング Encoding::UTF_8

定数も定義されている

Encoding の一覧 Encoding.listオブジェクトの配列

Encoding.aliases別名 => 本名の Hash

Encoding.namesEncoding.find の引数になるString の配列

Encoding の情報 enc.name

=> “UTF-8” enc.names

=> ["UTF-8", "CP65001", "locale", "external", "filesystem"]

enc.dummy?ダミーエンコーディングかどうか

enc.ascii_compatible?ASCII互換かどうか

エンコーディング変換 nkf kconv iconv uconv String#encode Encoding::Converter

nkf Network Kanji Filter 歴史ある変換コマンド使うなら --ic, --oc オプションを使う

事

kconv nkf のラッパー String#tosjis などと簡単歴史的経緯による意図しない挙動勝手に MIME デコードいわゆる半角カナが全角に

もはやオススメしない

iconv POSIX 由来の iconv(3) のラッパー

挙動が環境依存glibc/GNU libiconv/Citrus/…

1.9 ではあえて使う必要はないはず

uconv Unicode 変換用拡張モジュール 0.5.3 から 1.9.1 に対応しているが、互

換性確保用に止めるべきであろう http

://www.yoshidam.net/Ruby_ja.html

http://www.yoshidam.net/Ruby_ja.html

http://www.yoshidam.net/Ruby_ja.html

String#encode Ruby 1.9独自の transcode String#encode(to, from, opt) たいていの用途はこれでいける

はず

Encoding::Converter transcode のエンジン変換を一時停止・再開したい

時常人は使わないはずだが、何

かの間違いで必要になるかもしれない

Don't forget… 不必要な変換は避ける open() 等の引数に指定

RUBY M17N の難しさテストがしづらい

US-ASCIIASCI-8BITUTF-8 (ASCII Compatible)UTF-16 (ASCII Incompatible)ISO-2022-JP (dummy encoding)

SJIS と Windows-31J

Windows環境 Magic comment などで SJIS を指定 Encoding::CompatibilityError 入力は Windows-31J だから →Windows-31J指定が正しいあなたが SJIS だと思っているのは、実

は Windows-31J です

ASCII-8BIT

Ruby M17N未対応のライブラリを使った時

ネットワーク系や DB系など明示的にエンコーディングを指定 String#force_encoding(enc)

ASCII非互換の正規表現 ASCII非互換エンコーディングな正規

表現はリテラルで書けない UTF-16LE の正規表現リテラルは書け

ない Regexp.new を使う Regexp.new(

" あ ".encode("UTF-16LE"))

Open problems

ケータイ絵文字 Windows の Unicodeパス結合文字異体字セレクタ /IVS String と言語 Stateful encoding Unicode 用ユーティリティ

ケータイ絵文字 mrkn さんや設楽さんたちが作業中 1.9.2 に入るかも

Windows の Unicodeパス一部対応その他非対応方針としては、現在Windows の A系

API を叩いているものを、 W系 API を使うように変える

そこら中で踏むのでリソース不足いじれる方が居たらパッチください Win32-unicode-testブランチ

結合文字「が」を「か」 + 「゛」で表す複数のコードポイントを 1 文字扱いす

る必要 String の「文字」をこれにする変更が入った事はあるが巻き戻された [ruby-dev:36375]

「文字」の単位が Unicode のバージョンに依存

エスケープなどに影響 Java の BreakIterator っぽいものが必

要 ? 検討中

異体字セレクタ /IVS

Ideographic Variation Sequence 結合文字同様、複数のコードポイント

を 1 文字扱いする必要

String と言語日本語と中国語を同時に扱いたい日本語と中国語を 1 つの String に入れ

たい可能かは文字コードによります UTF-8 ではできません Unicode は言語を別に与えないといけ

ない String に encoding と lang を持たせ

る必要現状ユースケース不足

Stateful encoding

現状ダミーエンコーディング改善予定無し

Unicode ユーティリティ文字幅 Unicode正規化 Unicode 大文字小文字化 API をどうするかそもそもどこにいれるのか

String#sort

デフォルトでは文字コード順シフト JIS や日本語 EUC の系統

と、 Unicode系のエンコーディングで並び順が変わる

現状では sort に block引数を指定するRuby には Collation とかは添付されてい

ない自分で比較ルーチンを用意して渡す

Feedback をよい API を設計するには、ユースケー

スの収集が大事なので feedback が重要失敗談等は ruby-listへバグ・提案は ruby-devへオレはようやくのぼりはじめたばかり

だからなこの果てしなく遠い M17N をよ…

未実装

Technology

A Reintroduction To Ruby M17 N