23
行政電子化の基盤として整備の進む 「文字情報基盤事業」 2014 年5月 独立行政法人 情報処理推進機構

2014.05.27 行政電子化の基盤として整備の進む「文字情報基盤事業」

Embed Size (px)

DESCRIPTION

2014.05.27 文字情報技術の最新動向 田代秀一 氏 日本電子出版協会

Citation preview

Page 1: 2014.05.27 行政電子化の基盤として整備の進む「文字情報基盤事業」

行政電子化の基盤として整備の進む「文字情報基盤事業」

2014 年5月

独立行政法人 情報処理推進機構

Page 2: 2014.05.27 行政電子化の基盤として整備の進む「文字情報基盤事業」

2002(H.14) ~2009(H.21)「汎用電子情報交換環境整備プログラム」:住民基本台帳ネットワークシステム統一文字(総務省)と戸籍統一文字(法務省)を整理(経産省)

2010(H.22) 「文字情報基盤プロジェクト」

開始

2011(H.23) 「IPAmj明朝フォント」公開:約6万の漢字を収録

2014(H.26) 「電子行政分野におけるオープンな利用環境整備に向けたアクションプラン(政府CIO連絡会議)

2010(H.22)業界団体「IVS技術促進協議会」設立(「文字情報技術促進協議会」に名称変更(2014年))

主要ワープロソフトがIVS技術に対応

2013(H.25) 「マイナンバー法」が成立し、政府、自治体情報システムの再構築開始

文字情報基板を取り巻く歴史

2

Page 3: 2014.05.27 行政電子化の基盤として整備の進む「文字情報基盤事業」

文字の相互運用性不足の問題

• 被害者、要援護者等の情報を市販のGIS等と連携させる事が困難

• 避難者名簿等の作成に支障• 自治体間での情報システムの支

援が困難• 名簿等を市販機器で印刷できな

東日本大震災時の経験

× ××

××

現状:1700自治体が独自の文字コードを運用

人名等の文字を標準化し、情報連携、情報公開の基盤へ。

3

Page 4: 2014.05.27 行政電子化の基盤として整備の進む「文字情報基盤事業」

文字情報基盤:戸籍、住基の文字を包含する漢字を提供

4

文字情報基盤:IPAmj明朝フォント(漢字58,814文字)

戸籍統一文字(漢字55,270文字)

住民基本台帳ネットワークシステム統一文字(漢字19,563文字)

JIS漢字コード(10,050文字)

常用漢字(2,136文字)

法令、公用文書、新聞、雑誌、放送等、一般の社会生活において、現代の国語を書き表す場合の漢字使用の目安を示す。

実用上の情報交換の必要性から、出現頻度等を元に文字を選定(JISX2013:2004)

戸籍のオンライン手続に使用することを目的として整理した文字(辞書をベースに整理)

多くの住民が氏名に使う文字を整理

多様性・アイデンティティ

交換性・意味

Page 5: 2014.05.27 行政電子化の基盤として整備の進む「文字情報基盤事業」

文字情報基盤整備事業

• 2010年度 経済産業省からの委託事業として、課題の整理と約6万文字の漢字を含むフォントを整備

• 2011年5月 ベータ版公開

• 2011年10月 正式版公開

• 2012年度 実証実験などの実施

• 2013年度 導入ガイドの整備

5

(1)文字情報基盤の将来像や課題を整理するための調査研究

(2)フォントの整備

ロードマップの検討 文字管理体制の検討

推進委員会の開催・運営支援

議論の反映

フォント組み立て作業

コード付け、MJ文字情報一覧表への貼りこみ作業

フォントの素材提供

フォント仕様・作成作業手順の設計

工程管理

符号化方針の決定

MJ文字情報一覧表作成

検討結果の反映 問題提起

仕様・手順の

設計と管理

作製作業

2010年度の事業概要

Page 6: 2014.05.27 行政電子化の基盤として整備の進む「文字情報基盤事業」

5,928文字

• マイクロソフトOffice 2013• Apple iWork (Pages 5.0,

Numbers 3.0, Keynote 6.0)• 一太郎2014 徹(てつ)等がIVS技術に対応

ほぼ全ての情報機器で利用可能

市販の最新の情報機器の多くで利用可能

一部のOS・アプリケーションで対応が始まっている

ISO/IEC 10646

UCS(Universal Character Set)

2,439文字24,210文字 26,237文字1,684文字

BMP (全65,536文字)CJK統合漢字拡張B,C,D

(全47,000文字) IVS

文字情報基盤漢字(58,814文字)

非漢字(2,014図形/1,684文字)

縦書用文字、リガチャを含む

住基統一(漢字のみ)(19,563文字)

戸籍統一(漢字のみ)(55,270文字)

ISOに全文字受理済(2012年11月)、符号化作業進行中

IPAmj明朝フォントの符号化と活用技術

約500文字

約1,900文字

符号化対象外

CJK統合漢字拡張F

(審議中)

CJK統合漢字拡張E

(2014年出版予定)

6

次期IPAmj明朝フォント(2014年夏公開予定)

Page 7: 2014.05.27 行政電子化の基盤として整備の進む「文字情報基盤事業」

文字情報基盤で整備した文字の標準化状況/IPAmj明朝フォントへの実装状況

2013年度 2014年度

ISO/IEC 10646 第4版(発行予定)を受けたUCS実装

2012年10月、ISO/IEC JTC1/SC2/WG2/IRG へ提案し、受理済み(現在審議中)

2015年度以降

全約6万文字のうち、符号化実装が未了の文字

約500文字

約3700文字

符号化完了!

2014.5月 Unicode consortiumのIVDにMoji_Joho collectionとして登録完了2015年夏、フォントファージョンアップ予定

6,100

1,900

2013年11月IPAmj明朝ver.002.02公開

6,800

2,400

2014年夏(予定)IPAmj明朝バージョンアップ

約1900文字

7

Page 8: 2014.05.27 行政電子化の基盤として整備の進む「文字情報基盤事業」

(参考) IVS / IVD の考え方

8

UCSコードと字形を指定するVS(字形選択子)を並べて記述することで、字形を指定することができる。※VSの値は実際の規格と異なります。845A

845B

8FBA

8FBB

… …

… …

UCSコード

… …

E0100

VS

E0101

E0102

E0100

E0101

… …

… …

UCSコードは、細かな字形の差異は区別せず、複数の字形を一つのコードに統合している。

IVS: Ideographic Variation Sequence / Selector

IVD: Ideographic Variation Database

Page 9: 2014.05.27 行政電子化の基盤として整備の進む「文字情報基盤事業」

公開中の成果物

• IPAmj明朝フォント– 戸籍統一文字の漢字(55,270文字)– 住民基本台帳ネットワークシステム統一文字の漢字(19,563文字)

を包含する約6万文字を収録したフォント– 国際標準に則って符号化(符号化未完の約2千文字について、現在ISO/IEC JTC1にて手続き中)

• 文字情報基盤 文字情報一覧表(MJ文字情報一覧表)– 文字図形、各種文字コード、読み等の各種情報を一覧できる– 文字の「見える化」を図る– 文字図形データをSVGフォーマットで提供

• 報告書等– 平成22年度調査事業の成果報告書

(ロードマップや利用ガイド(案)等を収録)– 平成24年度実証実験成果報告書

(結果報告書、実験に用いたデータ(コード変換表等)等を公開)– 関連委員会議事概要

• 導入ガイド等– 文字情報基盤導入ガイド ver. 1.0– 文字情報基盤導入テクニカルスタディver. 1.0

9

(http://mojikiban.ipa.go.jp/)

Page 10: 2014.05.27 行政電子化の基盤として整備の進む「文字情報基盤事業」

文字情報一覧表の項目一覧(1/3)- 文字コードの対応関係その他のメタデータを収録 -

項目 内容

MJ文字図形名 MJ文字情報一覧表内で一意に定めた文字図形の名称

戸籍統一文字番号 6桁の10進数の戸籍統一文字番号を記した。

住基ネット統一文字コード 「J+」に続けて4桁の16進数の住民基本台帳ネットワークシステム統一文字コードを記した。

入管正字コード平成23年法務省告示第582号第二項第四号 正字に示された「工業標準化法(昭和二十四年法律第百八十五号)に基づく日本工業規格(以下「日本工業規格」という。)X〇二二一号(以下「国際符号化文字集合」という。)に規定する漢字(国際符号化文字集合附属書JA日本文字部分レパートリに該当するものに限る。)及び別表第一に定める漢字をいう」の16進数を記した。

入管外字コード平成23年法務省告示第582号第二項第7号に示された「国際符号化文字集合に規定する私用文字として別表第一に定める文字の符号化表現」の16進数を記した。

漢字施策「常用漢字」は、常用漢字表(平成22年11月30日内閣告示)に示された通用字体(常用漢字表で括弧が添えられていない漢字)に示された漢字である。「人名用漢字」は、戸籍法施行規則別表第二の「漢字の表一・二」に示された漢字である。

X0213 X0213欄には、JIS X 0213:2004の面区点位置を記した。

X0213 包摂連番 包摂連番欄には、該当する文字にJIS X 0213:2004の包摂規準を適用させると符号化できる場合、包摂規準連番を記した。

X0213 包摂区分包摂区分欄には、「0」「2」の2種を記した。「0」は、該当する文字がJIS X 0213:2004規格票の例示する字体に相当する字 形であることを示す。「2」は、該当する文字がJIS X 0213:2004の包摂規準を適用できる字体に相当する字形であることを示す。

X0212 X0212欄には、JIS X 0212:1990の区点位置を記した。

対応するUCS対応するUCS欄には、「U+」に続けてISO/IEC 10646:2012の16進数のUCSコードを記した。ただし、UCSコード情報の確度や対応状況が異なるため、「UCS対応カテゴリー」欄に確度情報を記した。

10

Page 11: 2014.05.27 行政電子化の基盤として整備の進む「文字情報基盤事業」

文字情報一覧表の項目一覧(2/3)- 文字コードの対応関係その他のメタデータを収録 -

項目 内容

対応する互換漢字 互換漢字に該当するMJ文字図形名には、対応する互換漢字欄に、「U+」に続けてISO/IEC 10646:2012の16進数のUCSコードを記した。

実装したUCS

IPAmj明朝フォントVer.002.02の実装において当該図形に対して割り当てるUCSコードを記した。同一のUCSコードを持つ図形が複数ある場合において、フォント実装において対応付ける図形(デフォルトグリフ)は、下記の優先順位により決定した。1. 常用漢字表に掲載されている字形2. 人名用漢字別表(戸籍法施行規則別表第二漢字の表)に掲載されている字形3. 住民基本台帳ネットワークシステム統一文字コードと対応するUCSが一致する字形4. JIS X 0213:2004に掲載されている例示字形5. UCSのJ欄(日本提案の字体)に掲載されている例示字形6. 法務省告示第582号別表1に掲載されている字形7. 康煕字典体8. 「市区町村が使用する外字の実態調査」の出現頻度

UCS対応カテゴリー

「対応するUCS」欄の確度のカテゴリー分けを下記(A1,A2,A3,A4,E,F)のように行った。

【カテゴリーA】平成23年度から平成25年度までの文字情報基盤整備事業で確認済みのもの。 A1) ISO/IEC10646 CJK統合漢字にJソースがあるもの(JIS X 0213、JIS X 0212に例示されている文字を含む)。 A2) 住基ネット統一文字で住基ネット統一文字コードが3400~9FA5のもの。 A3) Unicode ConsortiumのIVD Version 2010-11-14のHanyo-Denshiコレクションとして登録されているもの。 A4) 文字情報基盤整備事業において個別に確認したもの。【カテゴリーE】ISO/IEC 10646:2014(予定)の発行により、対応するUCSコードの確定が見込まれるもの。【カテゴリーF】現在ISOに提案中であり、対応するUCSコードが存在しないもの。

11

Page 12: 2014.05.27 行政電子化の基盤として整備の進む「文字情報基盤事業」

文字情報一覧表の項目一覧(3/3)- 文字コードの対応関係その他のメタデータを収録 -

項目 内容

実装したIVS Unicode ConsortiumのIVD Version 2010-11-14のHanyo-Denshiコレクションにより実装したIVSを記した。

MJ文字図形バージョン IPAmj明朝フォントVer.002.02およびSVG図形ファイルに収録した文字図形(MJ文字図形)のバージョンを記した。

登記統一文字番号(参考) 8桁の10進数の登記統一文字番号を記した。

部首(参考) 部首欄には部首番号を記した。『康煕字典』の部首の通し番号により、1から214までである。

内画数(参考) 内画数欄には部首内画数(部首を除いた残りの部分の画数)を記した。

総画数(参考) 総画数欄には文字の総画数を記した。

読み(参考) 読み欄には文字の読みを記した。原則として、音読みは片仮名、訓読みは平仮名である。

大漢和大漢和欄には、諸橋轍次『大漢和辞典』(修訂第二版第六刷、大修館書店、2001年)及び鎌田正・米山寅太郎『大漢和辞典補巻』(初版、大修館書店、2000年)の親字番号を記した。なお、『大漢和辞典』及び『大漢和辞典補巻』の親文字と漢字字体に差異があるものの同定が可能なものには、親字番号の末尾に#を付けて示した。

日本語漢字辞典 日本語漢字辞典欄には、新潮社編「新潮日本語漢字辞典」(第四刷、新潮社、2008年)の検字番号を記した。

汎用電子整理番号(参考) 汎用電子情報交換環境整備プログラムの漢字情報テーブルにおけるレコードの通し番号を記した。

平成明朝(参考)平成明朝体グリフのグリフ名。平成明朝体グリフは汎用電子情報交換環境整備プログラムの文字グリフ作業委員会にて制作されたものである。

更新履歴本一覧表において、過去に変更された情報の履歴を記し、変更のあった事項毎にMJ文字情報一覧表バージョン番号を行頭に付した。

12

Page 13: 2014.05.27 行政電子化の基盤として整備の進む「文字情報基盤事業」

文字情報 簡易検索サービス

13

Page 14: 2014.05.27 行政電子化の基盤として整備の進む「文字情報基盤事業」

検索結果例(1/2)

14

Page 15: 2014.05.27 行政電子化の基盤として整備の進む「文字情報基盤事業」

検索結果例(2/2)

15

Page 16: 2014.05.27 行政電子化の基盤として整備の進む「文字情報基盤事業」

公開物のライセンス

• IPAmj明朝フォント

– IPAフォントライセンス• 無償利用、複製可能。変更可能。ただし、変更を加えたフォントを配布した場合、

その利用者が当該フォントをオリジナルへ戻せる手段を設ける必要

• 文字情報基盤 文字情報一覧表(MJ文字情報一覧表)

– クリエイティブ・コモンズ・ライセンス 2.1「表示、継承」

• SVGフォーマットによる文字図形データ

– クリエイティブ・コモンズ・ライセンス2.1「表示・継承」

16

Page 17: 2014.05.27 行政電子化の基盤として整備の進む「文字情報基盤事業」

世界最先端IT国家創造宣言」工程表(内閣官房)

17

Page 18: 2014.05.27 行政電子化の基盤として整備の進む「文字情報基盤事業」

検討体制(2013年度~)

18

政府情報システム刷新等WG

IT総合戦略本部

新戦略推進専門調査会

パーソナルデータに関する検討会

各府省CIO

連絡会議電子行政オープンデータ実務者会議

電子行政分科会

人材育成分科会

・・・

情報セキュリティ政策会議

情報共有基盤推進委員会

委員長 須藤修(東京大学情報学環長)有識者 武田英明(共通語彙基盤WG座長)、林史典(文字情報基盤WG座長)関係団体 JISA(ソフト業界)、JEITA(ハード業界)オブザーバ 内閣官房(IT総合戦略室、社会保障改革担当室)、総務省(行政管理局)

協力依頼 報告

共通語彙基盤WG

<実施内容>•情報連携用語彙基盤DBの構築• APIカタログの整備•情報連携用ツールの整備

【主査】NII 武田先生【関係省庁】(課長級)IT室、社保室、内閣府防災、総務省、国交省、国会図書館

•各委員会、WGの設置主体は経済産業省、事務局はIPA

•各WGの下には、具体的な検討を行なうSWGを設置。

塗りつぶし部分は関連する会議体

文字情報基盤WG

<実施内容>•導入ガイドの作成•文字情報DBの構築• フォント整備•標準化の実施

<メンバー>右表のとおり

氏名 位置付け 所属

座長 林史典 有識者 聖徳大学教授

委員 三上喜貴 有識者 長岡技術科学大学教授(副学長)

委員 氏原基余司 有識者 文化庁

委員 大山水帆 自治体 川口市

委員 荻野 敦 関係団体 LASDEC

委員 【課長級】 関係省庁 総務省自治行政局 住民制度課

委員 【課長級】 関係省庁 総務省総合通信基盤局高度通信網振興課

委員 【課長級】 関係省庁 法務省民事局

オブザーバ 【課長級】 関係省庁(利用) 内閣官房IT室

オブザーバ 【課長級】 関係省庁(利用) 内閣官房社保室

オブザーバ 【課長級】 関係省庁(利用) 総務省行政管理局情報システム管理室

委員 - SWG座長(文字情報)

委員 - SWG座長(運用)

委員 - SWG座長(技術)

Page 19: 2014.05.27 行政電子化の基盤として整備の進む「文字情報基盤事業」

電子政府・自治体向け「導入ガイド」

2014年3月公開(文字情報基盤ワーキンググループ/IPA)

• 「閣議決定」の方針に従い、今後整備する情報システムに文字情報基盤を活用するにあたっての基本的方針を記述

• 国際標準と矛盾しない技術的基本指針を示す

• 経済合理性を考慮する

– 既存システムとの共存

– 低い導入コスト

• 文字そのものの運用ポリシはスコープ外とする

– 別途法律等で定められている方針に従う

19

Page 20: 2014.05.27 行政電子化の基盤として整備の進む「文字情報基盤事業」

文字情報交換の原則(政府・自治体向け)

• 組織内部

– 短期的:現状の文字体系を変えない

– 中・長期的:UCS+IVSを使用可能なシステムの導入を図る

• 政府の組織間、自治体間

– 短期的:

• 相互に合意した組織間での私用領域(外字)の利用

• MJ文字図形名+図形情報(イメージ)を交換する「交換表現」の活用

– 中・長期的:UCS+IVSによる情報交換

20

Page 21: 2014.05.27 行政電子化の基盤として整備の進む「文字情報基盤事業」

「テクニカルスタディ」

2014年3月公開(文字情報基盤ワーキンググループ/IPA)

• 符号化、製品の対応状況が未整備な過渡的期間における、政府・自治体へ向けた文字情報基盤の具体的な導入方法を例示

• 文字活用に係る調達仕様等を策定するにあたって、参考となる技術的資料

• 将来へ向けた移行の手順を例示

21

Page 22: 2014.05.27 行政電子化の基盤として整備の進む「文字情報基盤事業」

政府が相次いで文字情報基盤活用への取り組みを加速

• 「電子自治体の取組みを加速するための10の指針」(2014年3月24日公開、総務省)

• 「電子行政分野におけるオープンな利用環境整備に向けたアクションプラン」(2014年4月25日、各府省情報化統括責任者(CIO)連絡会議決定)

22

Page 23: 2014.05.27 行政電子化の基盤として整備の進む「文字情報基盤事業」

文字情報データベースの構築(2014年度開始)

• 文字のメタ情報を幅広く搭載する– 文字コード(JIS, ISO/IEC,その他)

– 漢字施策との関係

– 文字の検索を支援する情報• 読み、画数、文字の図形的構成要素情報など

• 文字と文字を多様な観点からリンク付け– 字形の類似性

– 字の起源、意味などの共通性・類似性

→大きさの異なる文字集合間での縮退対応への活用(MJ→JIS X 0213, JIS X 0213 → JIS X 0208等)

• 政府オープンデータ戦略の趣旨に沿い、電子的に再利用しやすい形式で情報を公開する。

23

1-20-91JIS

関連情報

第1水準

水準1

包摂区分

JIS X 0213

1-85-11

第3水準

水準JIS

関連情報

0包摂区分

JIS X 0213

U+65E2実装したUCS

対応するUCS

A1

カテゴリ

UCS

関連情報

対応するUCS

U+FA42

カテゴリ

実装したUCS

対応する互換漢字

漢字施策

常用漢字

施策

MJ013146

MJ030263

UCS

関連情報

文字間の関係

読み

キ音読み

訓読み すでに

つきる訓読み字典

xnnn

nnnn

4512

13721大漢和

日本語漢字辞典

新大字典

大字源

データベースのイメージ