23
くくくくくくくくくく くくくくくくくくくくくく くくくくく くくくくくくくくくくくくくくくくくくくくく くく くくくくくくくくくくくくくくく くくくくくくくくくくくくく くくく くくくくくくくくくくくくくくくくくくく 2012/11/29

くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

  • Upload
    alize

  • View
    55

  • Download
    6

Embed Size (px)

DESCRIPTION

くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②. 喜田 拓也 北海道大学大学院情報科学研究科 コンピュータサイエンス専攻 准教授. 北海道大学大学院情報科学研究科公開講座. 2012/11/29. 本日の講義内容. 「情報」をデジタル化する 2進数について 2 進数からマルチメディアの表現へ 「情報」を小さく表現する データ圧縮技術について Lempe l-Ziv 法 「情報」を間違いなく届ける 誤り 訂正 技術について 水平垂直パリティ符号 私たちが研究していること アルゴリズムとは - PowerPoint PPT Presentation

Citation preview

Page 1: くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

くらしの中の情報科学-ネットワークからナノテク・ゲノムまで-

くらしの中のコンピューター・サイエンス②

喜田 拓也北海道大学大学院情報科学研究科

コンピュータサイエンス専攻 准教授

北海道大学大学院情報科学研究科公開講座 2012/11/29

Page 2: くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

「情報」をデジタル化する 2進数について 2進数からマルチメディアの表現へ

「情報」を小さく表現する データ圧縮技術について Lempel-Ziv 法

「情報」を間違いなく届ける 誤り訂正技術について 水平垂直パリティ符号

私たちが研究していること アルゴリズムとは 喜田の研究テーマについて

本日の講義内容

Page 3: くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

「情報」をデジタル化する

コンピュータとは,電気回路がたくさん集まってできたもの

電気回路の中の電圧が高いか低いかだけを区別する

じゃあ,どうやって「情報」を記憶したり通信したりできるの?

映像音楽 文書

デジタル化

(0と1の列で表現された)

データ

Page 4: くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

「数」とは,個数を抽象化した概念 私たちは通常,10進法による表現をつかう

数を2進数で表す

コンピュータは二つの値しか区別できないので,2進法(2進数)を使って数を表現します

リンゴが5個

0 0

1 1

2 10

3 11

4 100

5 101

6 110

7 111

8 1000

9 1001

10 1010

11 1011

12 1100

13 1101

14 1110

15 1111

11010=16+8+21の位

2の位4の位

16の位8の位

Page 5: くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

音楽や映像を数の並びで表す

映像音楽 文書

「数」の並び

万物は2進数で表現可能!

7,7,8,2,1,5,5,…

012345678

時間

(250,191,142)(249,190,121)…

Page 6: くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

「情報」を小さく表現する

(とりあえず)

デジタル化されたデー

(上手に)小さく表現された

データ

圧縮

ムギュ~

映像音楽 文書

復元

データ圧縮

Page 7: くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

データ圧縮技術について

すもももももももものうち

す 1も 8の 1う 1ち 1

繰り返しなど,冗長な表現を別の小さな表現に変えることでデータの量(0と1の個数;単位はビット)を削減できる!

12文字Run-length 法(192 ビット )

(100 ビット )

5文字 数字5個

Page 8: くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

Lempel-Ziv 法

「うそつききつつき」

 谷川俊太郎  

うそつききつつき

きはつつかない

うそをつきつき

つきつつく

うそつききつつき

つつきにつつく

みかづきつくろと

つきつつく

Page 9: くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

うそつききつつき

きはつつかない

うそをつきつき

つきつつく

うそつききつつき

つつきにつつく

みかづきつくろと

つきつつく

Lempel-Ziv 法

「うそつききつつき」

 谷川俊太郎  

Page 10: くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

うそつききつつき

きはつつかない

うそをつきつき

つきつつく

うそつききつつき

つつきにつつく

みかづきつくろと

つきつつく

Lempel-Ziv 法

「うそつききつつき」

 谷川俊太郎 

矢印は, ( 何文字前から,何文字分コピー ) で表せる

Page 11: くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

練習問題

でたでた つきが

まるい まるい

 まんまるい

ぼんのような

つきが

(2,2)

(3,3)

(3,1)

(5,3)

(5,1)

(20,3)

Page 12: くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

「情報」を間違いなく届ける

ハイ,アリス!帰りに中華めんを

買ってきてくれないか?

分かったわボブ.

中華まんね.2つでいい?

Page 13: くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

魔術師: オセロの盤面(8 × 8)に石を敷きつめる あなた: 好きな石を一つだけ裏返す 魔術師: 裏返した石がどこかを当てる

オセロの手品

Page 14: くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

どこが間違っているかを受信者側が訂正できるように,「余分な情報」を付け足して符号化(0,1で表現)する

水平垂直パリティ符号

𝑐1′ 𝑐2

′ 𝑐 ′ ′

検査ビットの計算

誤り訂正符号

( 9, 4) 水平垂直パリティ検査符号 (ただし,ここでは と計算する)

Page 15: くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

より効率よい誤り訂正符号がいくつも提案されている ハミング符号,巡回符号, BCH 符号, RS 符号, LDPC 符号,・・・

(7,4)ハミング符号:  4 個の情報ビット に対し,

のように検査ビット を作り,と符号化する

誤り訂正符号の実用例: 音楽 CD や DVD 2次元バーコード 計算機のメモリー

誤り訂正符号について

Page 16: くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

小休止

Page 17: くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

我々の「情報知識ネットワーク研究室」では, 情報検索や知識発見に関する基礎研究を行っています

特に,高速なパターン照合やデータマイニングのためのアルゴリズムを開発しています

また,機械学習の方法や,その応用についても研究・開発を行っています

私たちが研究していること

Page 18: くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

コンピュータは,決まった命令(演算などの操作)しかできない

たくさんの命令を順番に並べて仕事をさせる 効率よく仕事をさせるには,良い手順を与える必要がある

以前は不可能とされた問題が,高速なアルゴリズムの出現で解決可能になることもある 円周率を何億桁も計算する 世界中のウェブページから,自分の名前を含むページをみつけだす 今いるところから,到着地までの最短の経路をみつけだす etc…

アルゴリズムとは

計算手順 = アルゴリズム

Page 19: くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

『フカシギの数え方』 おねえさんといっしょ! みんなで数えてみよう!( JST ERATO湊離散構造処理系プロジェクト制作)

アルゴリズムの重要性

Page 20: くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

喜田の研究テーマについて

ハードディスクやメモリの容量が十分に大きくなってきた今日,コンピュータを個人的に利用する範疇において「容量を減らすためにテキストデータを圧縮して保存する」ということはほとんどないでしょう. Windowsにはフォルダごとに圧縮をかけて容量を小さくする機能がありますが,私はこの機能を使ったことがありません.画像や音声データのようなマルチメディア・データならば圧縮して保存するのが当然ですが,テキストデータを圧縮することは百害あって一利なしと思われるでしょう.しかし,例えば大量のログファイルや過去のメールデータなどは削除せずに圧縮保存しておくほうが得策です.

ハードディスクやメモリの容量が十分に大きくなってきた今日,コンピュータを個人的に利用する範疇において「容量を減らすためにテキストデータを圧縮して保存する」ということはほとんどないでしょう. Windowsにはフォルダごとに圧縮をかけて容量を小さくする機能がありますが,私はこの機能を使ったことがありません.画像や音声データのようなマルチメディア・データならば圧縮して保存するのが当然ですが,テキストデータを圧縮することは百害あって一利なしと思われるでしょう.しかし,例えば大量のログファイルや過去のメールデータなどは削除せずに圧縮保存しておくほうが得策です.

文書ファイル群

圧縮文書ファイル群

01111000011110011111110101101000101010100111101000101110011010111101100011101111110100110101111100110100111001101100000111111010110101111111110000010100100101001

01111000011110011111110101101000101010100111101000101110011010111101100011101111110100110101111100110100111001101100000111111010110101111111110000010100100101001

中身がややこしい形になっている!

圧縮された状態のまま高速にキーワード検索!

Page 21: くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

最新の研究成果: Re-pair-VF 符号

21

よく知られた gzip という圧縮ツールよりも圧縮率が良い

0

10

20

30

40

50

60

70

80

dazai.utf.txt dblp2003.xml gbhtg119 reuters21578

Com

pre

ssio

n r

ati

o (

%)

Re-Pair-VF best

Re-Pair-VF

Re-Pair

Tunstall

STVF

gzip

Page 22: くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

22

新聞記事 (reuters21578)上の検索速度

0

50

100

150

200

0 10 20 30 40 50

Thro

ughput

(MB

/se

c)

Pattern length

Re-pair-VF best

Tunstall

gzip

Throughput=Original   text   lengthPattern  matching   time

Page 23: くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②

本講義「くらしの中のコンピューター・サイエンス②」では, 情報を「2進数へデータ化」する方法 データをコンパクトに表現する「データ圧縮」 データを誤りなく伝達するための「誤り訂正」

 について学びました. 効率よい計算をするためには,「アルゴリズム」が

大事であることを学びました. 喜田は,情報検索とデータ圧縮のアルゴリズムに

ついて研究しています.

まとめ