Upload
alize
View
55
Download
6
Embed Size (px)
DESCRIPTION
くらしの中の情報 科学 - ネットワークからナノテク・ゲノムまで - くらしの中のコンピューター・サイエンス ②. 喜田 拓也 北海道大学大学院情報科学研究科 コンピュータサイエンス専攻 准教授. 北海道大学大学院情報科学研究科公開講座. 2012/11/29. 本日の講義内容. 「情報」をデジタル化する 2進数について 2 進数からマルチメディアの表現へ 「情報」を小さく表現する データ圧縮技術について Lempe l-Ziv 法 「情報」を間違いなく届ける 誤り 訂正 技術について 水平垂直パリティ符号 私たちが研究していること アルゴリズムとは - PowerPoint PPT Presentation
Citation preview
くらしの中の情報科学-ネットワークからナノテク・ゲノムまで-
くらしの中のコンピューター・サイエンス②
喜田 拓也北海道大学大学院情報科学研究科
コンピュータサイエンス専攻 准教授
北海道大学大学院情報科学研究科公開講座 2012/11/29
「情報」をデジタル化する 2進数について 2進数からマルチメディアの表現へ
「情報」を小さく表現する データ圧縮技術について Lempel-Ziv 法
「情報」を間違いなく届ける 誤り訂正技術について 水平垂直パリティ符号
私たちが研究していること アルゴリズムとは 喜田の研究テーマについて
本日の講義内容
「情報」をデジタル化する
コンピュータとは,電気回路がたくさん集まってできたもの
電気回路の中の電圧が高いか低いかだけを区別する
じゃあ,どうやって「情報」を記憶したり通信したりできるの?
映像音楽 文書
デジタル化
(0と1の列で表現された)
データ
「数」とは,個数を抽象化した概念 私たちは通常,10進法による表現をつかう
数を2進数で表す
コンピュータは二つの値しか区別できないので,2進法(2進数)を使って数を表現します
リンゴが5個
0 0
1 1
2 10
3 11
4 100
5 101
6 110
7 111
8 1000
9 1001
10 1010
11 1011
12 1100
13 1101
14 1110
15 1111
11010=16+8+21の位
2の位4の位
16の位8の位
音楽や映像を数の並びで表す
映像音楽 文書
「数」の並び
万物は2進数で表現可能!
7,7,8,2,1,5,5,…
012345678
時間
(250,191,142)(249,190,121)…
「情報」を小さく表現する
(とりあえず)
デジタル化されたデー
タ
(上手に)小さく表現された
データ
圧縮
ムギュ~
映像音楽 文書
復元
データ圧縮
データ圧縮技術について
すもももももももものうち
す 1も 8の 1う 1ち 1
繰り返しなど,冗長な表現を別の小さな表現に変えることでデータの量(0と1の個数;単位はビット)を削減できる!
12文字Run-length 法(192 ビット )
(100 ビット )
5文字 数字5個
Lempel-Ziv 法
「うそつききつつき」
谷川俊太郎
うそつききつつき
きはつつかない
うそをつきつき
つきつつく
うそつききつつき
つつきにつつく
みかづきつくろと
つきつつく
うそつききつつき
きはつつかない
うそをつきつき
つきつつく
うそつききつつき
つつきにつつく
みかづきつくろと
つきつつく
Lempel-Ziv 法
「うそつききつつき」
谷川俊太郎
うそつききつつき
きはつつかない
うそをつきつき
つきつつく
うそつききつつき
つつきにつつく
みかづきつくろと
つきつつく
Lempel-Ziv 法
「うそつききつつき」
谷川俊太郎
矢印は, ( 何文字前から,何文字分コピー ) で表せる
練習問題
でたでた つきが
まるい まるい
まんまるい
ぼんのような
つきが
(2,2)
(3,3)
(3,1)
(5,3)
(5,1)
(20,3)
「情報」を間違いなく届ける
ハイ,アリス!帰りに中華めんを
買ってきてくれないか?
分かったわボブ.
中華まんね.2つでいい?
魔術師: オセロの盤面(8 × 8)に石を敷きつめる あなた: 好きな石を一つだけ裏返す 魔術師: 裏返した石がどこかを当てる
オセロの手品
どこが間違っているかを受信者側が訂正できるように,「余分な情報」を付け足して符号化(0,1で表現)する
水平垂直パリティ符号
𝑐1′ 𝑐2
′ 𝑐 ′ ′
検査ビットの計算
誤り訂正符号
( 9, 4) 水平垂直パリティ検査符号 (ただし,ここでは と計算する)
より効率よい誤り訂正符号がいくつも提案されている ハミング符号,巡回符号, BCH 符号, RS 符号, LDPC 符号,・・・
(7,4)ハミング符号: 4 個の情報ビット に対し,
のように検査ビット を作り,と符号化する
誤り訂正符号の実用例: 音楽 CD や DVD 2次元バーコード 計算機のメモリー
誤り訂正符号について
小休止
我々の「情報知識ネットワーク研究室」では, 情報検索や知識発見に関する基礎研究を行っています
特に,高速なパターン照合やデータマイニングのためのアルゴリズムを開発しています
また,機械学習の方法や,その応用についても研究・開発を行っています
私たちが研究していること
コンピュータは,決まった命令(演算などの操作)しかできない
たくさんの命令を順番に並べて仕事をさせる 効率よく仕事をさせるには,良い手順を与える必要がある
以前は不可能とされた問題が,高速なアルゴリズムの出現で解決可能になることもある 円周率を何億桁も計算する 世界中のウェブページから,自分の名前を含むページをみつけだす 今いるところから,到着地までの最短の経路をみつけだす etc…
アルゴリズムとは
計算手順 = アルゴリズム
『フカシギの数え方』 おねえさんといっしょ! みんなで数えてみよう!( JST ERATO湊離散構造処理系プロジェクト制作)
アルゴリズムの重要性
喜田の研究テーマについて
ハードディスクやメモリの容量が十分に大きくなってきた今日,コンピュータを個人的に利用する範疇において「容量を減らすためにテキストデータを圧縮して保存する」ということはほとんどないでしょう. Windowsにはフォルダごとに圧縮をかけて容量を小さくする機能がありますが,私はこの機能を使ったことがありません.画像や音声データのようなマルチメディア・データならば圧縮して保存するのが当然ですが,テキストデータを圧縮することは百害あって一利なしと思われるでしょう.しかし,例えば大量のログファイルや過去のメールデータなどは削除せずに圧縮保存しておくほうが得策です.
ハードディスクやメモリの容量が十分に大きくなってきた今日,コンピュータを個人的に利用する範疇において「容量を減らすためにテキストデータを圧縮して保存する」ということはほとんどないでしょう. Windowsにはフォルダごとに圧縮をかけて容量を小さくする機能がありますが,私はこの機能を使ったことがありません.画像や音声データのようなマルチメディア・データならば圧縮して保存するのが当然ですが,テキストデータを圧縮することは百害あって一利なしと思われるでしょう.しかし,例えば大量のログファイルや過去のメールデータなどは削除せずに圧縮保存しておくほうが得策です.
文書ファイル群
圧縮文書ファイル群
01111000011110011111110101101000101010100111101000101110011010111101100011101111110100110101111100110100111001101100000111111010110101111111110000010100100101001
01111000011110011111110101101000101010100111101000101110011010111101100011101111110100110101111100110100111001101100000111111010110101111111110000010100100101001
中身がややこしい形になっている!
圧縮された状態のまま高速にキーワード検索!
最新の研究成果: Re-pair-VF 符号
21
よく知られた gzip という圧縮ツールよりも圧縮率が良い
0
10
20
30
40
50
60
70
80
dazai.utf.txt dblp2003.xml gbhtg119 reuters21578
Com
pre
ssio
n r
ati
o (
%)
Re-Pair-VF best
Re-Pair-VF
Re-Pair
Tunstall
STVF
gzip
22
新聞記事 (reuters21578)上の検索速度
0
50
100
150
200
0 10 20 30 40 50
Thro
ughput
(MB
/se
c)
Pattern length
Re-pair-VF best
Tunstall
gzip
Throughput=Original text lengthPattern matching time
本講義「くらしの中のコンピューター・サイエンス②」では, 情報を「2進数へデータ化」する方法 データをコンパクトに表現する「データ圧縮」 データを誤りなく伝達するための「誤り訂正」
について学びました. 効率よい計算をするためには,「アルゴリズム」が
大事であることを学びました. 喜田は,情報検索とデータ圧縮のアルゴリズムに
ついて研究しています.
まとめ