Download pdf - ハッシュ法«–...2012/10/26 · ハッシュ法 •巨大な範囲の数を実用的なサイズの配列の添え字（インデクス）に変換 •簡単な方法としては，モジュロ演算子（％）を

ハッシュ法

アルゴリズム論第5回講義

2012年10月26日(金）

ハッシュ法

ハッシング（ｈａｓｈｉｎｇ）ともいう

ｈａｓｈ：切りきざむ

挿入・探索・削除がＯ（１）でできる

つまり、データの個数ｎに依存しない

理想の探索技法！？

学生番号から氏名などを求めたい

2003年度に入学した学生だけを考えると、

70310001～70310101

でも、一般にキーはこのように順序よく

並んでいない

ｄｉｒｅｃｔａｃｃｅｓｓという

配列の0番目から100番目に氏名を格納

→ （学生番号下3桁－1）番目の

配列要素を見ればよい

英和辞書

• 5万語の英和辞書の全体をメモリにのせて使いたい

• 各単語のインデクス番号が分かれば，O(1)である単語の意味を知ることができる

インデクス番号内容

1

2

3

…. hash:切り刻む

50,000

どうすれば各単語のインデクス番号が分かるか？

語を数に変換する

• ASCII(アスキー)コード

–大文字，小文字，数字，記号などを0から255までの数で表現

– a:97, b:98, …, z:122

• 大文字，数字，記号などを使わないとしたら

–スペースを０として，a:1, b:2, c:3, …, z:26の２７文字で表現できる

語を数に変換する方法１：単語の各文字に対応する数の総和を

インデクス番号とする

• cats = 3 + 1 + 20 + 19 = 43

• Dic[43] = cat:ネコ，猫科の動物・・・・ここで，単語の最大文字数を１０とすると，辞書の一番最後の文字は，（理論的には） zzzzzzzzzz（zが１０個） = 26 X 10 = 260 50,000(単語あるとすれば） ÷ 260 = 192 → サイズ260の配列を準備すれば、１つの配列要素に１９２語が該当する例えば、単語の各文字に対応する数の総和がcatと同じ43になる単語 was(23+1+19), give(7+9+22+5), tend(20+5+14+4), ….

語を数に変換する方法２：桁位置を利用する（べき乗化）

• 数値の場合は０から９の１０種類（１０進数） – 各桁は１０のべき乗

• 今回の前提では，スペース，aからzの２７種類（２７進数） – 各桁は２７のべき乗

• cats = 3x273+1x272+20x271+19x270

= 60,337

• zzzzzzzzzz = 26x279 +26x278 +…+26x270

= 205,891,132,094,648

配列１要素あたり１バイトとすると，約190TBのメモリが必要！！ 1TB = １０２４ * 1024 * 1024 * 1024 = 1,099,511,627,776 (約１兆バイト)

200兆以上！！

語を数に変換する方法２：桁位置を利用する（べき乗化）

fira firb firc fird fire firf firg 125146 125147 125148 125149 125151 125152

単語ではない

実在する単語

125150

ハッシュ法

• 巨大な範囲の数を実用的なサイズの配列の添え字（インデクス）に変換

• 簡単な方法としては，モジュロ演算子（％）を使う

– %nは０からn-1までの数を作りだす

（値域：０～３）２３ % 4 = 3

13052 % 4 = 0 38 % 4 = 2

配列のインデクス = 巨大な数 % 配列サイズ

ハッシュ関数（ｈａｓｈｆｕｎｃｔｉｏｎ）

キーの値ｘの集合添字（ハッシュ値）

ｈ（ｘ）の集合

０，１，２，

・・・，９９

× ×

× × ×

×

・・・

２６５１００

ｈ（ｘ）

大きな値域の数を小さな値域の数へとハッシュ（切り刻む）する。文字列を一定範囲の整数に変換すること。

ハッシュ関数の例

ｉｎｔｈａｓｈ（ｃｈａｒ＊ｓ）

｛ｉｎｔｉ = ０；

ｗｈｉｌｅ（＊ｓ）

ｉ += ＊ｓ++；

ｒｅｔｕｒｎｉ％ 100｝

a:97…………… z:122

アスキーコードの総和を

１００で割った余りを配列

添字とする

この関数で求まるハッシュ値

の例

文字列ハッシュ値

ｏｎｅ 22

ｔｗｏ 46

ｔｈｒｅｅ

ｆｏｕｒ

ｆｉｖｅ

ｓｉｘ

ｓｅｖｅｎ

ｅｉｇｈｔ

ｎｉｎｅ

ｔｅｎ

a 97 b 98 c 99 d 100 e 101 f 102 g 103 h 104 i 105 j 106 k 107 l 108 m 109 n 110 o 111 p 112 q 113 r 114 s 115 t 116 u 117 v 118 w 119 x 120 y 121 z 122

ハッシュ表（テーブル）

ハッシュ値の例


ｏｎｅ 22

ｔｗｏ 46

ｔｈｒｅｅ

ｆｏｕｒ

ｆｉｖｅ

ｓｉｘ

ｓｅｖｅｎ

ｅｉｇｈｔ

ｎｉｎｅ

ｔｅｎ

0

1

…..

26 five

27 ten

28

29 eight

…..

ハッシュ関数を使ってデータを挿入した配列

ハッシュ(1) 問題1：

以下のハッシュ関数を用いて、表の各文字列に対応する

ハッシュ値を求めよ。

ｉｎｔｈａｓｈ（ｃｈａｒ＊ｓ）｛ｉｎｔｉ = ０；ｗｈｉｌｅ（＊ｓ）ｉ += ＊ｓ++；ｒｅｔｕｒｎｉ％ 11｝

a:1, b:2, c:3, d:4, e:5, f:6, g:7, h:8, i:9, j:10, k:11, l:12, m:13, n:14,o:15, p:16, q:17, r:18, s:19, t:20, u:21, v:22, w:23, x:24, y:25, z:26

ハッシュ関数

アルファベットに対応する数値


fukuzaki

watanabe

oono

kawashima

nakano

miura 例：yamaguti = （25+1+13+1+21+20+9） % 11 = 2

異なるキーが同じハッシュ値に写像されたら、どうするか？

チェイン法

オープンアドレス法

衝突の処理

大きく分けて

チェイン法

ハッシュ表の同じ場所に写像された

データを連結リストにつなぐ

ハッシュ表は連結リストの先頭を指す

ポインタの配列

ＡＢ

Ｃ

ＤＥＦ

Ｇ

ＨＩ

Ｊ

ハッシュ表

０

１

２

３

４

５

６

７

８

９

チェイン法のデモ

オープンアドレス法

ある一定の方法で，空セルを探して，

そこに新たな項目を挿入する方法

①線形探査(linear probing)

②平方探査(quadratic probing)

③ダブルハッシュ(double hashing)

ｈ（ｘ）＝ｈ０（ｘ）

ｈ１（ｘ）

ｈ２（ｘ）

ｈ３（ｘ）

ハッシュ表

：：

：：

オープンアドレス

法は、ハッシュ表の

中で仮想的な連結

リストを作るようなもの

ただし、次の要素は

ポインタでなく、

再ハッシュ関数に

よって決まる

オープンアドレス法：線形探査

• 配列を単純にシーケンシャルに辿って空きセルを探すやり方 0

1

…..

26 five

27 ten

28

29 eight

…..

nine = 110+105+110+101 = 426 ハッシュ値= ４２６%100 =26

衝突

衝突 nine

OK

再ハッシュ（ｒｅｈａｓｈ）

ｋ回目にアクセスする場所：ｈｋ（ｘ）

ｘはキー、ｋ＝０,１,２,・・・,Ｂ－１

最も簡単な再ハッシュ関数は

ｈｋ（ｘ）＝（ｈ（ｘ）＋ｋ）％Ｂ

ｈ（ｘ）：最初のハッシュ関数

Ｂ：ハッシュ表（配列）の大きさ

オープンアドレス法：線形探査 (2)

オープンアドレス法：線形探査の問題点

0

…..

25

26 five

27 ten

28 nine

29 eight

30

この状態でさらにハッシュ値が２６のキーを挿入する場合データが連続してしまい，効率が落ちる

クラスター化

オープンアドレス法：平方探査

線形探査のように，隣接するセルに挿入してい

くとクラスターができやすいので，もっと離れた

場所に挿入しようというやり方

ｈｋ（ｘ）＝（ｈ（ｘ）＋ｋ2）％Ｂ

ｈ（ｘ）：最初のハッシュ関数Ｂ：ハッシュ表（配列）の大きさ

注意点：配列のサイズを素数にしなければ同じ場所を探し続けることがある

オープンアドレス法：平方探査の問題点

サイズ５９の配列（すべてセルが空いているとする）に，１８４，３０２，４２０，５３８というキーを順番に挿入することを考えると

184 % 59 = 7 → 1ステップで配列の要素８へ 302 % 59 = 7 → 2ステップで配列の要素11へ 420 % 59 = 7 → 3ステップで配列の要素16へ 538 % 59 = 7 → ４ステップで配列の要素23へ

第2種クラスター化

オープンアドレス法：ダブルハッシュ

• キーの値によって探査の歩幅が異なるようにする方法

• キーに対して2度目のハッシュを行い，得られた結果をステップ幅として使う

ｈs（ｘ）＝（C – （k % C））％ＢＢ：ハッシュ表（配列）の大きさ C: 定数（配列サイズより小さい素数）

オープンアドレス法：ダブルハッシュの注意点

• 最初のハッシュ関数と同じであってはならない

• ０が作られることのある関数であってはならない

• ハッシュ表のサイズは素数でなければならない – ハッシュ表のサイズが５９で，ステップ幅は？

184 % 59 = 7 → 配列の要素８へ 302 % 59 = 7 →(11-(302%11))%59 = 6, 要素14へ 420 % 59 = 7 → (11-(420%11))%59= 9, 要素17へ 538 % 59 = 7 → (11-(538%11))%59=10,要素18へ

ｈs（ｘ）＝（１１ – （k % １１））％５９とすると

良いハッシュ関数とは

• 手早い計算

– ハッシュ法の利点はスピードなので，ハッシュ関数は高速であるべき

• ランダムキー

– Index = key % arraySizeで得られるインデクスもランダム（均等）に分布

• ノンランダムキー

– テーブルサイズには素数を使う

– 多くのキーと配列サイズに共通の公約数がある場合，それらが同じ位置へハッシュされるため

ハッシュ(2)

問題1：

(2) (1)の表に示した文字列を上から順番に、要素数11のハッシュ表に格納せよ。

(3)衝突が発生した場合には、チェイン法とオープンアドレス法でそれぞれどのように衝突が回避されるかを図で示せ。

(4) オープンアドレス法は線形探査とダブルハッシュの両方を

示すこと。線形探査とダブルハッシュのハッシュ関数は以下のとおり。

ｈs（ｘ）＝（７ – （k % ７））％ 11 kはハッシュ関数hash()内の11で割った余りを求める直前の変数iの値

ｈｋ（ｘ）＝（ｈ（ｘ）＋ｋ）％１１ k回目にアクセスする場所（K=0, 1, 2, …, 10)

線形探査のハッシュ関数

ダブルハッシュのハッシュ関数

Download pdf - ハッシュ法«–...2012/10/26 · ハッシュ法 •巨大な範囲の数を実用的なサイズの配列の 添え字（インデクス）に変換 •簡単な方法としては，モジュロ演算子（％）を

Download pdf - ハッシュ法«–...2012/10/26 · ハッシュ法 •巨大な範囲の数を実用的なサイズの配列の添え字（インデクス）に変換 •簡単な方法としては，モジュロ演算子（％）を