Algorithm Engineering „ Teilmengen-Suche “

Algorithm Engineering

„Teilmengen-Suche“

Stefan Edelkamp

Motivation

Speicherplatzsparende WörterbücherProgramm/Modellprüfung (Model Checking)

Subzeichenketten-Erkennung: Editierdistanz-Problem, Approximative Zeichenkettensuche MSA (Multiple Sequence Alignment) Problem

Teilwort-Erkennung: Kreuzwort-Problem: Eine Anfrage wie B*T**R im

Kreuzworträtselproble mit BETTER, BITTER, BUTLER, oder BUTTER beantworten

Spieleprogrammierung

Übersicht

Speicherplatzsparende WörterbücherBit-State HashingHash-Compaction

Subzeichenketten-Erkennung: Dynamische Programmierung

Teilwort-Erkennung: Listen und ArrayHashing und TriesUnlimited Branching Trees

Übersicht

Speicherplatzsparende WörterbücherBit-State HashingKollaps-Kompression

Model Checking

GegebenEine Modell eines

Systems.Die Spezifikation einer

Eigenschaft Problem Erfüllt das System

die Eigenschaft?

• search

• specification

• state rep.

• modeling• language

•tra

nsitio

• Abstraction

Objectcode

Beispiel: Prüfen eines C++ Programms

igccCompiler

Model checker

Virtual Machine

char globalChar;

int globalBlocksize = 7;

int main(){allocateBlock(blocksize);

void allocateBlock(int size){

void *memBlock;

memBlock = (void *) malloc(size);}

Interpretieren des Objectcodes

char globalChar;

int globalBlocksize = 7;

int main(){allocateBlock(blocksize);

void allocateBlock(int size){

void *memBlock;

memBlock = (void *) malloc(size);}

Register

BSS Section

Data Section

Text Section

Memory Pool

Virtuelle Maschine

Objectcode

Generierung von Zuständen

Register

BSS Section

Data Section

Text Section

Memory Pool

Virtuelle Maschine

Register

BSS Section

Data Section

Text Section

Memory Pool

Startzust.Register

BSS Section

Memory Pool

Zust. 1Register

BSS Section

Data Section

Zust. 2

„Kollaps“-Kompression für große Zustände

Fehlerhafte Wörterbücher sparen Platz

Fehlerwahrscheinlichkeit in Bit-State Hashing (Bloom Filter) n: Anzahl der Elemente m: Anzahl der Bits (Tabellengröße) i tes Element kollidiert mit 1…i-1

mit W‘keit von

Wahrscheinlichkeit für einen fehlerhafte Suche

Senken der Fehlerrate

h unabhängige Hashfunktionen, hn <=n

Mit zwei Bits (Double Bit-State Hashing)

Übersicht

Editierdistanz-ProblemBerechne für zwei gegebene Zeichenfolgen A und B

möglichst effizient die Editier-Distanz D(A,B) und eine minimale Folge von Editieroperationen, die A in B überführt.

i n f - - - o r m a t i k -

i n t e r p o l - a t i o n

Sequenzalignierung

Größere Protein/DNA Sequenzen

Rekursionsgleichung

Programm

Beispiel: ABCD,BCD, DB

Spurgraph der Editier-operationen

• 1 • 2 • 3 • 4

• 1 • 1 • 2 • 3

• 1 • 2 • 2 • 3

• 2 • 2 • 2 • 3

• 3 • 3 • 3 • 2

• B = a b a c

Subgraph der Editieroperationen

Spurgraph: Übersicht über alle möglichen Spuren zur

Transformation von A in B, gerichtete Kanten von Knoten (i, j)

zu (i + 1, j), (i, j + 1) und (i + 1, j + 1).

Gewichtung der Kanten entsprechen den Editierkosten.

Kosten nehmen entlang eines optimalen Weges monoton zu.

Jeder Weg mit monoton wachsenden Kosten von der linken oberen Ecke zu rechten unteren Ecke entspricht einer optimalen Spur.

Approximative Zeichenkettensuche

Gegeben: zwei Zeichenketten P = p1p2 ... pm ( Muster) und

T = t1t2 ... tn (Text)

Gesucht: Ein Intervall [j´, j], 1 j´ j n, so dass das Teilwort

Tj´ , j = tj´ ... tj das dem Muster P ähnlichste Teilwort

von T ist, d.h. für alle anderen Intervalle [k´ , k], 1 k´ k n, gilt: D(P,Tj´, j) D(P, Tk´, k)

Erster Ansatz

Naives Verfahren:

for all 1 j´ j n do

Berechne D(P,Tj´, j)

wähle Minimum

Betrachte verwandtes Problem:

• T• j

• i• E(i, j)

• PFür jede Textstelle j und jede Musterstelle i berechne die Editierdistanz des zu Pi ähnlichsten, bei j endenden Teilstücks Tj´,j von T.

AlgorithmusMethode:for all 1 j n do

Berechne j´, so dass D(P,Tj´, j) minimal ist

Für 1 i m und 0 j n sei:

Optimale Spur:

Pi = b a a c a a b c

Tj´, j = b a c b c a c

),(min,1´1, jjijjji

Rekursionsgleichung:

Bemerkung:

j´ kann für Ei-1, j-1, Ei – 1,j und Ei, j – 1 ganz verschieden sein.

Teilspur einer optimalen Spur ist eine optimale Teilspur.

Anfangsbedingungen:

E0,0 = E(, ) = 0

Ei,0 = E(Pj ,) = i

E0,j = E( ,Tj) = 0

Beobachtung:

Die optimale Editiersequenz von P nach Tj´, j beginnt nicht mit

einer Einfügung von tj´ .

Abhängigkeitsgraph

• 0 • 0 • 0 • 0

• 0 • 1 • 1 • 1

• 1 • 1 • 2 • 1

• 2 • 1 • 1 • 2

• 3 • 2 • 1 • 2

• 0 • 0 • 0 • 0

• 1 • 1 • 1 • 1

• 0 • 1 • 2 • 2

• 1 • 1 • 1 • 2

• 2 • 2 • 1 • 2

• 5 • 4 • 3 • 2 • 2 • 3 • 3 • 2 • 2 • 1

• T = a b b d a d c b c• P•

Gibt es im Abhängigkeitsgraphen einen Weg von E0, j´- 1 nach Ei, j , so ist Tj´, j ein zu Pi ähnlichstes, bei j endendes Teilstück von T mit

D(Pi, Tj´,j) = Ei, j

Übersicht

Teilmengen-Wörterbücher

Sei D eine Menge von n Teilmengen aus U.

Das SUBSET QUERY (CONTAINMENT QUERY) Problem fragt für q ob es ein p in D gibt mit q ist Teilmenge von p (p ist Teilmenge von q).

Ein Teilmengen Wörterbuch ist eine abstrakte Datenstruktur die Einfügen erlaubt und Teilmengen- (Supermengen-) Anfragen anbietet

Subzeichenketten- vs. Teilzeichenkettenmatching

Subzeichenkette: ADEK in Alphabet ABCD….XYZ Teilzeichenkette: STUV in Alphabet ABCD….XYZ

Anwendung Teilzeichenkettenmatching

Beispiel Subzeichenkettenmatching: Sokoban

Generierung größerer Muster

Anfragen mit Wildcards

Sei ? ein spezieller don’t care das jeden Buchstaben im Alphabet ersetzt (wildcard)

Gegeben eine Menge D von n Zeichenketten, dann beantwortet eine Datenstruktur für das PARTIAL MATCH Problem für eine Anfrage q (mit wildcards) ob es einen Eintrag q in D gibt, so dass q zu p passt

Kreuzworträtsel -Konstruktionsproblem

State-of-the-Art !?Combus „Crossword Puzzles as a Constraint Problem“ CP 2008: Anbulagan and Adi Botea (words 45K, UK 220K Einträge, T sek. N expan. Knoten)

Datenstruktur? 1. Array und Listen

Arrays: Platz O(2^m), m =|U| Zu groß in der Praxis Anfragezeit O(m)

Listen: Optimaler Platz O(n) Anfragezeit: O(nm) Zu groß in der Praxis

2. Tries(PARTIALMATCH)

3. Hashing (PARTIAL MATCH)

4. „Unlimited“ Branching Trees (CONTAINMENT QUERY)

Einfügen UBT

Suche UBT

Beispiel: Hex

Virtuelle Verbindungen

Zielmusterdatenbank

UBT-Adaption

Symmetrien

Algorithm Engineering „ Teilmengen-Suche “

Documents

Auf Der Suche Nach Sinn

Semantische Suche in audiovisuellen Daten

Übungen zur Arithmetik - hu-berlin.dedidaktik.mathematik.hu-berlin.de/...02_16_split_1.pdf · Mächtigkeit der Teilmengen ist gegeben – 20 aufgeteilt in Fünfergruppen Müller,

Inhalt VorgehensweiseSuche nach Einstellungsposten IndexDSC-HX5/HX5V/HX5C Inhalt Suche nach Vorgehensweise Suche nach MENU/ Einstellungsposten Index. 2DE Inhalt Suche nach Vorgehensweise

Recherche in juristischen Internet-Datenbanken€¦ · Empfehlung: Einfache Suche mit Titel – Autor wird nicht immer erkannt Suche mit Autorennamen über Erweiterte Suche . 24 Hinweise

Suche tynki

Lernprogramm zur erweiterten Suche und zu Feldern zur gelenkten Suche

Suche nach Objekten

Algorithm Engineering „Parallele Suche“

Semantic Web Services Suche

Algorithm Engineering Teilmengen-Suche Stefan Edelkamp

Die Suche nach Exoplaneten

Suchstrategien Greedy- Suche Uniform- Cost- Suche Tiefensuche A*- Suche Breitensuche Zerind Sibiu Timisoara Arad Oradea Riminicu V. Fagaras Pitesti Bucharest

Strikte lokale Suche - Professur für Theoretische ... · Implementierung der lokalen Suche (2/2) Mit welcher Nachbarlösung soll die Suche fortgesetzt werden? I Wenn die Nachbarschaft

10 Kombinatorische Suche und Rekursionsgleichun- gen · 124 10 KOMBINATORISCHE SUCHE UND REKURSIONSGLEICHUNGEN 10 Kombinatorische Suche und Rekursionsgleichun-gen Bisher meistens

Folien einfache suche

Algorithm Engineering „Teilmengen-Suche“ fileÜbersicht Speicherplatzsparende Wörterbücher Bit-State Hashing Hash-Compaction Subzeichenketten-Erkennung: Dynamische Programmierung

Informierte Suche. Überblick Best-first Suche Greedy best-first Suche A * Suche Heuristiken Lokale Suchalgorithmen Hill-climbing Simulated annealing Local

Suche mit Apache Lucene & Co

Semantische Suche