Closing-Session Frank Fischer Warum man mit Outlook AIDS bekämpfen kann... Frank Fischer Manager...

Preview:

Citation preview

Closing-Session Frank Fischer

Warum man mit Outlook AIDS bekämpfen kann...

Frank FischerManager Developer EvangelismMicrosoft Deutschland GmbHFrankFi@Microsoft.com

Agenda MS Research Verhindern von SPAM

Einige Ideen und deren technische Umsetzung

HIV hat sehr viel mit SPAM zu tun ;-) …oder warum ein Microsoftie auf der

12th Conference on Retroviruses and Opportunistic Infections spricht

Agenda MS Research Verhindern von SPAM

Einige Ideen und deren technische Umsetzung

HIV hat sehr viel mit SPAM zu tun ;-) …oder warum ein Microsoftie auf der

12th Conference on Retroviruses and Opportunistic Infections spricht

Warum Forschung ?

SPOT watch

Microsoft SPOT stamp

Berkeley Spec mote

Berkeley WeC mote

Sensoria WINS NG 2.0

iPAQ handheld

Hitachi mu-chip RFID

Gordon Bell’s Law: Technologischer Fortschritt ermöglicht durch jeweils neue, billigere Computer-Plattformen oder -Klassen in höheren Stückzahlen sich in jeder Dekade neu zu erfinden.

Microsoft Research 2005 Gegründet 1991 Derzeit 700 Forscher in über 55 Bereichen International anerkannte

Forschungsteams Ein Teil der R&D-Ausgaben von über 7

Milliarden US$ Standorte:

Redmond, Washington, San Francisco, Kalifornien, Cambridge, UK Beijing, VR China Mountain View, Kalifornien

Agenda MS Research Verhindern von SPAM

Einige Ideen und deren technische Umsetzung

HIV hat sehr viel mit SPAM zu tun ;-) …oder warum ein Microsoftie auf der

12th Conference on Retroviruses and Opportunistic Infections spricht

Wie schlimm ist SPAM? ~ 60% aller Email im Internet ist SPAM 12% der Benutzer verwendet >= 30

Minuten/Tag auf SPAM 25% der Email-Benutzer sagen, wegen

SPAM haben sie ihre Verwendung von Email reduziert

Die Ökonomie spricht für SPAM Das Absenden von SPAM kostet nur 0,01 Cent

pro Nachricht ! Wenn nur 1 von 100.000 Empfängern kauft und

man dabei $11 verdient, macht man Profit

SPAM ist nicht auf Email begrenzt… Peer-2-Peer-Netze Voice over IP Instant Messaging Im Prinzip kann man jeden Dienst,

der zum Austausch von Nachrichten offen steht mißbrauchen.

Aber Email nervt am meisten derzeit…

Mögliche Lösungen(Nur ein paar Highlights) Porto

Turing Tests, Geld, Rechenzeit Smart Proof (Andere: Blackhole Lists, Wegwerf-

Email- Adressen, etc.) Filter

Matching/Fuzzy Hashing Machine Learning

Porto

Das Grundproblem heißt Kostenlos Zwingt man jeden dazu, dafür zu zahlen wird

SPAM verschwinden Bezahle jede nach außen geschickte Email vor

dem Absenden oder warte auf eine Aufgabe

Verschiedene Artenvon Bezahlung Turing Test, Rechenzeit, Geld

Sender RecipientResponse

Message

Sender RecipientResponse

Message

Turing Tests (HIP, CAPTCHA)(Naor ’96) Sie schicken mir eine Mail; ich kenne Sie

nicht Sie bekommen von mir eine Aufgabe:

Schreiben Sie diese Zeichen ab

Ihre Antwort wird zu meinem Computer zurückgesandt

Erst jetzt wird die Nachricht in meinen Posteingang gelegt

Computational Puzzle(Dwork und Naor ’92)

Absender muss eine zeitaufwendige Aufgabe berechnen

Beispiel: Finde eine Hash-Kollision Einfach für den Empfänger zu überprüfen, hart

für den Sender zu lösen Berechnung braucht 10 Sekunden (oder 5

Minuten?) der Absender-CPU im Hintergrund

$$$Geld

Bezahle wirkliches Geld (1 Cent pro Nachricht?)

Nette Variation: Geld wird nur eingezogen, wenn Empfänger “Empfing SPAM”-Knopf drückt Ansonsten wird des dem Absender nicht

angerechnet Frei für Nicht-Spamer, teuer für Spamer

SmartProof Die meisten Challenge-Response-Systeme wollen

jede Nachricht überprüfen MSR hat einen Mashine-Learning-Algorithmus. Nur

verdächtige Mail bekommt eine Challenge.

Kann automatisch eine Rechenzeitaufgabe lösen Benutzer wird nicht gestört

Kann einen Turing-Test schicken Falls der Rechner nichts mit der

ersten Sorte Aufgabe anfangen kann

Kann einen Micro-PaymentProzess einleiten Sender Recipient

Response

Message

$chooses response

type

Sender RecipientResponse

Message

$chooses response

type

FiltertechnikenMatching/Fuzzy Hashing

Benutze “Honeypots” – Adressen, die nie Mail bekommen sollten (daher ist alles was dort ankommt sicher SPAM)

Halte Ausschau nach ähnlichen Nachrichten in echten Mailboxen Exakte Übereinstimmung kann man leicht

rauskicken Verwende Fuzzy Hashes

Diploma Guy Word Obscuring

Dplmoia Pragorm

Caerte a mroe prosoeprus

Diploma Guy Word Obscuring

Dipmloa Paogrrm

Cterae a more presporous

Diploma Guy Word Obscuring

Dimlpoa Pgorram

Cearte a more poosperrus

Diploma Guy Word Obscuring

Dpmloia Pragorm

Caetre a more prorpeosus

Diploma Guy Word Obscuring

Dplmoia Pragorm

Carete a mroe prorpseous

Noch mehr Diploma Guy

Diploma Guy ist ein richtig Guter

FiltertechnikenMachine Learning

MSR begann 1997 mit der Arbeit an diesem Thema Lerne SPAM und Nicht-SPAM zu unterscheiden Problem: Man braucht viel Trainingsdaten

Eine Armee von Freiwilligen, die Gut von Böse scheiden Wir fragten 100.000 Hotmail-Benutzer

Jeden Tag suchten wir zufällig eine Nachricht, die sie erhielten Fragten sie uns eine Einschätzung zu geben

Benutzen sie ihren Lieblingsalgorithmus (Bayesian Networks, Naïve Bayes, SVM, Maxent, Decision Trees, Neural Network, etc.)

Die entwickelte Technologie von MSR steckt in Outlook, Exchange, Hotmail, MSN und Entourage

Diploma Guy Word Obscuring

Dplmoia Pragorm

Carete a mroe prorpseous

Lerne, dassLerne, dass CareteCarete,, mroemroe,, flulflul alles ziemlich alles ziemlich doofe Worte sinddoofe Worte sind

Noch mehr Diploma Guy

Lerne, dass ‘‘‘ und ‘‘‘‘‘‘‘‘‘ und sogar r und B doofe Worte sind

Agenda MS Research Verhindern von SPAM

Einige Ideen und deren technische Umsetzung

HIV hat sehr viel mit SPAM zu tun ;-) …oder warum ein Microsoftie auf der

12th Conference on Retroviruses and Opportunistic Infections spricht

Machine Learning und HIV

Die Idee

Eingangsbild

Eine Menge von Schnipsel

Epitome

Epitome und biologische Sequenzen Proteine, DNA und RNA Sequenzen interagieren mit

ihrer Umwelt durch Bindungsprozess

Bindung findet lokal an bestimmte Muster statt

Organismen entwickelten die Fähigkeit bestimmte Bindungsprozess zu benutzen oder zu verhindern

Resultierender Effekt: Unabhängige oder schwach-gebundene Kräfte wirken auf überlappende Untersequenzen

HIV HIV benutzt eine menschliche Zelle zur

Vermehrung

Die infizierte Zelle schneidet kleine Stücke der HIV Proteine ab und transportiert sie an die Oberfläche

Killer-T-Zellen erkennen fremde Proteinmuster an der Oberfläche und zerstören infizierte Zellen

Impfstoffe bereiten die T-Zellen darauf vor bestimmte Muster zu attackieren

Ein Beispiel bekannter Epitope in einer HIV Sequenz

Ein Impfstoff gegen HIV/AIDS Typische Impfstoffe sind sehr ähnliche Kopien des

Virus, gegen den geimpft wird

HIV mutiert aber derart schnell, dass herkömmliche Techniken versagen

Machine Learning ermöglicht es uns eine kompakte Form eines “Pseudo-Virus” zu erzeugen, der die Verschiedenheit der HIV-Stämme und Verästelungen abdeckt

Machine Learning Ansatz für das Impfstoffdesign

Benutze Proben von HIV-Stämmen verschiedener Patienten

Erzeuge ein Modell, welches kompakt so viele Epitope (oder davon abgeleitete) wie möglich abbildet

Klingt doch irgendwie wie SPAM-Filter… ;-)

Epitope am Beispiel

Einfaches Beispiel 5 105--- RGGKLD --- ERFAVN --- RGEV--- KGEKLD --- DRFALN --- KEDL--- KGEKLD --- ERFAVN --- KEEV--- RGGKLD --- DRFALN --- RGDL--- SGGKLD --- ERFAVN --- SGEV--- KGEKLD --- ERFAVN --- KEEV--- RGGKLD --- ERFAVN --- RGEV--- SGGKLD --- ERFAVN --- SGEV--- KGEKLD --- ERFAVN --- KEEV Modeltyp Anzahl der FehlerConsensus:--- KGGKLD --- ERFAVN --- 1+3+1+3+1+1+1+1+1 = 13Zwei Cluster:--- RGGKLD --- ERFAVN --- 0+2+0+2+1+0+0+1+0 = 6 --- KGEKLD --- ERFAVN --- Zwei Muster aus unserem Modell--- VRGGKLDERFAVNGR VKGEKLDDRFALN --- ---

…und was dabei rauskommt

Ihr Potenzial. Unser Antrieb.

Recommended