Upload
claramond-geiser
View
113
Download
2
Tags:
Embed Size (px)
Citation preview
Closing-Session Frank Fischer
Warum man mit Outlook AIDS bekämpfen kann...
Frank FischerManager Developer EvangelismMicrosoft Deutschland [email protected]
Agenda MS Research Verhindern von SPAM
Einige Ideen und deren technische Umsetzung
HIV hat sehr viel mit SPAM zu tun ;-) …oder warum ein Microsoftie auf der
12th Conference on Retroviruses and Opportunistic Infections spricht
Agenda MS Research Verhindern von SPAM
Einige Ideen und deren technische Umsetzung
HIV hat sehr viel mit SPAM zu tun ;-) …oder warum ein Microsoftie auf der
12th Conference on Retroviruses and Opportunistic Infections spricht
Warum Forschung ?
SPOT watch
Microsoft SPOT stamp
Berkeley Spec mote
Berkeley WeC mote
Sensoria WINS NG 2.0
iPAQ handheld
Hitachi mu-chip RFID
Gordon Bell’s Law: Technologischer Fortschritt ermöglicht durch jeweils neue, billigere Computer-Plattformen oder -Klassen in höheren Stückzahlen sich in jeder Dekade neu zu erfinden.
Microsoft Research 2005 Gegründet 1991 Derzeit 700 Forscher in über 55 Bereichen International anerkannte
Forschungsteams Ein Teil der R&D-Ausgaben von über 7
Milliarden US$ Standorte:
Redmond, Washington, San Francisco, Kalifornien, Cambridge, UK Beijing, VR China Mountain View, Kalifornien
Agenda MS Research Verhindern von SPAM
Einige Ideen und deren technische Umsetzung
HIV hat sehr viel mit SPAM zu tun ;-) …oder warum ein Microsoftie auf der
12th Conference on Retroviruses and Opportunistic Infections spricht
Wie schlimm ist SPAM? ~ 60% aller Email im Internet ist SPAM 12% der Benutzer verwendet >= 30
Minuten/Tag auf SPAM 25% der Email-Benutzer sagen, wegen
SPAM haben sie ihre Verwendung von Email reduziert
Die Ökonomie spricht für SPAM Das Absenden von SPAM kostet nur 0,01 Cent
pro Nachricht ! Wenn nur 1 von 100.000 Empfängern kauft und
man dabei $11 verdient, macht man Profit
SPAM ist nicht auf Email begrenzt… Peer-2-Peer-Netze Voice over IP Instant Messaging Im Prinzip kann man jeden Dienst,
der zum Austausch von Nachrichten offen steht mißbrauchen.
Aber Email nervt am meisten derzeit…
Mögliche Lösungen(Nur ein paar Highlights) Porto
Turing Tests, Geld, Rechenzeit Smart Proof (Andere: Blackhole Lists, Wegwerf-
Email- Adressen, etc.) Filter
Matching/Fuzzy Hashing Machine Learning
Porto
Das Grundproblem heißt Kostenlos Zwingt man jeden dazu, dafür zu zahlen wird
SPAM verschwinden Bezahle jede nach außen geschickte Email vor
dem Absenden oder warte auf eine Aufgabe
Verschiedene Artenvon Bezahlung Turing Test, Rechenzeit, Geld
Sender RecipientResponse
Message
Sender RecipientResponse
Message
Turing Tests (HIP, CAPTCHA)(Naor ’96) Sie schicken mir eine Mail; ich kenne Sie
nicht Sie bekommen von mir eine Aufgabe:
Schreiben Sie diese Zeichen ab
Ihre Antwort wird zu meinem Computer zurückgesandt
Erst jetzt wird die Nachricht in meinen Posteingang gelegt
Computational Puzzle(Dwork und Naor ’92)
Absender muss eine zeitaufwendige Aufgabe berechnen
Beispiel: Finde eine Hash-Kollision Einfach für den Empfänger zu überprüfen, hart
für den Sender zu lösen Berechnung braucht 10 Sekunden (oder 5
Minuten?) der Absender-CPU im Hintergrund
$$$Geld
Bezahle wirkliches Geld (1 Cent pro Nachricht?)
Nette Variation: Geld wird nur eingezogen, wenn Empfänger “Empfing SPAM”-Knopf drückt Ansonsten wird des dem Absender nicht
angerechnet Frei für Nicht-Spamer, teuer für Spamer
SmartProof Die meisten Challenge-Response-Systeme wollen
jede Nachricht überprüfen MSR hat einen Mashine-Learning-Algorithmus. Nur
verdächtige Mail bekommt eine Challenge.
Kann automatisch eine Rechenzeitaufgabe lösen Benutzer wird nicht gestört
Kann einen Turing-Test schicken Falls der Rechner nichts mit der
ersten Sorte Aufgabe anfangen kann
Kann einen Micro-PaymentProzess einleiten Sender Recipient
Response
Message
$chooses response
type
Sender RecipientResponse
Message
$chooses response
type
FiltertechnikenMatching/Fuzzy Hashing
Benutze “Honeypots” – Adressen, die nie Mail bekommen sollten (daher ist alles was dort ankommt sicher SPAM)
Halte Ausschau nach ähnlichen Nachrichten in echten Mailboxen Exakte Übereinstimmung kann man leicht
rauskicken Verwende Fuzzy Hashes
Diploma Guy Word Obscuring
Dplmoia Pragorm
Caerte a mroe prosoeprus
Diploma Guy Word Obscuring
Dipmloa Paogrrm
Cterae a more presporous
Diploma Guy Word Obscuring
Dimlpoa Pgorram
Cearte a more poosperrus
Diploma Guy Word Obscuring
Dpmloia Pragorm
Caetre a more prorpeosus
Diploma Guy Word Obscuring
Dplmoia Pragorm
Carete a mroe prorpseous
Noch mehr Diploma Guy
Diploma Guy ist ein richtig Guter
FiltertechnikenMachine Learning
MSR begann 1997 mit der Arbeit an diesem Thema Lerne SPAM und Nicht-SPAM zu unterscheiden Problem: Man braucht viel Trainingsdaten
Eine Armee von Freiwilligen, die Gut von Böse scheiden Wir fragten 100.000 Hotmail-Benutzer
Jeden Tag suchten wir zufällig eine Nachricht, die sie erhielten Fragten sie uns eine Einschätzung zu geben
Benutzen sie ihren Lieblingsalgorithmus (Bayesian Networks, Naïve Bayes, SVM, Maxent, Decision Trees, Neural Network, etc.)
Die entwickelte Technologie von MSR steckt in Outlook, Exchange, Hotmail, MSN und Entourage
Diploma Guy Word Obscuring
Dplmoia Pragorm
Carete a mroe prorpseous
Lerne, dassLerne, dass CareteCarete,, mroemroe,, flulflul alles ziemlich alles ziemlich doofe Worte sinddoofe Worte sind
Noch mehr Diploma Guy
Lerne, dass ‘‘‘ und ‘‘‘‘‘‘‘‘‘ und sogar r und B doofe Worte sind
Agenda MS Research Verhindern von SPAM
Einige Ideen und deren technische Umsetzung
HIV hat sehr viel mit SPAM zu tun ;-) …oder warum ein Microsoftie auf der
12th Conference on Retroviruses and Opportunistic Infections spricht
Machine Learning und HIV
Die Idee
Eingangsbild
Eine Menge von Schnipsel
Epitome
Epitome und biologische Sequenzen Proteine, DNA und RNA Sequenzen interagieren mit
ihrer Umwelt durch Bindungsprozess
Bindung findet lokal an bestimmte Muster statt
Organismen entwickelten die Fähigkeit bestimmte Bindungsprozess zu benutzen oder zu verhindern
Resultierender Effekt: Unabhängige oder schwach-gebundene Kräfte wirken auf überlappende Untersequenzen
HIV HIV benutzt eine menschliche Zelle zur
Vermehrung
Die infizierte Zelle schneidet kleine Stücke der HIV Proteine ab und transportiert sie an die Oberfläche
Killer-T-Zellen erkennen fremde Proteinmuster an der Oberfläche und zerstören infizierte Zellen
Impfstoffe bereiten die T-Zellen darauf vor bestimmte Muster zu attackieren
Ein Beispiel bekannter Epitope in einer HIV Sequenz
Ein Impfstoff gegen HIV/AIDS Typische Impfstoffe sind sehr ähnliche Kopien des
Virus, gegen den geimpft wird
HIV mutiert aber derart schnell, dass herkömmliche Techniken versagen
Machine Learning ermöglicht es uns eine kompakte Form eines “Pseudo-Virus” zu erzeugen, der die Verschiedenheit der HIV-Stämme und Verästelungen abdeckt
Machine Learning Ansatz für das Impfstoffdesign
Benutze Proben von HIV-Stämmen verschiedener Patienten
Erzeuge ein Modell, welches kompakt so viele Epitope (oder davon abgeleitete) wie möglich abbildet
Klingt doch irgendwie wie SPAM-Filter… ;-)
Epitope am Beispiel
Einfaches Beispiel 5 105--- RGGKLD --- ERFAVN --- RGEV--- KGEKLD --- DRFALN --- KEDL--- KGEKLD --- ERFAVN --- KEEV--- RGGKLD --- DRFALN --- RGDL--- SGGKLD --- ERFAVN --- SGEV--- KGEKLD --- ERFAVN --- KEEV--- RGGKLD --- ERFAVN --- RGEV--- SGGKLD --- ERFAVN --- SGEV--- KGEKLD --- ERFAVN --- KEEV Modeltyp Anzahl der FehlerConsensus:--- KGGKLD --- ERFAVN --- 1+3+1+3+1+1+1+1+1 = 13Zwei Cluster:--- RGGKLD --- ERFAVN --- 0+2+0+2+1+0+0+1+0 = 6 --- KGEKLD --- ERFAVN --- Zwei Muster aus unserem Modell--- VRGGKLDERFAVNGR VKGEKLDDRFALN --- ---
…und was dabei rauskommt
Ihr Potenzial. Unser Antrieb.