View
239
Download
1
Category
Preview:
Citation preview
Content based AntiWebSpammer
מבצעים: אבישי ליבנה
איציק בן בסט
מנחה: מקסים גורביץ
מצגת סיום
חורף תשס"ז
הטכניון - המעבדה לתוכנה
תוכן המצגת
מוטיבציה•
יעדי הפרויקט•
רקע•
סקירה ארכיטקטונית של המערכת•
אופן פעולת המערכת•
סקירת תוצאות•
סיכום•
מוטיבציהספאם היא תופעה מוכרת שנכנסה לתודעה הציבורית עוד בשנים•
הראשונות של רשת האינטרנט.
המונח מוכר בעיקר בהקשר של אימייל, אך קיים בתחומים שונים.•
בפרוייקט נתמקד בתחום מנועי החיפוש. ברשת קיימים אתרים שכל•
מטרתם לפרסם, תוך כדי פגיעה בחווית הגלישה והחיפוש של
המשתמשים.
הדרך העיקרית להתמודדות עם ספאם ברשת היא ע"י סריקת•
הלינקים באתרים ובניית גרף אמינויות תלויות.
בפרויקט נבחן דרך חלופית המתבססת על סינון ספאם באמצעות •
תוכן האתרים בלבד.
הפרויקטיעדי על סמך תוכנם.HTMLמימוש מערכת שמתייגת דפי •
המערכת תתייג כל דף כספאם או כדף חוקי.–
פעולת המיון תתבצע על סמך תוכן הדפים בלבד.–
קבלת ההחלטות תתבצע באמצעות עצי החלטה.–
הפרויקט יממש את המאמר–
Detecting Spam Web Pages through Content Analysis,
By Alexandros Ntoulas, Marc Najork, Mark Manasse and Dennis Fetterly.
.HTML, Decision treesהכרת –
רקע – סינון ספאםהדרך הנפוצה להתמודד עם ספאם היא סריקת לינקים ובניית
גרף תלויות.
דורשת משאבים ומידע על דפים אחרים כדי לקבל החלטה •
על דף בודד.
(.link farmsקיימות דרכים להטעות את מנוע החיפוש )•
סינון ע"י תוכן – מספיק לבחון את תוכן הדף הבודד.•
צורך פחות משאבים, ניתן למיקבול.•
ניתן לשלב בין השיטות )סינון מקדים, סינון אינטנסיבי, •
דירוג(
)Decision trees(רקע – עצי החלטה כלי לקבלת החלטות•
אופן הפעולה:•
סריקת התכונות השונות ומציאת המבחנים שיוצרים את –
ההפרדה הטובה ביותר.
יצירת צמתי מבחן, בד"כ השוואה של תכונה בודדת עם ערך.–
בהתאם לתוצאת ההשוואה תקבע אחת משתי האפשרויות –
להמשך הבדיקה.
עלה בעץ מציין קבלת החלטה )תוצאת המיון, ערך התכונה –
הנבדקת(.
סקירת המערכתאיפיון תכונות
המערכת תבצע ניתוח דפים ותיצור מכל דף רשימה של תכונות.•
המערכת תוכל לבנות החלטות בהתבסס על דפים שתויגו •
מראש.
המערכת תוכל למיין דפים בעזרת עץ ההחלטות שנבנה בשלב •
האימון.
כל תת פעולה יכולה להתבצע בנפרד.•
ניתן לשמור את עץ ההחלטות / ניתוח הדפים לשימוש חוזר.•
סקירת המערכתתכונות הדפים הנבדקות
• Words in page
• Words in title
• Average length of words
• Amount of anchor text
• Fraction of visible content
• Compressibility
• Fraction of page drawn from popular keywords
• Fraction of popular keywords
Parser
Trainer Decision Tree
Classifier
Parsed pages
אופן פעולת המערכת
סקירת תוצאות
Recall Precision
Spam 71.5% 60.6%
Non-spam 95.3% 96.9%
Match rate = 92.7%
Recall – spam matches out of real spam.Precision – spam matches out of tagged as spam.
סקירת תוצאותnumber of words
0%
2%
4%
6%
8%
10%
12%
14%
16%
18%
spam
non-spam
סקירת תוצאות
סקירת תוצאותAverage word length
0%
1%
2%
3%
4%
5%
6%
7%
8%
spam
non-spam
סקירת תוצאות
סקירת תוצאותnumber of words
0%
2%
4%
6%
8%
10%
12%
14%
16%
18%
spam
non-spam
Average word length
0%
1%
2%
3%
4%
5%
6%
7%
8%
spam
non-spam
מסקנות ותובנות
למספר הדפים שמשמשים לבניית העץ יש השפעה •משמעותית על ביצועיו.
יש לתת יחס מיוחד לדפים קטנים באופן משמעותי •שמכניסים רעש למערכת.
עצי החלטה מדויקים מדי )אנטרופיה נמוכה( עלולים •להתאים רק לנתונים שעל פיהם הם נבנו, תוך פגיעה
בביצועיהם על דפים חדשים.התכונות שנבחנו בפרויקט לא מספיקות כדי לבצע מיון •
ברמה מספיק טובה, יש לשלב תכונות נוספות בבדיקה.
סיכום העבודהיעדי הפרויקט שהושגו:
.למידת המאמר והרקע התאורטי הכרה והתנסות עם החבילותHTMLParser, jaDT.
.מימוש האפליקציה והרצת סימולציות
אפשרויות המשך לפרויקטים עתידיים: בדיקת התכונות הנוספות המתוארות במאמר(n-
grams.)
מימושDecision tree.חלופי
.)הוספת כלים נוספים למיון )לא מבוססי תוכן
.הטמעה במנוע חיפוש
It was fun!
Let’s do it again…
Recommended