Web ranking (الگوریتم های رتبه بندی سایت)

  • View
    578

  • Download
    11

  • Category

    Software

Preview:

Citation preview

الگوریتم های رتبه بندی سایت

امیرحسین باب الحکمیسروش صالحی

Amir.Babolhakami@gmail.com

فهرست

3 .................................................................................................................... مقدمه

( ..................................................................................... Web Rankingرتبه بندی سایت )5

Page Ranking

Algorithm ......................................................................................... 7

Ant Colony

Algorithm ........................................................................................... 10

الگوریتم

ترکیبی ......................................................................................................

..12

Page Ranking Developed

Algorithm ........................................................................ 15

HITS

Algorithm ................................................................................................

.... 17

iRank

Algorithm ................................................................................................

... 22

BlogRank

Algorithm ..............................................................................................

25

Reference ............................................................................................................ 30

2/30

مقدمهدلیل نیاز به رتبه بندی سایت

حجم زياد اطالعاتناهمگني و غيرساختار يافته بودن اطالعاترشد نمايي، پويايي زیاد

بخش رتبه بندي يكي از مهمترين قسمت هاي موتورجستجو مي باشد .

3/30

مقدمه

"فرآيندي است كه كيفيت يك صفحه توسط موتور جستجو رتبه بندي "تخمين زده مي شود.

مزیت های رتبه بندی سایت ها جلوگیری ازWeb Spamکاهش فضای جستجو

4/30

(Web Rankingرتبه بندی سایت )

انواع روش های رتبه بندی سایت ها مبتنی بر محتوا)استفاده شده در بازيابي اطالعات

سنتي(TF-IDF )در مدل برداری( BM25)در مدل احتمال(

5/30

(Web Rankingرتبه بندی سایت )

)مبتنی بر ساختار)استفاده شده در وب فعلي Page Ranking Algorithm

Page Ranking Developed Algorithm

Ant Colony Algorithm

الگوریتم ترکیبی

HITS Algorithm

6/30

Page Ranking Algorithm

جز اولین الگوریتم های رتبه بندی صفحات وب توسط سایتgoogleاستفاده می شود ویژگی های الگوریتم

اهمیت به صفحات اشاره شده به صفحه و تعداد لینک های خارج شده ازصفحات

اهمیت به صفحه های ارجاع داده شدهکه صفحات با ازجاع بیشتر داری اهمیت بیشتری

7/30

Page Ranking Algorithm

که همان صفحه جاری است و می خواهیم رتبه آن را محاسبه کنیم، می u: رتبه صفحه •باشد.

: احتمال اینکه کاربر به صورت مداوم روی لینک ها کلیک می کند.•احتمال اینکه کاربر به صورت تصادفی به یک صفحه تصادفی پرسپش کند. :••: Page Rank.صفحه می باشد : درجه خروجی صفحه است.•مجموعه گره هایی است که یک لینک ورودی به صفحه دارند. :•نکته: یک فاکتور تعدیل است که یک مقدار بین تنظیم می شود. معموال برای گراف •

وب به تنظیم می شود.

که همان صفحه جاری است و می خواهیم رتبه آن را محاسبه کنیم، می u: رتبه صفحه •باشد.

: احتمال اینکه کاربر به صورت مداوم روی لینک ها کلیک می کند.•احتمال اینکه کاربر به صورت تصادفی به یک صفحه تصادفی پرسپش کند. :••: Page Rank.صفحه می باشد : درجه خروجی صفحه است.•مجموعه گره هایی است که یک لینک ورودی به صفحه دارند. :•نکته: یک فاکتور تعدیل است که یک مقدار بین تنظیم می شود. معموال برای گراف •

وب به تنظیم می شود.

8/30

Page Ranking Algorithm

مزایا در مقابل Spamمبارزه می کند .یک صفحه مهم است اگر صفحات نقطه گذاری شده به آن مهم باشد مقادیر الگوریتم رتبه بندی صفحه از تمام صفحات محاسبه می شود

و ترجیحا در زمان جستجو بدون ارتباط ذخیره شود

معایبجستجو مستقل باشد بین صفحاتی که در مجموع توانایی دارند و صفحاتی که بر روی عنوان

جستجو مع�تبر است وجه تمایز قائل نمی شود9/30

Ant Colony Algorithm

راه حلی چند عامله برای مسائل بهینه سازی

این الگوریتم براساس مطالعه و مشاهده روی مورچگانارائه گردید

10/30

Ant Colony Algorithm

𝜏𝑖) +1(=)1− (.𝑡 𝜌 𝜏𝑖𝑗) (+ Δ𝑡 𝜏 𝑖𝑗) (𝑡 𝜏𝑖𝑗 میزان فرومون بین گره های i و jرا نشان می دهد 𝜌( 0< ≤1 میزان تبخیر فرمون است𝜌)Δ𝜏𝑖𝑗 مقدار فرومونی است که مورچه K ام بر روی یال

هایی که مالقات کرده است می ریزد.

11/30

الگوریتم ترکیبی

الهام گرفتن از دو الگوریتمPageRank و اجتماع مورچگان

این الگوریتم تلفیقی ازکاربرد وب کاوی و ساختار وب کاویاست

12/30

الگوریتم ترکیبی

فایل ثبت وب سرور

پیش پردازش فایل ثبت

استخراج ویژگ�ی های

کاربران

سازی بردار

ساخت پروفایل کاربران

پروفایل کاربران

استفاده از اجتماع مورچگان

بندی رتبهصفحات

13/30

الگوریتم ترکیبی

رتبه صفحه : u که همان صفحه جاری است و می خواهیم رتبه آن را محاسبه کنیم، می باشد.

.احتمال اینکه کاربر به صورت مداوم روی لینک ها کلیک می کند :: .احتمال اینکه کاربر به صورت تصادفی به یک صفحه تصادفی پرسپش کند: PageRank.صفحه می باشد .درجه خروجی صفحه است :: .مجموعه گره هایی است که یک لینک ورودی به صفحه دارند مقدار فرومون قرار گرفته بر روی صفحه: u.است نکته: یک فاکتور تعدیل است که یک مقدار بین تنظیم می شود. معموال برای

گراف وب به تنظیم می شود.14/30

Page Ranking Developed Algorithm

الگ�ویتم توسعه یافته الگوریتم Weighted PageRankالگوریتم PageRank.است

نحوه رتبه دهی

اهمیت به لینک های ورودی و خروجی

امتیاز رتبه بندی مبنی بر محبوبیت صفحات توزیع شده

15/30

Page Ranking Developed Algorithm

مدل های مختلف برای این الگوریتم موجود است که بعضی ازآن ها را بیان می کنیم:

مبتنی بر شبکه های عصبی

مبتنی بر زنجیره مارکوف

مبتنی بر بازدید لینک ها

مبتنی بر فاکتور زمان16/30

HITS Algorithm

قبل از اجرای الگوریتمHITSچه اتفاقی می افتد؟ ( استخراج مرتبط ترین صفحاتRoot Set)

استخراج صفحاتی که به مجموعهRoot لینک داده و یا پیوند زده (Base Rootشده است )

17/30

HITS Algorithm

به هر صفحه یک امتیازHub و یک امتیاز Authorityداده می شود Authorityتعداد لینک های وارد شده به سایت هستند :Hubتعداد لینک های خارج شده از سایت هستند :

یکAuthority خوب توسط مجموعه ای مناسب از Hub اشاره شده است وبلعکس.

:حال نیاز به تشکیل گرافی با ویژگی زیر داریم 1 ,

0 , 𝐿𝑖𝑗

18/30

HITS Algorithm

حال مقادیرAuthority و Hub به صورت زیر محاسبه می شود:

 

  مقادیر اولیهHub و Authority است.1 برابر

19/30

HITS Algorithm

مزیتHITS:توانایی رتبه بندی صفحات برطبق موضوع جستجو دارد توانایی بیشتر در فراهم کردن صفحات مربوط بهHub و

Authority.را دارد  

معایب الگوریتمHITS:.در زمان جستجو ناکارآمد است.ارزیابی زمان جستجو کند و تدریجی است

20/30

بالگصفحاترتبه بندی iRankBlogRank

21/30

iRank Algorithm

برپایه الگوریتمPageRank

ساختار ضمنی و غیرصریح گراف فضای بالگ را در رتبهدهی صفحات اطالعات موجود در تاثیر می دهیم

بر پایه ویژگی زمان در فضای وبالگ

وزن دهی یال های گراف براساس فاصله زمانی پیونددادن است

22/30

iRank Algorithm

برابر فاصله زمانی که دو وبالگ به یک مطلب یا URL.اشاره می کنتد

هر چه فاصله زمانی فرآیند لینک دادن کمتر باشد، امتیاز پیوند بیشتراست)چرا؟(

محاسبه مقادیر پیوندها، اگر بالگbj به ni، URL متفاوت اشاره کرده باشد

مجموع وزن یال های خارج شده از یک بالگ برابر یک خواهد بود

بعد از تولید این گراف، الگوریتمPageRank23/30 روی این گراف اعمال می شود

BlogRank Algorithm

یکی از جدی ترین الگوریتم ها در زمینه رتبه دهی بالک

ارائه شد2006در سال

نسخه تعمیم یافتهPageRankمی باشد

24/30

BlogRank Algorithm نحوه محاسبهBlogRankیک صفحه

B(A): BlogRank بالگ Aاست B(Ui) نیز BlogRank برای بالک Ui است که به بالگ Aپیوند دارد d ضریب تعدیل استفاده شده در الگوریتم PageRankاست FN(Un→A) مقدار احتمال انتخاب بالگ A توسط کاربر بعد از مشاهده بالگ n

می باشد. است.Aاین مقدار، نشان دهنده تصور کاربر از مطلوبیت بالگ

25/30

BlogRank Algorithm

چه زمانیBlogRank مشابه PageRankمی باشد؟ اگرZبالگی با Tپیوند خروجی باشد

N تعداد مجموع خروجی ها از بالگ z باشد

برای حرکت کاربر از یک صفحه بالگ به پیوندهای خروجی نباید احتمالیکسان داد.

26/30

BlogRank Algorithm

را دارای اهمیت می داند ک�ه:j بالگ هایی نظیر )FN)Uz→jبرای محاسبه ( مشترک باشد.Category متع�لق به دسته )zهمراه با بالگ 1( دارای تعداد پیوند های یکسان به سایت های مختلف zهمراه با بالگ 2(

باشد.

27/30

BlogRank Algorithm

L تعداد پیوندها از بالگ jاست T تعداد دسته هایی است که j و z.هر دو به آنها تعلق دارندU تع�داد کاربرانی است که پست مشترک به j و zفرستاده اند N نیز تعداد پیوندهای مشترک به سایت های مختلف در بالگ های jو z می

باشدwT، wU و wN ضرایبی برای ،T،N و Uهستند

بعد از وزن دهی به بالگ ها، الگوریتمPageRankبدست می آید

28/30

Reference

1( Page, L., Brin, S., Motwani, R., Winograd, T., "The PageRank Citation Ranking:Bringing Order to the Web", Technical Report. Stanford InfoLab, 1999

2( Xing, W., Ghorbani, A., "Weighted PageRank Algorithm", Proceedings of the Second Annual Conference on Communication Networks and Services Research )CNSR’04(, IEEE, pp. 305- 314, 2004.

3( Dorigo, M., Maniezzo, V., Colorni, A., "Ant System:Optimization by a Colony of Cooperating Agent", IEEE, vol.26, pp.29-41,1996.

4( Marc Najork, Hugo Zaragoza,Michael Taylor, “HITS on the web: How dose it Compare”?

5( Ko Fujimmura, Takafunmi Inoue and Masayuki Sugisaki. The EigenRumor algorithm for ranking blogs. In Workshop on the Weblogging Ecosystem, 2005.

29/30

سخن آخر

Question?

30/30