مقاله دانشگاهی -بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن … |
S
A B C
۱ ۵ ۱۵
S
۰
شکل ۳-۱۰ مراحل رسیدن به هدف با بهره گرفتن از روش UCS ]41[
۳-۱۲-۲ جستجوی آگاهانه یا اکتشافی
در روش های جستجوی ناآگاهانه در بدترین حالت باید تمام گره های فضای حالت برای رسیدن به پاسخ بررسی شوند، حال اگر تعداد گره ها خیلی زیاد باشند، این روش ها در زمان قابل قبول، هدف موردنظر را نمی یابند. برای رفع این مشکل از روش های جستجوی آگاهانه استفاده می شود. در این روش ها علاوه بر تعریف مسئله، راه حل هایی برای رسیدن به هدف نیز ارائه می شود. به عبارت دیگر، در این الگوریتم ها اطلاعاتی در مورد اینکه کدام یک از حالات غیرهدف نسبت به بقیه حالات مناسب ترند نیز وجود دارد]۲۲[. درحقیقت، هدف در جستجوهای آگاهانه، یافتن راه کارهایی است که توسط آن ها به جای پیمایش تمام گره های فضای حالت، فقط زیرمجموعه ای از آن ها را بسط دهیم. به همین دلیل، استراتژی جستجو موجود در این روش ها با بهره گرفتن از یک تابع کشف f(n)[119]، بهترین نود را در هر مرحله گسترش
می دهد بنابراین می توان گفت روش های جستجوی آگاهانه شامل دو قسمت کلی استراتژی جستجو و تابع کشف می باشند]۵۲[. در ادامه به شرح برخی از مهمترین استراتژی های جستجوی آگاهانه خواهیم پرداخت.
۳-۲۱-۲-۱ حرکت بهترین-شروع[۱۲۰]
الگوریتم های مختلفی برای روش بهترین-شروع وجود دارند که می توان به خزنده متمرکز، جستجوی کوسه ای، عنکبوتهای اطلاعاتی و… اشاره کرد. در روش بهترین-شروع زمانی به وجودآورنده یک صفحه مانند A از صفحه خود به صفحـه دیگری مانند B لینک برقرار می کند که B از نظر A ارزشمند باشد. یکی از معیارهای بهترین بودن، استفاده از الگوریتم های رتبه بندی صفحات می باشد که واحد کنترل با توجه به رتبه هر صفحه، صفحات را انتخاب کرده و به واحد واکشی می فرستد. به طور نسبی می توان گفت که از نظر واحد کنترل صفحه ای دارای رتبه ی بالاتری است که لینک های بیشتری به آن برقرار شده باشد]۳۵ و ۵۴[. بنابراین می توان گفت که از نظر خزنده هایی که از حرکت بهترین-شروع استفاده می کنند صفحه ای با ارزش تر است که]۴۲[:
- لینک های بیشتری به آن صفحه اشاره کنند. برقراری لینک های بیشتر به یک صفحه نشانگر اهمیت و محبوبیت آن صفحه خواهد بود.
- هر چه این لینکها از صفحات معتبرتری برقرار شود آن صفحه دارای اهمیت بیشتری خواهد بود.
- در صورتیکه از صفحه موردنظر به سایر صفحات لینک برقرار شود از ارزش و اهمیت صفحه موردنظر کاسته خواهد شد.
می توان رتبه یک صفحه را از طریق Eq (3-1) زیر محاسبه نمود]۳۵[.:
Eq (3-1)
در فرمول بالا U نشانگر صفحه اصلی،FU نشانگر صفحاتی که از صفحه اصلی U به آنها لینک برقرار شده است و BU نشان دهنده ی صفحاتی است که به صفحه اصلی U لینک برقرار نموده اندR(V) نیز رتبه صفحات برقرارکننده لینک به صفحه اصلی U می باشد. با بهره گرفتن از نتایج این فرمول می توان پاسخ های بهتر و دقیق تری را در اختیار کاربران قرار داد اما ناجورک و وینر(۲۰۰۱) در عمل ثابت کردند که با توجه به هزینه و زمان بالای رتبه بندی صفحات وب و همچنین عدم ثبات رتبه صفحات در هنگام بایگانی، روش اول سطح به نسبت روش رتبه بندی بهتر عمل می نماید. لینک ها به وسیله محاسبات ساده از طریق شباهت لغوی بیـن عناوین کلمـات کلیدی و صفحات منبع انتخاب می شوند. بنابراین تشابه بین یک صفحه p و عناوین کلمات کلیدی، برای تخمین ارتباط صفحاتی که توسط p اشاره شد به کار می رود وURL با بهترین تخمین برای خزیدن انتخاب می شود. همچنین از تشـابه کسینـوسی استفـاده شده و لینک های با پایین ترین امتیاز تشـابه از محدوده حذف می گـردند]۵۴[. شکل ۳-۱۱ یک خزنده با استـراتژی بهترین-شروع را نمایش می دهد.
Web page
Link
FIFO Queue
Link estimator
شکل ۳-۱۱ یک خزنده با استراتژی بهترین-شروع ]۳۵[
تابع ()sim در Eq (3-2) تشابه کسینوسی بین موضوع و صفحه را بر می گرداند]۳۶[:
Sim(q , p) = Eq (3-2)
در Eq (3-2)، q موضوع مورد نظر، p صفحه واکشی شده و fkd فرکانس واژه k در d می باشد. الگوریتم یک خزنده با استراتژی بهترین-شروع به صورت شکل ۳-۱۲ می باشد:
BFS (topic, starting_urls) {
foreach links (starting_urls) {
enqeueu(frontier, link);
}
While (visited < MAX_PAGES) {
link := dequeue_top_link(frontier);
doc := fetch(link);
score := sin(topic, doc);
enqeueu (frontier, extract_links(doc), score);
if (#frontier > MAX_BUFFER) {
dequeue_botton_links(frontier) ;
فرم در حال بارگذاری ...
[شنبه 1400-03-22] [ 01:55:00 ب.ظ ]
|