بازیابی اطلاعات در وب: فراتر از موتور های جستجوی کنونی

. مقدمه

وب[i] به صورت بزرگ‌ترین منبع داده‌ها در آمده که به سهولت قابل دسترسی است؛ از این رو طبیعی است که اطلاعات از آن استخراج شود و موتورهای جستجو[ii]ی وب به یکی از پراستفاده‌ترین ابزارها در اینترنت تبدیل شده‌اند. اما رشد تصاعدی و آهنگ سریع تغییر و تحول در وب، بازیابی تمام اطلاعات باربط را واقعاً مشکل می‌سازد. در واقع، کاوش[iii] در وب شاید تنگنای اصلی موتورهای جستجوی وب است. بعلاوه، این فرض نانوشته وجود دارد که یک فایل فیزیکی یک مدرک منطقی است؛ و این همیشه درست نیست.

تحقیق اخیر دربارة چالش‌های جستجو در وب، شامل مسائل زیر است ]10، 20، 25[ :

· نمایه (و از جمله، شمول آن بر محتوای پنهان) را به روز و کامل نگه‌داشتن؛

· شناسایی و حذف محتوا و پیوندهای مغرضانه، که اطلاعات ناخواستة[iv] موتور جستجو نام دارد . بعضی نویسندگان، آن را «بازیابی اطلاعات متناقض»[v] می‌نامند؛

· مشخص‌کردن محتوای با کیفیت خوب. وب پر از محتویات با کیفیت پایین (از نظر نحوی و معنایی) مشتمل بر داده‌های پارازیتی، نامعتبر و متناقض می‌باشد. بنابراین، ما این مشکل را داریم که تا چه حد می‌توان به یک وب‌سایت اعتماد کرد. این، شامل ساختار «اچ‌تی‌ام‌ال»[vi] (که در بیشتر موارد مبهم و نامتجانس است) نیز می‌شود.

· بهره‌برداری از بازخورد کاربر، چه از ارزیابی صریح کاربر یا به طور ضمنی از گزارش‌های وب[vii]. در این جا می‌توانیم اطلاعات ضمنی را که توسط نویسندگان صفحات وب و به شکل چندین قاعدة مورد استفاده در طراحی «اچ‌تی‌ام‌ال» ارائه می‌شود نیز اضافه کنیم؛

· کشف نسخه‌های مشابه از میزبان‌ها و محتویات، به منظور اجتناب از کاوش غیرضروری.

· تشخیص نیاز اطلاعاتی: اطلاعی، راهنمایی[viii] یا اجرایی[ix]. برآورد شده است که کمتر از 50 درصد درخواست‌ها از نوع اول می‌باشد.

دانلود مقاله

[i]. web

[ii]. search engines

[iii]. Crawling

[iv]. spam

[v]. adversarial IR

[vi]. HTML (HyperText Markup Language) زبان نشانه‌گذاری فرامتن

[vii]. web logs

[viii]. navigational

[ix]. transactional

احمد احمدپور 1388/08/12 ساعت 11:50 ق.ظ

پایگاه مقالات کامپیوتر

پایگاه مقالات کامپیوتر