. مقدمه
وب[i] به صورت بزرگترین منبع دادهها در آمده که به سهولت قابل دسترسی است؛ از این رو طبیعی است که اطلاعات از آن استخراج شود و موتورهای جستجو[ii]ی وب به یکی از پراستفادهترین ابزارها در اینترنت تبدیل شدهاند. اما رشد تصاعدی و آهنگ سریع تغییر و تحول در وب، بازیابی تمام اطلاعات باربط را واقعاً مشکل میسازد. در واقع، کاوش[iii] در وب شاید تنگنای اصلی موتورهای جستجوی وب است. بعلاوه، این فرض نانوشته وجود دارد که یک فایل فیزیکی یک مدرک منطقی است؛ و این همیشه درست نیست.
تحقیق اخیر دربارة چالشهای جستجو در وب، شامل مسائل زیر است ]10، 20، 25[ :
· نمایه (و از جمله، شمول آن بر محتوای پنهان) را به روز و کامل نگهداشتن؛
· شناسایی و حذف محتوا و پیوندهای مغرضانه، که اطلاعات ناخواستة[iv] موتور جستجو نام دارد . بعضی نویسندگان، آن را «بازیابی اطلاعات متناقض»[v] مینامند؛
· مشخصکردن محتوای با کیفیت خوب. وب پر از محتویات با کیفیت پایین (از نظر نحوی و معنایی) مشتمل بر دادههای پارازیتی، نامعتبر و متناقض میباشد. بنابراین، ما این مشکل را داریم که تا چه حد میتوان به یک وبسایت اعتماد کرد. این، شامل ساختار «اچتیامال»[vi] (که در بیشتر موارد مبهم و نامتجانس است) نیز میشود.
· بهرهبرداری از بازخورد کاربر، چه از ارزیابی صریح کاربر یا به طور ضمنی از گزارشهای وب[vii]. در این جا میتوانیم اطلاعات ضمنی را که توسط نویسندگان صفحات وب و به شکل چندین قاعدة مورد استفاده در طراحی «اچتیامال» ارائه میشود نیز اضافه کنیم؛
· کشف نسخههای مشابه از میزبانها و محتویات، به منظور اجتناب از کاوش غیرضروری.
· تشخیص نیاز اطلاعاتی: اطلاعی، راهنمایی[viii] یا اجرایی[ix]. برآورد شده است که کمتر از 50 درصد درخواستها از نوع اول میباشد.