Пошукові системи в мережі Інтернет


Оскільки такі посилання можуть заманити в робота в пастку, їх часто називають “чорними дірками”.

4. Проблеми при каталогізації информации

Бесспорен той факт, що бази даних, що наповнюються роботами, популярні. Автор безпосередньо регулярно використовує такі бази даних для знаходження потрібних йому ресурсів. Проте, є декілька проблем, які обмежують застосування роботів для дослідження ресурсів в Мережі.
Одна з них полягає в тому, що тут знаходиться дуже багато документи, і всі вони постійно динамічно змінюються.

Одной із заходів ефективності підходу до пошуку інформації є “відгук” (recall), що містить інформацію про всі релевантні документи, які були знайдені. Брайен Пінкертон стверджує, що відгук в індексуючих системах Інтернет є цілком прийнятним підходом, оскільки виявлення достатньо релевантних документів не проблема.
Ялта отели. Проте, якщо порівнювати все множенство інформації, доступній в Інтернет, з інформацією в базі даних, створеній роботом, то відгук не може бути дуже точним, оскільки кількість інформації величезна і вона дуже часто змінюється.
Отже практично база даних може не містити специфічного ресурсу, який доступний в Інтернет в даний момент, і таких документів буде множина, оскільки Мережа безперервно росте.

4.1. Визначення роботом, яку інформацію включати / исключать

Робот не може автоматично визначити, чи була дана сторінка в Мережі включена в його індекс. До того ж веб-сервера в Інтернет можуть містити документи, які є релевантними тільки для локального контексту, документи, які існують тимчасово, і т.д. На практиці роботи зберігають майже всю інформацію про те, де вони побували.
Відмітьте, що, навіть якщо робот зміг визначити, чи повинна вказана сторінка бути виключена з його

Джерело: citforum.ru


Tags: , , , , , ,

Загальне


Схожі записи

This entry was posted on Saturday, March 7th, 2009 at 09:15 and is filed under Загальне. You can follow any responses to this entry through the feed. Both comments and pings are currently closed.