Каждая пошукова система складається з двох частин - пошукового HTTP-робота і модуля обробки запиту користувача. HTTP-робот - це програма, яка збирає доступну у вигляді тексту інформацію. Вся зібрана інформація записується в index-файл. Пошук здійснюється іншою програмою, яка витягує запрошувану користувачем інформацію з index-файлу.
Качество роботи окремо взятої пошукової системи сильно залежить від якості роботи обох програмних модулів системи.
казино рулетка www.cristalpalaceonline.com реальные деньгиДля того щоб оцінити роботу HTTP-роботів різних пошукових систем, на одному з Рунет’овськіх сайтів з об’ємом сторінок вище середнього, була встановлена спеціальна система що відстежує всі характерні для індексуючих роботів звернення.
Ниже представлена таблиця, складена на основі свідчень нашої системи в період з середини літа 2000 року по кінець грудня 2000 року:
Глубина индексации визначена таким чином. За 100% узята вся доступна на піддослідному сайті текстова інформація по посиланнях від головного файлу. Значення вище 100% означають, що даний робот дістав доступ до файлів не доступним по посиланнях з домашньої сторінки сайту або ж закачав не текстові, а мультимедійні або бінарні файли, як це робить “FAST-WebCrawler”.
Частота индексации показує, як часто HTTP-робот повертається, щоб відстежити і зафіксувати зміни або оновлення події на окремому сайті. Найчастіше HTTP-роботи запрошують заголовний файл окремого сайту. Виключенням є робот системи NorthernLight - “Gulliver”, який частіше звертався до файлів що знаходиться нижче за заголовний документ.
Tags: інтернет, інформація, клас, користувач, робот, система, файл

