Пошукові системи в мережі Інтернет


Ці програми також іноді називають “павуками” ” мандрівниками”, або ” черв′яками” і ці назви, можливо, привабливіші, проте, можуть ввести в оману, оскільки термін “павук” і “мандрівник” створює помилкове уявлення, що робот сам переміщається, а термін “черв′як” міг би подразумевать, що робот ще і розмножується подібно до інтернетівського вірусу-черв′яка.
Насправді, роботи реалізовані як проста програмна система, яка запрошує інформацію з видалених ділянок Інтернет, використовуючи стандартні мережеві протоколи.

3.1 Використання пошукових роботов

Роботы можуть використовуватися для виконання безлічі корисних завдань, таких як статистичний аналіз, обслуговування гіпертекстів, дослідження ресурсів або зазеркаліванія сторінок. Розглянемо ці завдання докладніше.

3.1.1 Статистичний Анализ

система подбора дисков по автомобилю

Первый робот був створений для того, щоб виявити і порахувати кількість веб-серверов в Мережі. Інші статистичні обчислення можуть включати середнє число документів, що доводяться на один сервер в Мережі, пропорції певних типів файлів на сервері, середній розмір сторінки, ступінь зв′язаності посилань і т.д.

3.1.2 Обслуговування гипертекстов

Одной з головних труднощів в підтримці гіпертекстової структури є те, що посилання на інші сторінки можуть ставати ” мертвими посиланнями” у разі, коли сторінка переноситься на інший сервер або зовсім віддаляється.
На сьогоднішній день не існує загального механізму, який зміг би повідомити обслуговуючий персонал сервера, на якому міститься документ з силкамі на подібну сторінку, про те, що вона змінилася або вобще видалена.
Деякі сервери, наприклад, CERN HTTPD, реєструватимуть невдалі запити, викликані мертвими посиланнями разом з рекомендацією щодо сторінки, де виявлено мертве посилання, передбачаючи що дана проблема вирішуватиметься уручну.


Tags: , , , , , ,

Загальне


Схожі записи

This entry was posted on Saturday, March 7th, 2009 at 09:15 and is filed under Загальне. You can follow any responses to this entry through the feed. Both comments and pings are currently closed.