Поисковый робот

Какие мысли и ассоциации вызывает у вас словосочетание "поисковый робот"? Если в вашем представлении он похож на героя этого мультика, робота Валли, то вы ошибаетесь. Поисковые роботы, предназначенные для поиска нужной нам информации в Интернет, совсем не похожи на Валли... Поисковый робот (поисковый бот, паук) представляет собой специальную программу, которая занимается постоянным сканированием Сети. Нужно заметить, что программа - робот сканирует в Интернет, в первую очередь, только текст, т. е. web-страницы на языках html, htm, shtml, xml. Что касается остальных файлов - видео, музыки, графики и т. д., то, как правило, они остаются вне поля зрения поисковых роботов. Поисковый робот - одна из составляющих частей системы взаимосвязанных элементов, которой является поисковая машина (поисковик). В упрощенном виде поисковик, кроме поискового робота, включает в себя базу данных, интерфейс пользователя (web-сайт), а также вспомогательные элементы (обработчик запросов, дополнительные сервисы). Зачем нужен поисковый робот? Интернет - это огромный океан информации, в котором нужно уметь ориентироваться и находить необходимые данные. Для этой цели и служат поисковики. Для того, чтобы поисковик знал, по какому адресу что находится в Интернет, ему нужно предварительно просмотреть все сайты и занести их содержание в свою базу данных. Вот эта задача и возложена поисковиком на своего "разведчика" - поискового робота. Поисковый паукПосле получения запроса поисковик просматривает свою базу данных и выдает пользователю результаты релевантные, по его мнению, поисковому запросу. Поисковый паук никогда не сидит без дела, ведь Интернет постоянно изменяется, появляются миллионы новых сайтов, какие-то сайты изменяются или прекращают свое существование. Поэтому поисковые боты постоянно "прочесывают" Всемирную паутину в поисках новой информации и, найдя её, обновляют свои базы данных. Если они не будут этого делать, через какой-то месяц информация в базах данных устареет, и ответы на поисковые запросы окажутся неактуальными. Конечно, время, затраченное на просмотр web-страниц пауком, напрямую зависит от мощности компьютера, на котором установлена программа-робот. Такой просмотр содержимого Сети называется индексацией. Когда поисковый робот просмотрит какой-либо сайт, можно говорить, что данный сайт проиндексирован. Пытливый читатель может спросить: "В Инете миллионы страниц, как робот-паук успевает всё просмотреть?". Дело в том, что роботы настроены так, чтобы сканировать разные сайты с разным интервалом времени. Если, например, сайт часто обновляется, то и робот будет посещать его довольно часто (скажем, раз в день). А если поисковый бот, заходя на один и тот же ресурс, не находит в нем никаких изменений, то, в дальнейшем, наведываться по этому адресу станет все реже (например, раз в месяц). Таким образом, умный паук распределяет свои возможности и успевает повсюду. А как наш робот-паучок ориентируется и передвигается в Сети? От сайта к сайту он переходит по ссылкам, расположенным на web-страницах. Когда, в очередной раз, он просматривает сайт в поисках нового контента, то запоминает все ссылки. Некоторые ему уже известны и находятся в базе данных поисковика, а некоторые он встречает впервые: в этом случае поисковый паук переходит по найденному линку и таким образом оказывается на новом (или не новом) ресурсе. Ева - тоже поисковый роботВпрочем, если наш поисковый робот не похож на Валли, то с Евой что-то общее у них есть. Ведь Еву послали на Землю для поиска, значит она тоже поисковый робот...

Отправить комментарий

 
Copyright © . Как найти информацию - Posts · Comments
Theme Template by BTDesigner · Powered by Blogger