Как работают поисковые системы, или кто такие пауки, кравлеры и боты.
Постовой: www.rcso.ru; раскрутка информационных сайтов
блог на Wordpress - под силу каждому
Лучшие новости Беларуси
продвижение сайта в Украине
Мы все не только слышим, но и сами часто любым ввернуть в разговор словечки типа “Бот”, “кравлер”, “поисковый алгоритм”. А знаем ли мы до конца что это вообще такое и с чем его едят? Лично я не могу с уверенностью ответить “Да” на этот вопрос. Как когда-то был номер “Уездного города” в КВН. Про то как интеллигент и работник физического руда тянули канат. Интеллигент постоянно задавал вопросы и сам же начинал отвечать: “Интуитивно я догадываюсь…”. так вот, я тоже “интуитивно догадываюсь”. Но решила превратить догадки в уверенность.
Итак, как же работают поисковые системы.
Я встречала несколько классификаций составных элементов поисковой системы. Одни более подробные (5 элементов), другая - 3 элемента. Но суть одна.
1. Сбор информации по Сети.
2. Помещение собранной информации в Базу данных, хранение ее там.
3. Непосредственно взаимодействие с пользователем - механизм, который в ответ на запрос шерстит базу и выдает то, что, как ему кажется, подходит.
Наибольшее количество “прикольных словечек” связано именно с первой составляющей.
паук (spider) - лазит по Инету и “фотографирует” попадающиеся ему странички.
краулер (crawler) - оценивает и просматривает эти самые странички. Считается, что они оценивают только заголовки и могут перейти по ссылкам, находящимся на странице - но только на 1 уровень.
роботы (боты) - самые активные из “ползунов” - они ходят по ссылкам, находящимся на странице причем они могут путешествовать бесконечно - от ссылки к ссылке - то есть перескакивая не то что во внутренне вложенным страницам, а и на другие сайты, если у вас есть на них ссылки. И там продолжать свое изучение. Поэтому, грамотные люди советуют, что если у вас не все в порядке с навигацией и структурой сайта - не пускайте туда поискового робота. Есть такой замечательный тег Noindex с помощью которого можно это сделать. Иначе, робот может заблудится, расстроится, зависнуть, умереть с тоски… А зачем вам в коде трупы роботов?
Самый ответственный для всех пункт - пункт третий. Там, где поисковая машина (поисковые агенты) выбирают что именно показать пользователю из всей их огромной базы данных. Тут уже вступают в права такие изречения как “релевантность”, “алгоритм ранжирования” и т.д. Как себя ведет поисковая машина в таких ситуациях? А вот уже много зависит от конкретного поисковика. наиболее общепринятыми для всех являются:
1. Плотность ключевых слов (текста запроса) в документе (на странице). Но опять таки - сейчас не 93-й год, чтобы в рядочек писать на страничке “избушка на курьих ножках”, “избушка на курьих ножках”, “избушка на курьих ножках”. Это поймут как спам. Напомню, что оптимальной плотностью считается показатель от 3 до 5%, иногда допускается 7%.
2. Располагаются ли ключевые слова (текст запроса) в тегах. И если да, то в каких. Известно, что самым любимым тегом является тег “title”, но это не значит, что следует забывать про остальные.
3. Местоположение ключевых слов в документе.
Существуют еще принципы, которыми руководствуются не все поисковые системы. Но наши любимые гиганты о них как раз, в большинстве своем, помнят.
1. Как долго страница находится в базе. Грубо говоря, как долго существует ваш сайт и как долго о нем знает поисковая система. Такая страховка от сайтов-однодневок.
2. Индекс цитирования, PR и т.д. - в основе которого находится понятие ссылочной популярности - как много внешних ссылок ведут на эту страницу.
Вот такой вот ликбез. Который я написала прежде всего, для себя. Но буду рада, если он кому-то пригодится. ![]()
Разместить у себя на ресурсе или в ЖЖ:
На любом форуме в своем сообщении:






10 октября, 2008 в 2:55
не нашёл такого смайла.. ладно.. *целует в щёчку*
а всё таки, форма могла бы и сохраняться) но я упёртый)
7 января, 2009 в 2:19
Спасибо за статью Я начинающий веб разработчик и мне интересно было услышать про то как работают поисковые системы. Кстати и не подозревал что есть краулеры и пауки. Думал что в инете только боты лазят. Сенк еще раз!
15 апреля, 2009 в 5:10
В прошлом годы был на Ибице, так там познакомился с человеком, у которого стиль изложения материала очень похож на ваш. Но, к сожалению, тот человек очень далек от Интернета.
10 октября, 2009 в 8:59
To Вячеслав: краулер, бот и паук - это одно и тоже! Достоверно об этом читайте здесь - http://vsepoisk.blogspot.com/2009/03/blog-post_20.html