Как работают поисковые системы, или кто такие пауки, кравлеры и боты.
Постовой: www.rcso.ru; раскрутка информационных сайтов
блог на WordPress – под силу каждому
Лучшие новости Беларуси
продвижение сайта в Украине
Мы все не только слышим, но и сами часто любым ввернуть в разговор словечки типа «Бот», «кравлер», «поисковый алгоритм». А знаем ли мы до конца что это вообще такое и с чем его едят? Лично я не могу с уверенностью ответить «Да» на этот вопрос. Как когда-то был номер «Уездного города» в КВН. Про то как интеллигент и работник физического руда тянули канат. Интеллигент постоянно задавал вопросы и сам же начинал отвечать: «Интуитивно я догадываюсь…». так вот, я тоже «интуитивно догадываюсь». Но решила превратить догадки в уверенность.
Итак, как же работают поисковые системы.
Я встречала несколько классификаций составных элементов поисковой системы. Одни более подробные (5 элементов), другая – 3 элемента. Но суть одна.
1. Сбор информации по Сети.
2. Помещение собранной информации в Базу данных, хранение ее там.
3. Непосредственно взаимодействие с пользователем – механизм, который в ответ на запрос шерстит базу и выдает то, что, как ему кажется, подходит.
Наибольшее количество «прикольных словечек» связано именно с первой составляющей.
паук (spider) – лазит по Инету и «фотографирует» попадающиеся ему странички.
краулер (crawler) - оценивает и просматривает эти самые странички. Считается, что они оценивают только заголовки и могут перейти по ссылкам, находящимся на странице – но только на 1 уровень.
роботы (боты) – самые активные из «ползунов» – они ходят по ссылкам, находящимся на странице причем они могут путешествовать бесконечно – от ссылки к ссылке – то есть перескакивая не то что во внутренне вложенным страницам, а и на другие сайты, если у вас есть на них ссылки. И там продолжать свое изучение. Поэтому, грамотные люди советуют, что если у вас не все в порядке с навигацией и структурой сайта – не пускайте туда поискового робота. Есть такой замечательный тег Noindex с помощью которого можно это сделать. Иначе, робот может заблудится, расстроится, зависнуть, умереть с тоски… А зачем вам в коде трупы роботов?
Самый ответственный для всех пункт – пункт третий. Там, где поисковая машина (поисковые агенты) выбирают что именно показать пользователю из всей их огромной базы данных. Тут уже вступают в права такие изречения как «релевантность», «алгоритм ранжирования» и т.д. Как себя ведет поисковая машина в таких ситуациях? А вот уже много зависит от конкретного поисковика. наиболее общепринятыми для всех являются:
1. Плотность ключевых слов (текста запроса) в документе (на странице). Но опять таки – сейчас не 93-й год, чтобы в рядочек писать на страничке «избушка на курьих ножках», «избушка на курьих ножках», «избушка на курьих ножках». Это поймут как спам. Напомню, что оптимальной плотностью считается показатель от 3 до 5%, иногда допускается 7%.
2. Располагаются ли ключевые слова (текст запроса) в тегах. И если да, то в каких. Известно, что самым любимым тегом является тег «title», но это не значит, что следует забывать про остальные.
3. Местоположение ключевых слов в документе.
Существуют еще принципы, которыми руководствуются не все поисковые системы. Но наши любимые гиганты о них как раз, в большинстве своем, помнят.
1. Как долго страница находится в базе. Грубо говоря, как долго существует ваш сайт и как долго о нем знает поисковая система. Такая страховка от сайтов-однодневок.
2. Индекс цитирования, PR и т.д. – в основе которого находится понятие ссылочной популярности – как много внешних ссылок ведут на эту страницу.
Вот такой вот ликбез. Который я написала прежде всего, для себя. Но буду рада, если он кому-то пригодится.


10 октября, 2008 в 2:55
не нашёл такого смайла.. ладно.. *целует в щёчку*
а всё таки, форма могла бы и сохраняться) но я упёртый)
7 января, 2009 в 2:19
Спасибо за статью Я начинающий веб разработчик и мне интересно было услышать про то как работают поисковые системы. Кстати и не подозревал что есть краулеры и пауки. Думал что в инете только боты лазят. Сенк еще раз!
15 апреля, 2009 в 5:10
В прошлом годы был на Ибице, так там познакомился с человеком, у которого стиль изложения материала очень похож на ваш. Но, к сожалению, тот человек очень далек от Интернета.
10 октября, 2009 в 8:59
To Вячеслав: краулер, бот и паук – это одно и тоже! Достоверно об этом читайте здесь – http://vsepoisk.blogspot.com/2009/03/blog-post_20.html