Получить новую статью

Вставьте здесь свой адрес:

Delivered by FeedBurner

Подписаться на статьи рубрики
Подписаться на статьи рубрики
Подписаться на статьи рубрики
БЫТОВАЯ ТЕХНИКА
новинки, содержание, ремонт
Подписаться на статьи рубрики
СЕРВИСЫ ОНЛАЙН
описание, рекомендации
Подписаться на статьи рубрики
ДИЗАЙН ВЕБ САЙТОВ
советы, показ, нюансы

users online

Индексация в Yandex имеет свои особенности и заключается в обходе всех не запрещённых в robots.txt файлов. Туда неизбежно попадают файлы категорий, меток, тегов и Индексация в Yandex тому подобная служебная информация.

Индексация в Yandex сайта длиться около 4 секунд. Поэтому, что успел робот увидеть, переходя по ссылкам на сайте, то и остаётся загруженным для дальнейшего анализа. Таким образом, робот создаёт дубли страниц вперемежку с оригиналами страниц.

Дубли страниц очень и очень неприятная ситуация для сайта. Ведь робот по запросу может показать неполноценный дубль статьи и отпугнёт посетителя от сайта вообще.

Если полгода назад на этом сайте было загружено 600 страниц, в поиске 155 страниц, а в реальности 25 страниц, то надеяться на показ реальной страницы 0,3 вероятности. А мы стремимся к вероятности 1,0.

Проверить свой сайт на предмет дублей страниц можете по этим поисковым фразам только в поиске Яндекса:

site:site.ru feed
site:site.ru tag
site:site.ru attachment
site:site.ru attachment_id
site:site.ru page
site:site.ru category
site:site.ru comment-page
site:site.ru trackback

Вместо выражения site.ru вставляйте ваш адрес сайта без http://.
В норме по всем запросам количество страниц дублей должно быть «0».

Если же дубли есть, дела не важные. По дублям видно, какие файлы попали в поиск, и какие из них не нужны. Принимайте меры. Рихтуйте свой robots.txt.

На это время, этот сайт по этим показателям «0» в поиске Yandex, за исключением в графе site:infookno.ru comment-page, 8 дублей страниц. Опс! Что же это за страницы? А это самые важные для меня страницы с точки зрения заработка.

Я даже опешил от такого заключения. Наконец, понимаю. Эти страницы подвергались многократному редактированию до 15-20 раз, забывая «лучшее – враг хорошего». WP каждую редакцию записи запоминает, они ведь висят на сервере дублями. Видимо, индексация в Yandex поискового бота попалf на фазы редактирования, вот вам и дубли.
Нажатие надписи «Опубликовать» в консоли WP мгновенно приглашает робот в гости на сайт. Такая индексация в Yandex редакций статей рождает дубли страниц в поиске.

Но, и это ещё не всё, желание показать нужные записи постоянно на главной странице методом «Прилепить» в редакторе записи Консоли, привело к тому, что индексация в Yаndex данных записей получала ответ с сервера – код 301, то есть страница перемещена навсегда. ПС на этом и «умывает руки». Я, то долго не мог понять, почему самые денежные страницы не выходят в топ. Все записи вернул на своё место, но оказывается их реиндексация ооочень длинное дело. ДО полугода.

Вывод. Редактировать страницы как можно реже и не плодить дубли. Кстати, прежде, чем опубликовать, есть кнопка «Посмотреть». Функцией «Прилепить» не пользоваться. Здесь на сайте установлен плагин WP-Optimize, удаляющий дубли редакций всех страниц автоматически и эта проблема отпала. Можно удалять и вручную.

Два момента. Возможно, вы уже свой robots.txt изменили недавно, тогда ждите с месяц полтора. Пока мы говорим только об индексации в Яндексе.

Второй момент то, что на моём сайте реально существуют страницы категорий и тегов, но они не несут посетителю конкретной информации по конкретному запросу. И я решил закрыть эти страницы в robots.txt и индексация в Yandex становиться невозможной.
Disallow: /tag
Disallow: /category
Проверяю через 30 секунд на сервисе http://audit.megaindex.ru/, индексация этих страниц мгновенно пропала.
Но, осталась страница autor с одной моей фотогафией, закрыл и её директивой:
Disallow: /author/andrey, где andrey имя автора.

В итоге, 3 месяца спустя, индексация в Yandex показала 208 страниц, от этого никуда не деться, в поиске 86, а реально статей-страниц 68 + 7страниц меню на сайте = 75. Плюс 8 страниц дублей = 83, почти 86.

Привожу эту картинку из интерфейса Яндекс Веб мастера ниже.

Диагностика проблем сайта

Наблюдаю, свой сайт в половине случаев, на первой странице в результатах поиска Yandex по запросам, взятым из заголовков статей, и радуюсь.

Но, радоваться надо тихонько, потому, что в Google сайт вообще не видим по запросам. И как потом выяснилось, такое есть у многих новичков.

И получается, что добрая половина потенциальных посетителей просто не видит мой сайт в упор. А ведь там есть коммерческие страницы! Так что, радуйтесь, я не получаю ровно половину того, что имею сейчас. Потому, что мои заказчики приходят на сайт исключительно из поиска. Хочется всегда лучше. Но, я помню выражение: «Лучшее – враг хорошего». Однако иду в Веб мастер Google выяснять причину.

Трудновато понимается, объяснить не могу, почему так воспринимается алгоритм сканирования роботами от Google. Для понимания полной картины для себя и для вас пришлось написать сжатую статью под названием: «Robots.txt и индексация в Google».

5 комментариев: Robots.txt и индексация в Yandex

  • Андрей говорит:

    Огромное спасибо за очень полезную статью! У меня всегда были проблемы с настройкой сайта и с дублями! Проверить свой сайт на предмет дублей страниц и неприятно удивился! Сколько еще работы и информации надо выучить прежде чем чему то научишься! Спасибо Вам за Ваш труд!

  • Андрей говорит:

    Спасибо и Вам за внимание к данной теме. На самом деле не так и много надо знать. Стараюсь публиковать мало известные практики. Относительно дублей не сильно беспокойтесь, они уйдут в течение месяца-двух, если правильно составлен Robots.

  • Иногда создаётся впечатление, что Яндекс сам внятно не представляет, как работает его индексация... Запустили машину, наплодили в ней кучу фишек и условий, а теперь в этом нагромождении разобраться уже не могут. 

    Кстати, Гугл, как-то быстрее реагирует в этом плане, хотя может это только моё ощущение... Но многие вопросы решаются его роботами намного оперативнее...

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *