Почившие страницы и траст Гугла.

Самые популярные товары с Али по лучшей цене:

Фляжка Jack Daniel’s. Нержавсталь, 200 ml 523 руб.
12-битный SDR, 5 диапазонов 4000 руб.
Цифровой тестер качества воды 580 руб.

11 июня 2012, 17:00

Почившие страницы и траст Гугла.

Умереть очень просто.
Но важно, чтобы про то
Услышал сёгун.

Всякий раз, когда разговор заходит о чём-то малопонятном, высокие договаривающиеся стороны просто обязаны сперва обсудить термины. Чтобы не получилось так, что под вроде понятным словом каждый подразумевает что-то своё, и на этой почве совсем не разумеет собеседника.

В данном случае под трастом Гугла мы понимаем волшебство, позволяющее документам нашего сайта не просто находиться в поиске, а ещё и забираться на первую страницу выдачи. Пусть это сильно упрощённо, но зато понятно всякому: из двух примерно одинаковых сайтов на первую страницу вылезет тот, чей траст выше. У него больше уважуха Гугла.

Если копнуть чуть поглубже, то мы вспомним, что у Гугла есть два публичных индекса: основной и сапплементал. И не очень важно, сколько документов домена входит в сапплементал. Гораздо интереснее, сколько их сидит в основном индексе — именно эти документы в основном и участвуют в формировании серпа.

Так что качество контента сайта (отношение числа документов в основном индексе к общему количеству проиндексированных страниц сайта), которое может изменяться от нуля до единицы, очень сильно влияет на траст, понимаемый так, как сформулировано выше. Если в основном индексе мало страниц, попадать в серп тупо нечему, и сайт получает мизерный поисковый трафик. Либо не получает его вовсе.

Всякий вебмастер, как только осознаёт такие штуки, начинает очень сильно интересоваться, на основании каких именно критериев Гугл, аки апостол Пётр, расфасовывает документы между Гугловым адом и раем.

Судьба документа.

Недавно выложенный в Сеть ресурс, как только он попадется на глаза индексирующему боту Гугла, практически сразу же и индексируется целиком. Не по чайной ложке в час, как это принято у Яндекса. Гуглу не в лом обойти все тысячи страниц сайта за пару часов, и составить о ресурсе первичное впечатление.

Если сразу понятно, что это не дор, не запрещённый контент, а вполне себе комильфо, все проиндексированные документы прямиком попадают в основной индекс. Обычно туда, хотя есть такая штука, как «песочница Гугла», с которой, тем не менее, местный автор ни разу не сталкивался.

Данная процедура в вебмастерской среде называется «бонус новичка». Бонус потому, что сайт уже при рождении имеет фору перед более старенькими сайтами, и способен сходу начать получать поисковый трафик. На чём, кстати, паразитируют разного рода дорвейщики.

По мере жизни сайта (спустя дней десять) к его документам начинают применяться многочисленные фильтры, в результате работы которых документы постепенно переносятся из основного индекса во вспомогательный (сапплементал). Этот процесс неизбежный, проистекает довольно неспешно, и именуется «писец бонусу новичка», а также прочими жалостливыми словами.

Писец проявляется в том, что поисковый трафик падает в разы от первоначального всплеска, и постепенно выходит «на полку». С которой далее либо спадает вообще в ноль, либо помаленьку начинает расти. Хорошо, если второе, но обычно всё заканчивается печалькой.

Думка вебмастера.

Вебмастер, конечно, не может не видеть коллапс поискового трафика, и начинает думать про причину.

Обычно он находит её в том, что много документов ушло в сапплементал, что говорит об их «не уникальности». Ну, копипаст, паршивый синонимайз, чего от них ждать...

Если контент для ресурса сочинялся самостоятельно, то мысль вебмастера уходит в сторону «плохой рерайт» или «стибрили контент и где-то опубликовали». На крайний случай - «чёртов гугл, чего ему ещё надо?».

То, что именно так и должно быть, душа вебмастера не приемлет.

Граждане Трои! Смотрите в душу подаркам!

На самом деле качество контента (попадание документов в основной или вспомогательный индекс) довольно слабо зависит от его происхождения. Документ может переходить из основного индекса во вспомогательный и обратно, просто из-за проведения над сайтом процедур технического характера.

Давайте рассмотрим самый простой пример.

Много лет назад, когда местный автор возжелал обзавестись сайтом, железо у хостеров было весьма слабым. Мало оперативки, жёсткие лимиты по ресурсам, движки на Perl-е. Который для самостоятельного изучения не очень подходил, так что вебмастера массово пользовались чем попроще.

Многие тупо строгали сайты на голом HTML, некоторые применяли Server Side Includes, что было прогрессом. Местный автор был прогрессивен :)

Хостеры, со своей стороны, из-за небогатых возможностей пользователей предлагали им какие-то решения в стиле «йези то юзе», и, в частности, так называемые «собственные страницы ошибок». На том же самом SSI.

Как оно работает, никто особо не вникал. Если при наборе неправильного адреса оно перекидывает, скажем, на морду сайта, то и ладненько — хоть юзер не заблудится. А как именно оно это делает, волновало мало кого.

Потом, понятно, технология SSI ушла в историю, уступив место PHP. Но вот эта обработка 404 ошибки так и провисела восемь лет на изначально кривом решении. И натворила делов.

О делах наших скорбных.

Когда местный автор возжелал подарить своему сайту хоть какой-то движок, он схватился за голову — самой посещаемой страницей с тысячами хитами в сутки оказалась страничка про «документ не найден».

В качестве посетителей выступали в основном боты поисковиков. Причём траст в этих искалках у сайта оказался никаким, в Гугле все документы в сапплементале, а поискового трафика ноль.

Почему так случилось, и кто виноват?

А всё просто. За многие годы что только не жило в домене, и в каких только расширениях (.shtml, .php, .html, .htm). Рождались и умирали сотни и тысячи документов, они меняли свои адреса и содержимое. И всё это ещё и индексировалось.

Потом, при исчезновении этого сонма документов, вступал в работу обработчик ошибок. Но он не возвращал 404 хэдер, а рапортовал о 302 редиректе на морду сайта. Что для поисковой системы не является поводом усомниться в том, что документ перестал существовать.

В итоге в индексе искалки накопилось слишком много документов, не возвращающих двухсотый хедер «HTTP/1.1 200 OK». И искалка решила, что такой сайт недостоин не только Site Link-ов, но и представительства в серпе. Из основного индекса он практически вылетел, а поискового трафика не видел давно.

Каков курс лечения?

Среди вебмастеров ходят легенды про движки, в которых сайты индексируются «как надо». По большей части это миф, ибо ни один движок не помешает сайту проиндексироваться.

Но.

Важно, чтоб движок не мешал убитым документам выпасть из индекса, то есть честно возвращал хедер 404 ошибки при обращении к не существующему документу. Тут, видимо, могут быть как правильные, так и не правильные движки. Что надо проверять.

Гугл довольно быстро реагирует на заработавший 404 эррор — общее число проиндексированных страниц падает (давно почившие документы официально объявляются мёртвыми, и подвергаются процедуре захоронения), число документов в основном индексе растёт ежедневно, сапплементал, будем надеяться, со временем сократится. Появился поисковый трафик.

Сводите свой сайт на обследование.

Чтобы Ваш сайт не постиг такой же досадный казус, стоит посмотреть, что возвращает его движок при обращении к несуществующему документу. Возвращать он должен в точности хедер «HTTP/1.1 404 Not Found», и ничто иное.

Провериться можно тут: Ответ сервера.
Либо нагуглив сервис того же назначения (их много).

И в завершение снова про траст.

Молясь на него, и принося ему в жертву весомые внешние ссылки с жирных ресурсов и с правильными анкорами, не забывайте, что всё можно угробить всего лишь техническим ляпом. И никакие копирайтеры и SEO-гуру дело не поправят.

И есть подозрение, что ассортимент подобных возможных технических ляпов больше одного :)

Другие статьи категории «Вебмастеру на заметку»

Прыгая выше головы, не сломай себе шею.

Немалая часть вебмастеров чуть ли не весь свой основной доход получает с Хитрых Контор. Оно понятно - трудозатрат ноль, а профит есть, он постоянен и ощутим. Что называется, сбылась мечта идиота. Только вот проблемка тут одна зачастую случается. Очень досадная такая проблемка.

Игра ума карается расстрелом.

Местный автор давно замечал за собой тягу к парадоксальным вещам. Даже когда вроде бы само наблюдаемое явление никак тебя не касается, но тупо ж интересно, чего дальше будет. Самым ярким скопищем парадоксов в Стране, помимо дураков и дорог, является, конечно, Яндекс. Любой вебмастер (кроме разве что Мастера Ласто) каким-то макаром с этим самым Яндексом постоянно пересекается, и, если чего-то от того Яндекса ещё и хочет, то способен часами описывать свои ощущения.

Посылательное SEO.

Некоторое время тому назад местного автора спрашивали про разного рода блогуны и SEO-ссылки, на каковые вопросы сразу ответа не последовало. Тогда сочлось, что Гугл велик, и про такого рода вещи имеет смысл спрашивать всё-таки у него. Но потом подумалось, что этой теме стоит посвятить отдельный разговор, возможно, приводящий к правильному пониманию простых вещей.

Почившие страницы и траст Гугла.

Самые популярные товары с Али по лучшей цене: