Начав скалить зубы, поздно вилять хвостом.

В поисках дешёвого целевого трафика любой вебмастер неизменно обращает свой взор на поисковики. Это лакомый кусочек- если поисковый запрос серфера выводит Ваш сайт в верхушку серпа, и этот сайт про то, что серферу надо, то даже 100 несчастных посетителей в сутки дадут Вам десятку не менее несчастных уёв за те же самые сутки времени (берём типовую конверсию и объект гешефта стандартной для Рунета стоимости).


Понятно, что вебмастер спит и видит, как бы ему увеличить поисковый трафик. Тут в ход идут разные уловки.


Однако и поисковик, с другой стороны, тоже должен немедленно вырыть окоп полного профиля, взять в руки рогатку, и нещадно отстреливать любые страницы, прорывающиеся в серп незаслуженно. Ибо иначе получится полная хрень, и юзеры, и рекламодатели от искалки отвернутся, а сама искалка начнёт потихоньку сдуваться. А в неё деньги вложены, акции выпущены- всё это не просто так. Там миллиарды крутятся.


Естественно, в любой искалке есть живые люди, отвечающие за качество поиска. Именно они создают и подкручивают алгоритмы, благословляют апдейты, и отвечают задницей за результаты. В Гугле таким человеком является Мэтт Катс, к примеру говоря. Причём у него есть и свой блог - как видим, всё традиционно, тут он сам себе бренд.


Разговор про все эти подробности у нас зашёл не просто так- большинство вебмастеров, поначитавшись древних откровений различных гуру, слабо представляют причины своего облома в том же Гугле. Так что давайте сегодня об этом.


Как ни странно, но Гугл был абсолютно предсказуем где-то до сентября 2005. Далее контора разродилась Jagger-апдейтом (в цивилизованном мире всякая сущность должна быть поименована, привыкайте), а затем и Bigdaddy-улучшением. Одно следовало за другим поэтапно, проистекало не шибко гладко, и даже отодвинуло по времени очередной обсчёт PageRank'а. А также привело к казусу, подмеченному пользователями Google AdSense - страницы, по которым ползали поисковые пауки AdSense, начинали показываться в серпе, не будучи официально проиндексированными. Я тоже это видел, и описал в этом блоге.


Вебмастера быстро поняли, что нововведения касаются сразу трёх параметров анализа их сайтов Гуглом: контента, ссылок и структуры ресурсов. На почве чего практически сразу начался небольшой бардак.


Ну, не то чтобы бардак. Но вебмастера, не раз наблюдавшие "пляску Гугла" во время пересчёта ПейджРанка, поимели стойкое ощущение, что некое подобие пляски наблюдалось с декабря и чуть ли не по март. Сайты то появлялись в серпе, то проваливались вниз, то вновь всплывали... Причём без активных действий со стороны оптимизаторов (самые мудрые из них вообще на время затаились).


Ну и нашлись, конечно, умные головы, которые смогли обобщить то, что задумал Гугл. Я же, со своей стороны, попытаюсь здесь систематизировать результаты их труда, так что документ маленьким не получится.


  1. Гугл ратует за качественный (полезный и оригинальный) контент.

    Тут всё достаточно просто- наряду с контентообразующими сайтами (головной проект) есть ещё и сонм вторичных по отношению к ним ресурсов, дублирующих в себе материалы с головных сайтов, либо являющихся их партнёрами (с реферальскими ссылками и всеми сопутствующими делами).


    Нет ничего удивительного в том, что Гугл хочет видеть в серпе оригинал выше клонов. Это не значит, что клоны будут забанены, нет. Но если они ссылаются на головняка, с реферами в урлах, воспроизводят куски контента головняка на своих документах, то искалка предполагает, что реальному серферу будет куда полезнее именно головняк, а не сайт Васи Пупкина с передранными с головняка материалами, адресующийся реферальской ссылкой опять-таки на головняка.


    Применительно к импорту контента всё несколько мягче. Вероятно, аналогия просматривается, но пока практически не ощущается. По крайней мере, многие агентские магазины в серпе торчат выше моего базового- тут всё достаточно демократично. Хотя возможно, Гугл просто не понимает, кто у кого контент берёт. В случае портаторов это ясно, и импортёры контента, как правило, следуют в серпе за экспортёром.


    В особо же фатальных случаях, когда передир контента идёт полный, фактические дубликаты сайтов исчезают из основного индекса совсем, переходя в Google Sandbox- в "дополнительные результаты выдачи". Хотя при определённых условиях могут исчезнуть и оттуда. Причину Вы теперь знаете.


    Неопределённость тематики для многих сайтов на этапе Bigdaddy апгрейда Гугла вышла боком- они резко упали в серпе. В принципе, так и должно быть- слишком много развелось ресурсов ни о чём, и их надо отфильтровывать. Благо, есть из чего.


  2. Политика линкования.

    Будете смеяться, но теперь структуре ссылок внимания уделяется больше, чем раньше. Сформировалось такое понятие, как карта входящих и исходящих ссылок для каждого(!) сайта. И любая из ссылок с любого документа сайта анализируется с позиций уместности её здесь. Когда линк идентифицирован как неуместный, это плохо- или линкокрутилка, либо купленная ссылка (что не лучше).


    Более того. По результатам анализа карты ссылок Гугл каждому сайту навешивает ярлычок с параметром "степень доверия". Сайты с низкой степенью доверия (линкующиеся с кем попало) своими ссылками несут очень небольшой вклад, и линковаться с ними практически бессмысленно. Вы это должны были наблюдать на примере досок объявлений, которые не дают никакого вклада в статус сайта даже при огромном числе ссылок на него. Ничего удивительного- степень доверия Гугла для этих досок вообще никакая. Что тоже понятно.


    Отдельный разговор про сети взаимных ссылок. Крайне аккуратно пользуйтесь автоматическим линкообменом, а лучше вообще откажитесь от него во избежание наказания. Может быть, какой-нибудь пейджранк от этого и перепадёт, да только без толку- получите крошечный сухарик-кириешку степени доверия Гугла вместо полагающейся полновесной булки с маком, и никогда больше не сможете подтолкнуть одним своим сайтом другой свой сайт.


    Впрочем, тут и ещё одна заморочка вылазит при работе со всякими линкаторами. Катс прямо так и сказал: "если вы увлекаетесь трейдингом взаимными ссылками, то не удивляйтесь тому, что у нынешнего кроулера другие приоритеты, и он не посещает ваш сайт так же часто, как раньше". Мысль выражена изящно. А по-русски говоря, автоматический линкообмен в понимании Гугла свидетельствует о второсортности сайта и отсутствии дружбы с головой его вебмастера. Ни больше, ни меньше.


    Впрочем, по всему видать, и Катс может выражаться по-нашему: "этот сайт выглядел очень хорошо, и у него не было ни одной ссылки на сайты всяких придурков". Это он про автоматический линкообмен так отзывается. Запомните такое отношение. И сделайте выводы.


    Какие? Да простые самые- сейчас придаётся большое значение односторонним входящим ссылкам с качественных ресурсов, и односторонним же исходящим ссылкам на качественные сайты (а не какие попало, тут будьте особо внимательны- за исходящий линк отвечаете головой).

Итог. Не сказать, чтоб шибко неожиданный, всё достаточно логично.


Если Ваш бизнес зависит от трафика поисковой природы (а попробовал бы он не зависеть), то надо помнить, что только оригинальный контент на сайте, залинковка с себе подобными и тематически однородными качественными ресурсами, а также отсутствие ссылок "на всяких придурков" (говоря словами Катса) помогут Вам прыгнуть в серпе выше головы.


Собственная партнёрская программа в этом только поможет.


Блогерство даёт просто замечательный результат- сегодня блоги являются фаворитами серпа Гугла.


Итог неочевидный.


Благодаря тому, что Гугл банит сайты только в исключительных случаях, когда чётко видит, что ресурс совершенно придурочный, и исследует всю совокупность вариабельного поведения юзеров для улучшения сервиса и коррекции апдейтов, мы на примере рассмотрения "обломов Гугла" можем заключить:


Всевозможные неклоачные доры поисковыми ботами проходятся насквозь, вплоть до таргетинговой страницы. Всякие ифреймы им не помеха. В серпе будет присутствовать таргетинговая страница, но не будут видны сами доры, хотя без их посредничества не обошлось никак. Раньше было не так, учтите.


302 редирект Гугл обожает. Не бойтесь его использовать- ссылка на страницу с 302 редиректом будет склеена с таргетинговой, с наследованием редиректом ПейджРанка таргетинга. Сам Катс конкретно указывает на то, что для борьбы с двуличностью доменов (с www и без) как раз и нужно использовать 302 редирект- Гугл с благодарностью примет помощь в избавлении его от двойного индекса Вашего сайта.


Естественно, сей маленький обзорчик результатов последних апдейтов Гугла никак не соответствует громадью гугловых планов. Но Вы совершенно не стеснены в возможностях, и вольны сами сходить в поиск и почитать об апдейтах на любом языке и хоть из первоисточника. Тут отражены только вещи, о которых вебмастера ну всяко должны знать, даже если им лень припадать к истокам. А многим лень.

Хомячковый рай. Уйти и потеряться:

Адрес заметки: http://lasto.com/blog/post_1156347112.html

23 августа 2006, 23:25
№ 1sure
Отличнейшая заметка.
Вышесказаное подтверждаю полностью - дошёл до этого своей головой и экспериментами с сайтами. Ещё стоит добавить про валидность и эффективную xhtml+css вёрстку, а так же про текст абзацами.
При всём этом очень жалко смотреть на Яндекс, который забит дорвеями и линк-каталогами по самые "Я"-йца.
p.s. Не помню уже откуда пришёл сюда, но тут останусь и подписываюсь на rss. спасибо!
24 августа 2006, 17:58
Как раз столкнулся с проблемой "двуличности доменов (с www и без)".
Для ее решения, поискав инфу в Инете, предпринял следующее:
1) добавил запись в .htaccess:
RewriteEngine On
RewriteBase /
RewriteCond %{HTTP_HOST} !^suprabiz.com$
RewriteRule ^ http://suprabiz.com%{REQUEST_URI} [R=302,L]
2) добавил запись в robots.txt:
User-Agent: *
Disallow:
Host: suprabiz.com
Вадим, не могли бы Вы прокомментировать, все ли сделано верно?

Я бы просто в движок сайта ПЕРЕД синтезом документа поместил очень простой код:

list ($host,$doc,$to)=array(
  $_SERVER['HTTP_HOST'],
  $_SERVER['REQUEST_URI'],
  str_replace( "www.", "", $_SERVER['HTTP_HOST'])
);
if ($host!=$to) {
  header("HTTP/1.1 404 Not Found");
  header("Location:http://$to$doc" );
  exit();
}

Хотя можно и так, малость Апачем покомандовать.
Дмитрий Лялин
24 августа 2006, 22:16
Я делал тоже самое, но только 301 редиректом, т.е. цифирка 301 вместо 302
Костров александр
30 августа 2006, 17:43
В самом деле, почему 302 а не 301?
302 означает "перемещено временно", а 301 - "постоянно"
Anonymous
04 сентября 2006, 17:36
Столкнулся с проблемой "двуличности доменов". Попробовал сделать как в первом примере через .htaccess.
Получилось, что идет постоянный редирект и сайт не грузится.
Можно ли использовать указанный Вами код в коментарии от 24 августа 2006, 06:58 в простой HTML странице, или можно сделать как то проще?

PHP код в .html?
Тогда в .htaccess писать указ о присвоении html файлам статуса .php файлов:

RemoveHandler .html .htm
AddType application/x-httpd-php .php .html .htm .phtml
Евгений
05 сентября 2006, 13:12
Интересная ситуация наблюдается, Вадим, с моим сайтом Link после того, как я вставил код, рекомендованный Вами в ответ на мой предыдущий комментарий.
После последнего апдейта Яндекса, мой сайт вообще выпал и серпа! Хотя еще несколько дней назад он присутствовал там по двум запросам на первой странице. Причем сайт не забанен, а тИЦ и кол-во проиндексированных страниц как было, так и осталось прежним.
Вот что я обнаружил, и это, считаю, объясняет такую ситуацию. Взглянул на мой сайт глазами Яндекса вот этим линком: Link . И что я увидел: при указании имени сервера, как с www, так и без него, искалка сообщает, что "Сервер вернул код ошибки 302".
Вадим, пожалуйста, прокомментируйте ситуацию.
P.S. К сведению: robots.txt на серваке отсутствует, и в .htaccess нет никаких записей, относящихся к делу.

Что-то путается.
Если имеется ввиду мой php код, альтернативный командам Апачу, то он вот прямо сейчас борется с двуличностью домена этого блога, убивая всякие попытки обратиться к нему в субдомене www.
Насколько вижу по "шпионскому досье", поисковый трафик не затух после впендюривания этого кода. Наоборот, боты добросовестно шерстят блог на предмет выяснения, какие же файлы есть, а какие почили.

Вбейте УРЛ морды этого блога в ту форму- никакого редиректа ни для какой формы написания домена не будет. Потому что форма та анализирует всего лишь синтаксис файла роботса.
Если же самого файла нет, что будет говорить эта форма, никто, кроме неё, не знает. Ибо всё зависит от того, как на сервере обрабатывается 404 ошибка.
Дмитрий Лялин

Комментарий автора:

Давайте вопрос с двуличностью домена таки устаканим.


  • Дано: сайт вот в этом урле.
  • Хочется: убрать все www. из адресов при переходах с внешних урлов.
    Или осуществить склейку зеркал, если говорить по-взрослому.

Как это делается по науке: открываем спецификацию на .htaccess для Апача, и помня, что директория этого блога есть blog, пишем строчка за строчкой (нумерация слева условная, в коде .htaccess быть её не должно ни в коем разе):

  1. RewriteEngine on
  2. RewriteRule ^.htaccess$ - [F]
  3. RewriteBase /blog/
  4. RewriteCond %{HTTP_HOST} ^www\.lasto\.com$
  5. RewriteRule ^(.*)$ http://lasto.com/blog/$1 [R=301,L]
  6. RewriteRule ^lastodesign-(.*).css$ lastodesign.php?css=$1
  7. RewriteRule ^(.*).html$ index.php
  8. RewriteRule ^(.*)/$ index.php

Всё, эти три строчки с 4 по 6 делают грамотный 301 редирект на файлы основного зеркала с неосновного. Хотите 302 редирект- ставьте 302. Особой разницы не будет (редирект через хеадер приравнивается к 302, все движковые сайты именно это и пользуют, и все вменяемые поисковые системы прекрасно сей момент понимают, так что преимуществ у одного редиректа перед другим фактически никакого и нет).


Но. Как обычно, в отечестве нашем навыдумывают всякой фигни. То наклепают приёмников в диапазоне УКВ (мы одни такие умные, весь мир юзает FM диапазон, нифига с нашим не совпадающий ни по частоте, ни по способу кодирования стереозвука), то не менее "умный" яндекс выдумает свой стандарт файла роботса. И тут засада.


Да, с помощью директивы Host: в файле роботса можно указать яндексу (и только ему!) на основное зеркало (пример смотрите выше). Но пока он полностью не переиндексирует сайт и не осуществит склейку зеркал, правильный файл .htaccess пользовать нельзя, потому что сайт тупо вылетит из индекса яндекса (особенности этого яндекса- он не ходит сквозь редирект. Уткнулся в него- всё, страницу вон из серпа).


Почему яндекс так себя ведёт (вопреки обычаям всех других поисковых систем), зачем заставляет нас юзать неспецифицированные директивы в файле роботса, вопрос к нему, либо к его глашатаю Платону Щукину. Я с яндексом не работаю, мне возня по ублажению оного ничуть не интересна.


Но осудить яндекса имею право: если в выделенный красным код .htaccess'a вместо 5 строки я воткну такое:

  1. RewriteCond %{HTTP_HOST} ^(www\.)?oldsite\.com$

то тем самым я могу полностью перенести в индексе всех поисковиков свой сайт из старого домена oldsite.com в новый, оговоренный в 6 строке.

Дурость яндекса лишает меня такой возможности. И ещё многих других, не менее нужных.

20 ноября 2006, 23:22
"Слова не мальчика, но мужа"
Честно говоря, ожидал от Ласто того, что эта тема будет забыта.
Однако то, что человек потратил выходные на переосмысление подхода и уточнение деталей говорит само за себя.
Использование .htaccess хорошо еще и тем, что освободит машину от обработки php кода (пусть это и несущественно для общей скорости в малых маштабах).
Про хитрый яндекс, хоть его Ласто и не любит, я оставлю комментарий через некоторое время, когда станет ясно, как же повлияла на количество переходов с этого поисковика выдача вместо зеркала 302 редиректа методом PHP, описанным выше. Начало эксперимента было 14 ноября со среднесуточным количеством переходов около 1200.
Если это будет интересно - следите за комментариями в этой ветке примерно через неделю: судя по данным статистики - индексация новых страниц яндексом на моем ресурсе происходит в течении 8 дней, а значит и переиндексация не заставит себя долго ждать.
Alexus
Комментарии к этой заметке больше не принимаются.


Рейтинг популярности - на эти заметки чаще всего ссылаются:

  • август, 2006
  • пн вт ср чт пт сб вс
    1 2 3 4 5 6
    7 8 9 10 11 12 13
    14 15 16 17 18 19 20
    21 22 23 24 25 26 27
    28 29 30 31