За правильные теги- шикарный геморрой в подарок.

Славные гуру манимейкинга, коих у нас так любят переводить на великий и могучий, выставляя по ходу дела чуть ли не оракулами ранга пророка Мухаммеда, крайне склонны делать упор на прямолинейное и не осмысливаемое действие. Мы абсолютно уверены только в том, чего не понимаем. И придать нам такую уверенность очень просто, директивой: пиши так, говори этак, думай то-то, и никак иначе. Потому что если в человеке засел червь сомнения, может налететь стая, и заклевать его насмерть. Бездумным- проще. Хотя излишняя уверенность обычно ведет к беде...


Самое страшное, что заокеанские гуру, пишущие для масс, в собственно вебмастеринге на самом деле мало что смыслят, хотя иной раз и пытаются взять менторский тон. Поэтому все их рекомендации, хоть сдуру и воспринимаются нами как величайшее откровение, с благоговением и подобострастным выпучиванием глаз, по сути своей являются инструкциями по бросанию гранаты, записанными со слов сержанта запаса. Да, сержант чётко расскажет, за что эту чёртову штуку дёрнуть, чтоб она дьявольски зашипела, и как быстро метнуть вдаль, чтоб самого не порвало на запчасти, но и не более того. Хотя винить сержанта за поверхностность его инструкций не нужно.


Простите меня за не очень прозрачную аналогию, но все сержантско- программерские дела на родине гуру отданы на откуп специально обученным людям, которые никаких солюшенов сочинять точно не будут, ни за что и никогда. Если гуру что-то такое и пишут в своих опусах, то это лишь результат наблюдения со стороны за действиями сержанта. Причём с порядочной дистанции, чтоб не зацепило ненароком. Сопутствующий сочный мат до слуха гуру не долетает, они видят лишь гламурную картинку. И свято верят, что сам процесс вблизи и изнутри столь же гламурен, как видится в бинокль.


Посему в подавляющем большинстве случаев, занимаясь практическим манимейкингом и столкнувшись с какой-то хитрой задачей вебмастеринга, будьте готовы к тому, что почитать на тему Вашей головной боли просто элементарно негде. И остаётся одно из двух- либо махнуть на проблему рукой, либо учинять экспириенс. Вариант с обращением к специально обученным людям отпадает сам собой- Вы не гуру, и живёте не за океаном.


Махать мы, конечно, все мастера. Но как Вы догадываетесь, сия заметка вовсе не про эмулирование ветряной мельницы подручными средствами, а про вещи чуть более серьёзные. Давайте на том предельно сконцентрируемся.


Итак, озадачившись совсем недавно сверхтрафиком ботовой природы, я решил учинить экспириенс, и поиграться в пределах своего блога метатегами, оговоренными спецификацией, но до той поры на блоге не употреблявшимися вовсе. Это очень интересная задачка сама по себе. Как говорится, не соблазняйте пионера- он и так всегда готов...


Надо сказать, что в самой спецификации заложена сильная концепция. Беда в том, что все тонкости всевозможных метатегов и прочих хедеров трудно постижимы вебмастерами, пользуются ими как бог на душу положит, а потому никто не ведает, насколько все эти метатеги на самом деле задействованы ботами SE. Посему любые сведения, добытые эмпирически, ценятся буквально на вес золота.


Итак.


Первое, что было добавлено в шаблон дизайна, это тег:


<meta name="Resource-type" content="document">


Далее все страницы совершили свой выбор в пользу одного из вариантов метатега:


<meta name="Document-state" content="Static">

<meta name="Document-state" content="Dynamic">


Понятно, что хотя абсолютно все страницы виртуальные, творятся движком в статичном расширении .html, они делятся на не обновляемые (собственно посты блога и документы, бегающие на его движке), и таки модифицируемые (оглавление, комментарии к постам, всякая статистика с поиском...). Назначение и смысл этого тега очевиден- мы просто даём понять ботам поисковых систем, какие документы в принципе подвержены модификации, а какие нет.


Дальше интереснее.


Самый проблемный метатег, с которым сайты почему-то всё никак не заведут интимную дружбу, это дата последней модификации документа:


<meta http-equiv="Last-Modified" content="Fri, 30 Jun 2006 16:04:44 GMT">


Обидно, что грамотно употреблять сей хитрый метатег в рамках движковых ресурсов не всегда возможно. Но так как у нас движок блога свой собственный, и есть пара рук, растущих из нужного места нужным концом, то мы легко подшаманим код под корректную генерацию данного тега. И будем формировать тег в зависимости от реальной даты модификации документа, либо самого позднего времени изменения любого из файлов, участвующих в синтезе контента этого документа.


Вроде бы всё просто, логично и понятно. Искалкам больше нет нужды догадываться, когда же контент блога шевелится, и на каких именно страницах. SE просто смотрят дату последней модификации страниц, и переиндексируют их при необходимости. Туда же, где тишь да гладь, толстый слой пыли, и только асимптотически затухающее в ноль эхо, гонять ботов на разведку и смысла никакого нет.


Но это всё голая теория- пусть даже и засунутая в золочёную рамочку, она являет собой желанное зрелище лишь для эстетов и интеллектуалов, плохо совмещающихся с действительностью и реальным миром. Нудистский пляж мало похож на галерею с полотнами великих мастеров, но там уже больше правды жизни, хотя меньше изысканности.


В полном соответствии с законом несовпадения по форме и содержанию голой теории со столь же голой практикой, находящихся в таком же соотношении, как залы Лувра с пляжами Новосибирского Академгородка, славящимися своими безбашенными натуристами, все эти хитрые метатеги, нарисованные в блог совершенно корректным образом, дали совсем не тот результат, которого бы хотелось. Отсюда внемлите со вниманием.


Несмотря на то, что блог по всем понятиям стал более кошерным, поисковый трафик почти сразу просел в полтора-два раза. Это означает, что документы блога в серпе сместились вниз, и не очень катастрофично, но заметно уступили свои позиции. И я связываю этот результат только с употреблением тега ласт модифиеда.


Тут немного не логично получилось.


С одной стороны, мы позаботились об искалках, указав явным образом степень древности всех наших документов, чтобы ботам не нужно было педантично отслеживать факт модификации контента, и догадываться о периодичности обновления каждого из документов.


С другой стороны, ответной любви явно не случилось- весь из себя кошерный блог попал под фильтры искалок, уважающих свеженькие документы, а не замшелые и покрытые плесенью опусы годовалой давности. Каковая давность предельно чётко обозначена нами посредством ласт модифиеда.


В пользу этого предположения красноречиво свидетельствует и факт пропадания страничек постов из списка популярных документов в статистике блога. Если раньше трафик поступал именно на эти документы с отдельными заметками, то сейчас- исключительно на страницы брогскролла. Ибо каждая такая страница несёт в себе по три смежных поста, но, в отличие от постов, имеет датой ласт модифиеда время создания последнего из постов, так как именно в тот момент произошло смещение заметок в блогскролле вниз, и все страницы блогскролла обновили свой контент на грубо говоря 30%


Что поделать- дерьмо случается.


Результаты моего эксперимента свидетельствуют о несомненной вредности тега Last-Modified. Для блогов классической структуры в частности. Да, ботовый трафик несколько снизился, но общая пессимизация документов в SE свела на нет все мнимые выгоды такой вот «оптимизации» ботового трафика.


Это, естественно, промежуточный, хотя и донельзя очевидный результат- эксперимент решено не прерывать, и пока не ворачивать всё, как росло. Возможно, три недели- не срок, и какая-то внутренняя инерционность искалок (интересует и отслеживается в первую очередь Гугл) пока не позволяет SE оценить всю кошерность и несомненную породистость блога, а также воспылать к нему пылкой страстью.


Хотя, справедливости ради стоит заметить, что кой-какая положительная динамика поискового трафика в последнее время наблюдается- возможно, тот же Гугл таки переосмысливает своё поведение, и апеллировать к святой инквизиции столь категорично не стоит. Поживём- увидим.


Я пока не знаю, стоит ли поставить тут точку, и должна ли она быть жирной. Потому пускай их будет три, худых и дистрофичных.


А что бы стоило сделать ?


Да просто проанализировать бесполезность ботового трафика. Скажем, вот есть у меня такая статистика за пару недель:


Качество SE: ботовый трафик-SE-запросов с этой SE-эффективность:

5321
2678
1432
1002
638
502
468
459
118
Googlebot/2.1 - маскируется под Mozilla/5.0 
larbin_2.6.3 larbin2.6.3@unspecified.mail
msnbot-media/1.0 
Mediapartners-Google/2.1
Yandex/1.01.001 
msnbot/1.0 
Yahoo! Slurp; - маскируется под Mozilla/5.0 
Java/1.5.0_08
NutchCVS/0.7.2
713
-
-
AdSense
4
18
36
?
?
13.4%



 0.6%
 3.6%
 7.7%



Чьи два последних бота, я не знаю. Но про остальных (за вычетом медиаботов) можно порассуждать.

Поделив количество запросов, поступивших с поисковой системы (это живые серферы) на число визитов бота этой искалки на блог, мы легко поимеем эффективность привлечения трафика с различных поисковых систем в относительных процентах.

  • Как и следовало ожидать, первенство держат Гугл и Яха. Вы должны хорошо знать эти SE- любой вебмастер сочтёт за счастье с ними работать.

  • Эффективность msn куда как ниже- и это даже без учёта трафика медиабота msn. В принципе, медиабота можно было бы и побрить- вряд ли он найдёт на блоге хоть что-то интересное для себя.

  • Чётко видно, что бота поиска по блогам Яндекса брить не только можно, но и нужно. Четыре несчастных визита, порождённых его сервисом поиска по блогам- это даже не смешно. Баним.

  • А вот архиватора Интеренета, как и его бота larbin_2.6.3 банить нужно всенепременно- трафик этот бот накручивает гигантский, а вот толку от него Вам лично нет никакого совершенно.

Так что прописав пару-тройку ботов в robots.txt, можно сразу сэкономить четверть объёма ботового трафика без всяких потерь для себя. А если ещё и знать назначение и принадлежность прочих ботов, коим несть числа, то и добрую половину, никак не меньше.


27 октября 2006, 01:35
1Смотрет твой robots.txt
 Все верно, так и надо.
Особо кардинально с Яндексом :)
Для полноты картины:
http://www.sejournal.ru/news/80/

Anonymous
27 октября 2006, 06:53
2А если дата не выдается?
 Мой сервер не выдает дату вообще. Значит ли это, что я теряю позиции в SE?

Сергей Довбня
28 октября 2006, 01:45
3Без темы
Спасибо за подарок на день рождения. Не ожидал от Яндекса этакой прыти. А насчет архива не совсем согласен. В случае потрясений Интернета, когда нарушается связность с российским сегментом, archive.org - единственное место где можно посмотреть свежую копию морды твоего сайта.

Евгений Чернихович
28 октября 2006, 02:47
4Google кажется еще в одном месте привирает
Заметил такую штуку сегодня. Покупаю для клиента AdWords. У клиента мало обратных ссылок. Прошла неделя. Смотрю по запросу links: URL пошли обратные ссылки с Google с текстами купленных AdWords. Получается, что Google засчитывает текстовую рекламу как обратные ссылки, хотя бы частично это верно, могу скриншот прислать.
Какие мысли по этому поводу?

jevgen

Комментарии к этой заметке больше не принимаются.


октябрь, 2006
пн вт ср чт пт сб вс
            1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31