Плыть к истоку придётся против течения.
Один из комментаторов предыдущей заметки абсолютно правильно заметил, что кодингу (переводу текста документа в формат HTML) нужно уделять немалое внимание. Заботясь о так называемой чистоте кода и его структурировании. Остановимся на том.
Но сперва я задам «левый» вопрос: как Вы полагаете, в чём ценность читаемого Вами в данный момент документа?
Очевидно, всего лишь в двух моментах- что в нём говорится (и насколько это Вам нужно и полезно), и как это преподнесено. Последнее очень важно- я ж могу изложить контент таким языком, что читать Вы его не будете даже под страхом отшлёпывания ремешком по попке. Ибо лингвистические изыски могут простираться от албанского до абстрактных философских категорий. От первого многих уже тошнит, второе же просто не всем дано осилить.
Но, естественно, впадать в крайности я не буду. Ибо немного знаком с копирайтингом как наукой, знаю целых 20 тысяч русских слов, а потому вполне способен породить читабельный текст. Назовём эту способность внешним копирайтингом.
Умный поисковик класса Гугла обращает внимание не только на контент, но и на структуру кода. Серферу она не видна, но это не значит, что никому не интересна. Гуглу очень даже интересна, ибо наблюдаемый им HTML код документов о многом ему расскажет. Это не что иное, как внутренний копирайтинг. Индивидуальный для каждого ресурса.
И если вебмастер настолько глуп (или просто не осведомлён), что не обращает никакого внимания на HTML код своих документов, то ему суждено за то пострадать. Позиция его сайта в серпе не будет высокой. Потому что искалка, оценив совокупный внутренний копирайтинг весьма хреновой оценкой, отдаст предпочтение тем документам, чей внутренний копирайтинг выше- код более вылизан, избыточности кода нет.
Если переходить от общих фраз к конкретике, то давайте уж поговорим за структуру кода.
- Таращась на данный документ, Вы видите, что текст побит на абзацы. В HTML за это разбиение текста на куски ответственен специальный тег. Конечно, бить текст можно и не специальными тегами, а переносами всякими, но это уже будет деструктурирующий фактор. За что причитается пинок вниз в серпе.
- Не менее важно уметь использовать упорядоченные списки. Весьма часто вебмастер ограничивается их внешней эмуляцией, когда фрагмент текста в браузере похож на список, а код страницы не содержит ничего подобного. Более того, гуру от копирайтинга специально заставляют своих последователей слева от кусков текста ставить разные графические крыжики. Но... за это причитается ещё один пинок в серпе вниз. Не очень сильный, но пинок. Ибо упорядоченный список суть вещь ещё более структурно сильная, чем абзац.
- Контейнеры. Как известно, большинство из тегов языка гипертекстовой разметки парные- их и зовут контейнерами. Фактически визуально ничего плохого не случится, если некоторые из контейнеров не закрывать- многие браузеры такую некорректность кода прощают. Но, к сожалению, поисковики фиксируют ошибки HTML, и понижают рейтинг документов с такими ошибками.
- Атрибуты тегов. Признаны предписывать каждому конкретному тегу, как он должен себя вести. Тут без фанатизма- CSS для того и придуман, чтобы переопределять свойства тегов, не загромождая сам код наворотами
Казалось бы, очевидные вещи сказаны. Вроде бы все и так понятно. Но когда очередной вебмастер дивится отсутствию своего супер-пупер мини-сайта в серпе Гугла, и спрашивает Мастера Ласто о причинах, то Мастер Ласто среди прочих косяков неизменно видит одну и ту же картину. Иллюстрирую её наглядно.
Вообще-то я так никогда не делаю, но в этот раз решил по-ламерски набрать данную заметку в «Ворде». Дабы сохранить её как web-страницу, и посмотреть, что из этого получится. В смысле кода.
Десятый «Ворд» породил страшное, причём никаких таблиц не юзалось, только голый текст. Но учитывая, что его код намного чище, чем созданный разного рода визуальными редакторами, которые с кодом документа поступают просто варварски при вставке в уже созданный документ каждого нового слова или правки существующего, тут мы всё равно имеем не самый плохой вариант. Сиё хоть и нашпиговано мусором, но хотя бы структурировано. А вот визуальный редактор за структурированием не смотрит совершенно...
Посему, если уж Вы не умеете писать чистый код ручками, то используйте какую-нибудь очищалку результата творчества в «Ворде» от превнесённой им ереси. Например, такую: http://lasto.com/blog/1156935889.html
Это полезно не только для лучшего позиционирования сайта в поисковиках. HTML-документ, вытащенный из-под визуального редактора, весит в 2-3 раза больше, чем тот же самый документ, но с чистым кодом. Ну и зачем напрягать серфера и самого себя спалённым впустую трафиком?
Хомячковый рай. Уйти и потеряться:
Начав скалить зубы, поздно вилять хвостом.
В поисках дешёвого целевого трафика любой вебмастер неизменно обращает свой взор на поисковики. Это лакомый кусочек- если поисковый запрос серфера выводит Ваш сайт в верхушку серпа, и этот сайт про то, что серферу надо, то даже 100 несчастных посетителей в сутки дадут Вам десятку не менее несчастных уёв за те же самые сутки времени (берём типовую конверсию и объект гешефта стандартной для Рунета стоимости).
Понятно, что вебмастер спит и видит, как бы ему увеличить поисковый трафик. Тут в ход идут разные уловки.
Однако и поисковик, с другой стороны, тоже должен немедленно вырыть окоп полного профиля, взять в руки рогатку, и нещадно отстреливать любые страницы, прорывающиеся в серп незаслуженно. Ибо иначе получится полная хрень, и юзеры, и рекламодатели от искалки отвернутся, а сама искалка начнёт потихоньку сдуваться. А в неё деньги вложены, акции выпущены- всё это не просто так. Там миллиарды крутятся.
Естественно, в любой искалке есть живые люди, отвечающие за качество поиска. Именно они создают и подкручивают алгоритмы, благословляют апдейты, и отвечают задницей за результаты. В Гугле таким человеком является Мэтт Катс, к примеру говоря. Причём у него есть и свой блог - как видим, всё традиционно, тут он сам себе бренд.
Разговор про все эти подробности у нас зашёл не просто так- большинство вебмастеров, поначитавшись древних откровений различных гуру, слабо представляют причины своего облома в том же Гугле. Так что давайте сегодня об этом.
Как ни странно, но Гугл был абсолютно предсказуем где-то до сентября 2005. Далее контора разродилась Jagger-апдейтом (в цивилизованном мире всякая сущность должна быть поименована, привыкайте), а затем и Bigdaddy-улучшением. Одно следовало за другим поэтапно, проистекало не шибко гладко, и даже отодвинуло по времени очередной обсчёт PageRank'а. А также привело к казусу, подмеченному пользователями Google AdSense - страницы, по которым ползали поисковые пауки AdSense, начинали показываться в серпе, не будучи официально проиндексированными. Я тоже это видел, и описал в этом блоге.
Вебмастера быстро поняли, что нововведения касаются сразу трёх параметров анализа их сайтов Гуглом: контента, ссылок и структуры ресурсов. На почве чего практически сразу начался небольшой бардак.
Ну, не то чтобы бардак. Но вебмастера, не раз наблюдавшие "пляску Гугла" во время пересчёта ПейджРанка, поимели стойкое ощущение, что некое подобие пляски наблюдалось с декабря и чуть ли не по март. Сайты то появлялись в серпе, то проваливались вниз, то вновь всплывали... Причём без активных действий со стороны оптимизаторов (самые мудрые из них вообще на время затаились).
Ну и нашлись, конечно, умные головы, которые смогли обобщить то, что задумал Гугл. Я же, со своей стороны, попытаюсь здесь систематизировать результаты их труда, так что документ маленьким не получится.
- Гугл ратует за качественный (полезный и оригинальный) контент.
Тут всё достаточно просто- наряду с контентообразующими сайтами (головной проект) есть ещё и сонм вторичных по отношению к ним ресурсов, дублирующих в себе материалы с головных сайтов, либо являющихся их партнёрами (с реферальскими ссылками и всеми сопутствующими делами).
Нет ничего удивительного в том, что Гугл хочет видеть в серпе оригинал выше клонов. Это не значит, что клоны будут забанены, нет. Но если они ссылаются на головняка, с реферами в урлах, воспроизводят куски контента головняка на своих документах, то искалка предполагает, что реальному серферу будет куда полезнее именно головняк, а не сайт Васи Пупкина с передранными с головняка материалами, адресующийся реферальской ссылкой опять-таки на головняка.
Применительно к импорту контента всё несколько мягче. Вероятно, аналогия просматривается, но пока практически не ощущается. По крайней мере, многие агентские магазины в серпе торчат выше моего базового- тут всё достаточно демократично. Хотя возможно, Гугл просто не понимает, кто у кого контент берёт. В случае портаторов это ясно, и импортёры контента, как правило, следуют в серпе за экспортёром.
В особо же фатальных случаях, когда передир контента идёт полный, фактические дубликаты сайтов исчезают из основного индекса совсем, переходя в Google Sandbox- в "дополнительные результаты выдачи". Хотя при определённых условиях могут исчезнуть и оттуда. Причину Вы теперь знаете.
Неопределённость тематики для многих сайтов на этапе Bigdaddy апгрейда Гугла вышла боком- они резко упали в серпе. В принципе, так и должно быть- слишком много развелось ресурсов ни о чём, и их надо отфильтровывать. Благо, есть из чего.
- Политика линкования.
Будете смеяться, но теперь структуре ссылок внимания уделяется больше, чем раньше. Сформировалось такое понятие, как карта входящих и исходящих ссылок для каждого(!) сайта. И любая из ссылок с любого документа сайта анализируется с позиций уместности её здесь. Когда линк идентифицирован как неуместный, это плохо- или линкокрутилка, либо купленная ссылка (что не лучше).
Более того. По результатам анализа карты ссылок Гугл каждому сайту навешивает ярлычок с параметром "степень доверия". Сайты с низкой степенью доверия (линкующиеся с кем попало) своими ссылками несут очень небольшой вклад, и линковаться с ними практически бессмысленно. Вы это должны были наблюдать на примере досок объявлений, которые не дают никакого вклада в статус сайта даже при огромном числе ссылок на него. Ничего удивительного- степень доверия Гугла для этих досок вообще никакая. Что тоже понятно.
Отдельный разговор про сети взаимных ссылок. Крайне аккуратно пользуйтесь автоматическим линкообменом, а лучше вообще откажитесь от него во избежание наказания. Может быть, какой-нибудь пейджранк от этого и перепадёт, да только без толку- получите крошечный сухарик-кириешку степени доверия Гугла вместо полагающейся полновесной булки с маком, и никогда больше не сможете подтолкнуть одним своим сайтом другой свой сайт.
Впрочем, тут и ещё одна заморочка вылазит при работе со всякими линкаторами. Катс прямо так и сказал: "если вы увлекаетесь трейдингом взаимными ссылками, то не удивляйтесь тому, что у нынешнего кроулера другие приоритеты, и он не посещает ваш сайт так же часто, как раньше". Мысль выражена изящно. А по-русски говоря, автоматический линкообмен в понимании Гугла свидетельствует о второсортности сайта и отсутствии дружбы с головой его вебмастера. Ни больше, ни меньше.
Впрочем, по всему видать, и Катс может выражаться по-нашему: "этот сайт выглядел очень хорошо, и у него не было ни одной ссылки на сайты всяких придурков". Это он про автоматический линкообмен так отзывается. Запомните такое отношение. И сделайте выводы.
Какие? Да простые самые- сейчас придаётся большое значение односторонним входящим ссылкам с качественных ресурсов, и односторонним же исходящим ссылкам на качественные сайты (а не какие попало, тут будьте особо внимательны- за исходящий линк отвечаете головой).
Итог. Не сказать, чтоб шибко неожиданный, всё достаточно логично.
Если Ваш бизнес зависит от трафика поисковой природы (а попробовал бы он не зависеть), то надо помнить, что только оригинальный контент на сайте, залинковка с себе подобными и тематически однородными качественными ресурсами, а также отсутствие ссылок "на всяких придурков" (говоря словами Катса) помогут Вам прыгнуть в серпе выше головы.
Собственная партнёрская программа в этом только поможет.
Блогерство даёт просто замечательный результат- сегодня блоги являются фаворитами серпа Гугла.
Итог неочевидный.
Благодаря тому, что Гугл банит сайты только в исключительных случаях, когда чётко видит, что ресурс совершенно придурочный, и исследует всю совокупность вариабельного поведения юзеров для улучшения сервиса и коррекции апдейтов, мы на примере рассмотрения "обломов Гугла" можем заключить:
Всевозможные неклоачные доры поисковыми ботами проходятся насквозь, вплоть до таргетинговой страницы. Всякие ифреймы им не помеха. В серпе будет присутствовать таргетинговая страница, но не будут видны сами доры, хотя без их посредничества не обошлось никак. Раньше было не так, учтите.
302 редирект Гугл обожает. Не бойтесь его использовать- ссылка на страницу с 302 редиректом будет склеена с таргетинговой, с наследованием редиректом ПейджРанка таргетинга. Сам Катс конкретно указывает на то, что для борьбы с двуличностью доменов (с www и без) как раз и нужно использовать 302 редирект- Гугл с благодарностью примет помощь в избавлении его от двойного индекса Вашего сайта.
Естественно, сей маленький обзорчик результатов последних апдейтов Гугла никак не соответствует громадью гугловых планов. Но Вы совершенно не стеснены в возможностях, и вольны сами сходить в поиск и почитать об апдейтах на любом языке и хоть из первоисточника. Тут отражены только вещи, о которых вебмастера ну всяко должны знать, даже если им лень припадать к истокам. А многим лень.
Хомячковый рай. Уйти и потеряться:
Сим-сим, откройся.
Как известно, люди мануалов не читают. Создателям всякого рода девайсов это совершенно понятно, как и то, что необходимость чтения мануала перед использованием их девайса есть верный путь к краху фирмы. Ибо пакет с мануалом по-любому останется нераспечатанным, а девайс приобретёт репутацию неюзабилитипригодного, и спросом пользоваться не будет.
Личный опыт только подтверждает высказанный тезис- в инструкции к мобильникам, телевизорам, стиралкам и прочим механизмам не заглядывал ни разу в жизни. Если что не так, берется отвёртка в руки, и... Далее по Задорнову (про военного "козла" и двух немцев, избалованных и изнеженных автосервисом, понявших вдруг, почему они проиграли войну).
Стало быть, концепция "фиг его знает, как оно работает, но сейчас вооружимся методом тыка, и будем разбираться" вполне имеет право на жизнь. Приверженцы концепции в реальном выигрыше, когда "фиг его знает" воистину таков, и мануала просто нет в природе. Склонные к чтению грамотеи инициативу тут всяко теряют. RTFM в отстойнике. Но пол-литра как инструмент прояснения ситуации, а также безымянный непосредственный предок женского пола каждого из присутствующих, упомянутый всуе и сакрально тридцать три раза, только и способны проблему решить.
Люди от науки, а также шибко грамотные, называют это эмпирическим подходом. Если такой подход Вам чужд, и Вы неуютно себя чувствуете при решении задач, граничные условия которых либо вообще не оговорены, либо очерчены крайне смутно и туманно, на уровне догадки, то вебмастеринг явно не для Вас. Потому как вебмастер поминает четыре Основополагающих Слова Лукича ежедневно. Ну, те самые, "мы пойдём другим путём". Когда вебмастеру эмпирически понятно, что вот так, так и этак нифига не получается, но делать что-то всё равно надо.
Я не стану Вас измождать хождением вокруг да около, а сразу перейду к самой ответственной задаче, стоящей перед каждым состоявшимся вебмастером. Пути решения которой никому толком не известны, но точно выяснено только одно- задача стопроцентно эмпирическая, более того, итерационная. Решений имеет несколько, сколько точно и каких, никто не знает. Это задача про сим-сим.
Вот только представьте: некто потенциальный Ваш клиент захотел покурить дурь с понтами. А Вы, хоть дурью и не торгуете, но можете предложить клиенту самый новый, самый модный кальян с турбонаддувом и встроенной клизмой. Причём совершенно понятно, что выйти друг на друга вы способны только с помощью искалки. И не менее понятно, что потенциальный клиент абсолютно точно не будет искать ни клизму, ни кальян с турбонаддувом, ни производное от этих вещей. Но пересечься друг с другом Вам всё равно надо. Вот такая задача.
Извиняюсь за утрирование, но реальная сложность процесса проникновения в серп серьёзной искалки, когда юзер в ответ на своё сакраментальное сим-сим "обкуриться так шоб все завидовали" ДОЛЖЕН получить линк с Вашим сайтом в первых строках, зело велика есть.
Причём, отметьте, мы не про яндекс какой недоделанный говорим, который сам уже не знает, чему ему от сайтов надо, и банит всех подряд, оставляя в индексе лишь странички Вась Пупкиных (подобное тянется к подобному). Мы толкуем за продвинутые искалки, помаленьку переходящие от концепции поиска по кейвордам к алгоритмам "сайты про ЭТО ссылаются на данный ресурс, юзеры, ищущие ЭТО, и ушедшие на ресурс, обратно не возвращаются, значит, ресурс достоин того, чтобы отыскиваться, когда ищут конкретно ЭТО. А также ТО и СЁ".
Посему, конечно, вебмастеру очень любопытно, как же исчисляется релевантность запросу для его неповторимого сайта. Хотя бы для того же Гугла, откуда можно брать строго целевой трафик. И в данном посте столь уместное любопытство будет удовлетворено.
Источник нижеприведённой информации остался не зафиксированным. Поиск кажет много мест, содержащих сей чудный список, но кто у кого его позаимствовал, установить трудно. Автор пусть запишется в комментах- респекта ему положено целый бассейн.
Итак, что учитывается при формировании серпа:
- Уникальность контента.
- Цитируемость контента другими сайтами.
- Входящие ссылки и якорь этих ссылок соотносительно с ключевыми словами.
- Возраст и репутация ссылающихся сайтов.
- Текст около входящих ссылок (например, ссылки после фразы "sponsored links" могут быть проигнорированы).
- Фактор приобретения обратных ссылок. Смысл тот же.
- Возраст сайта.
- Возраст домена. Это не одно и то же.
- Дата истечения регистрации домена.
- Возраст контента.
- Регулярность обновления и добавления контента.
- Размер текста статей (рекомендуется от 300-500 слов).
- Факторы стандартов сайта (особенности HTML разметки).
- Негативные внутренние факторы (например, переоптимизация по ключевикам).
- Употребление связанных терминов.
- Google Pagerank.
- Внешние ссылки, соответствие их якоря ключевым словам.
- Количество входящих ссылок с негативных ресурсов (со спам сайтов, дорвеев).
- Использование всякого рода "rel=nofollow" и noindex.
- Глубина расположение контента на сайте.
- Статистика, собранная непосредственно с сайта-поисковика (например, как часто пользователи жмут "Назад" после того, как перешли по ссылке со страницы результатов поиска).
- Статистика, собранная с общедоступных серверов статистики.
- Использование субдоменов, ключевых слов в субдоменах.
- Употребление ключевиков в именах файлов.
- Семантическая связь документов с наполнением сайта.
- Фактор изменений и дополнений статей.
- IP хостинга и репутация (качество) сайтов на этом хостинге.
- Технические аспекты: коды, возвращаемые сервером, такие как 301 или 302, частота возврата кода 404 по отношению к коду 200, используется ли robots.txt
- Uptime хостинга.
- Имеются ли страницы, не соответствующие своей категории или заголовку (cloaking).
- "Битые" ссылки.
- Небезопасный или нелегальный контент.
- Качество HTML разметки, ошибки в разметке.
- Время ответа сервера.
Список никак не упорядочен по важности того или иного критерия, помните это. Более того, весовой коэффициент каждого из критериев неизвестен никому, и, скорее всего, динамичен (постоянно варьируется самим поисковиком в ориентире на достижение максимальной релевантности запросам). Но качественное соответствие всего перечисленного реально анализируемым, и, следовательно, учитываемым Гуглом параметрам ресурса имеется.
За каждый пункт можно толковать отдельно, причём долго и в красках. Но тем, у кого большой монитор, и весь этот чудный списочек на нём умещается целиком, предельно очевидно, что попасть в серп Гугла способен действительно заслуживающий этого ресурс. Как-то где-то чего-то быстренько "накрутить" и встать на первую строчку тут сложно. Опыт работы с Яндексом здесь напрямую не применим.
Таким образом, становится понятно, что серьёзные искалки не любят (или, скажем так, не особо ценят) ресурсы "про всё на свете". Там не бывает чётко выраженной тематики, со ссылочной структурой на нишевые ресурсы. Наоборот, тщательно вылизанный (и на уровне кода, и в плане контента) сайт с узкой тематической направленностью, залинкованный с себе подобными, да ещё и накопивший в себе (методом портирования ли, или ручного добавления) весомую базу нишевых документов, имеет все шансы появляться на достойном месте в серпе в ответ на любой "сим-сим" серфера в рамках диапазона компетентности сайта.
