
Яндекс и дублирование контента.
Самые популярные товары с Али по лучшей цене:
Автомобильный диагностический сканер 640 руб.
UV LED фонарь, питание 1 АА, длина волны 395 nm 360 руб.
Цифровой тестер качества воды 580 руб.
Яндекс и дублирование контента.
Индекса жаждешь?
Рецепт тут дюже простой.
Ссылок побольше...

В вебмастерской тусовке принято считать, что попасть в индекс Яндекса и в нём удержаться на протяжении длительного времени (годы) можно лишь с качественным и уникальным контентом. Когда каждая страница сайта являет собой чуть ли не шедевр копирайта и SEO-оптимизации. И по какой-то неведомой причине никто этот контент не копипастит на массу внешних сайтов.
Соответственно, если документы сайта не отвечают высоким идеалам образцово-показательного копирайта, то и не быть им в индексе.
Местному автору вышеозначенный постулат всегда казался не более чем выдумкой манимейкерствующих копирайтеров. Поэтому да не возбранится местному автору высказать пару мыслей на этот счёт публично.
С чем мы имеем дело.
Некоторое время тому назад, когда обитателей Страны осчастливили возможностью писать домены сайтов родными русскими буквами, местному автору захотелось проверить, как его движки поведут себя под такими доменами. Скажем, в зоне .РФ
После проверки любопытство осталось удовлетворённым, а сам домен — ненужным. Ибо совершенно непонятно, с чего это вдруг люди не смогут жить без таких доменов, хотя раньше жили без них припеваючи. В данный момент, насколько местный автор в курсе, .РФ домены, будучи зарегистрированными, но так никому и не пригодившись, массово бросаются, и удаляются из реестра доменной зоны тысячами в день.
Но просто бросить домен — как-то не по-хозяйски. Так что в последний протестированный движок, которым оказался Ласто Блог, были влиты четыре поста. Про какую-то косметическую проблему, абсолютно не интересующую мужиков, но притягивающую женский трафик. Каковой мог бы конвертироваться в доход по партнёрке, но, скажем честно, так ни во что и не сконвертировался.
Теперь будьте внимательны.
Четыре поста по 300 (в среднем) слов представляют собой рерайт постов с блога на таком же движке, но хозяина партнёрки. Тот блог имеет многолетнюю историю, и жрёт с искалок приличный трафик. То есть гарантированно трастовый.
Сам рерайт делался без учёта критериев SEO, и без заточки под какие-то там ключевики и кейворды. Просто читаем абзац оригинального текста, и пишем своими словами то же самое в дырку для постинга. В стиле школьного изложения, не задумываясь.
То есть на старте мы имеем:
-
Домен с именем, никак не коррелирующим с тематикой сайта.
(В русском и нерусском языках даже и нету такого слова) -
Контент взят хорошо известный Яндексу, с трастового сайта.
-
Рерайт без учёта SEO-специфики.
Такой бы намалевал представитель школоло-поколения. -
Никакого оригинального дизайна сайту не давалось.
-
Никаких мероприятий по ускорению индексации не проводилось.
-
Внешних входящих ссылок тоже нет.
Вообще и принципиально.
Да, верно. Внешние ссылки на этот сайт тоже не ставились. То есть PageRank и ТИЦ у него девственно нулевые, внешнее ссылочное ранжирование не задействовано никак, да вдобавок ко всему с сайта имеются продажные исходящие ссылки (ибо Хитрая Контора — наш друг).
Что это такое по всем параметрам?
Типичный сателлит, пытающийся сконвертировать трафик с помощью баннера в пользу партнёрки. С нулевой раскруткой, скормленный лишь Яндекс-Вебмастеру и Гуглу. Чтобы быть проиндексированным ими.
То есть сателлит к тому же ещё и предельно дефективный.
Как думаете, какова судьба этого сателлита?
Всякий SEO-шник без раздумий скажет, что прямая дорога ему в бан. Вторичный контент, никакой включённости в ссылочное ранжирование, и всего 20 килобайт HTML кода с контентом (совокупный вес всех четырёх постов). Фигня какая-то. Недоразумение.
Но.
Не забываем, что ввиду наличия на борту движка Ласто Блога фишки размножения контента спустя непродолжительное время на сайте возникает масса страниц (сотни, а в перспективе и тысячи), сконструированных из кусков исходных четырёх постов.
А это, господа, крайне циничное дублирование контента. Вернее, мешанинг ограниченного по объёму оригинального контента в промышленных масштабах.
Нас интересует вопрос, какова реакция искалок на это.
И пока интересует только это.
Но интерес наш принципиальный.
Яндекс и рецидивистское дублирование контента.
Внимательно отслеживая странички в индексе указанной искалки, местный автор был поражён одним обстоятельством.
Эта искалка периодически удаляет из своего индекса странички постов. То есть собственно полезный контент сайта, его основу. Считая (и возможно, небезосновательно) его несущественным. Недостойным присутствия в индексе.
Это не есть неожиданность.
Примерно то же самое случается с сайтом при АГС.
Однако многочисленные документы с «результатами поиска по сайту» в индексе искалки почему-то остаются. Скорее всего, там большая тошнотность кейвордов, согласованность их контента с тайтлом, иерархическая упорядоченность, что-то ещё не менее важное, но не вполне очевидное для Яндекса.
Поскольку вся эта толпа страниц ссылается на посты, по мотивам которых толпа и родилась, в один из последующих апов Яндекса выкинутые им ранее посты возвращаются в индекс. Просто потому, что сам сайт интенсивно и обильно на посты ссылается (постов же всего четыре штуки, так что каждый белый дорвейчик линкуется на все четыре поста сразу) — а это предельно агрессивное линкование.
После чего фильтр дублирования контента, видимо, срабатывает снова, и процесс повторяется. С той или иной степенью решимости (могут выпасть два или три поста из четырёх, а не все одновременно).
Тем не менее процесс идёт на грани фола.
Наблюдая нечто подобное и для других сайтов, местный автор имеет смелость сформулировать обобщение, не претендующее на истину в последней инстанции, но логически непротиворечивое:
-
Яндекс умеет детектировать страницы сайта с контентом на фоне вспомогательных.
-
К таким страницам он применяет полный спектр фильтров.
К вспомогательным страницам сайта, видимо, подход не столь суровый.
И они выживают, если не дураки в плане SEO. -
Не играет особой роли, что именно за контент расположен на основных страницах. Копипаст, рерайт, копирайт — при недостаточной трастовости сайта контент любого качества выпадет из индекса запросто и только в путь.
-
Противодействовать выпадению страниц способно правильное ссылочное — как внутреннее, так и внешнее.
-
Дублирование контента внутри сайта, даже совершенно безбашенное, в стиле камикадзе, не является поводом для бана.
Разные намёки.
Когда мы на своих сайтах наблюдаем, как основные документы ресурса покидают индекс поисковика, то обычно виним себя. За то, что это копипаст, недостаточно качественный рерайт, либо не шибко изящный синонимайз. Но когда мы точно знаем, что выпавшие документы — вообще копирайт (собственноручно написанные тексты, например), то это конкретно озадачивает.
На самом деле никакой нашей вины в секир-серпе нет. Можно прекрасно жить с откровенным копипастом, с многократно дублированным в пределах сайта контентом, и при этом надёжно и безвылазно сидеть в индексе.
Главное, ссылаться на значимые документы изнутри сайта. А ещё лучше — снаружи, с других сайтов Сети. Заодно повышая тем самым свой траст.
Гугл и дублирование контента.
Естественно, всех интересует, как на тестового морального урода смотрит Гугл.
Как ни странно, абсолютно все страницы, в том числе и с дублированным контентом «в стиле обнаглевшего камикадзе» сидят у него в дополнительном индексе. Их 1250 на момент написания этого поста (Яндекс знает про семь сотен).
В основном же индексе 75 документов. Причём контентообразующие страницы (которые с постами) сидят в основном индексе всегда, и его не покидают. Тут Гугл молодец.
Остальные семь десятков — наиболее удачные из «камикадзе». Если их отсматривать вручную, то по формальным признакам они действительно напоминают анонсы материалов с линками на их полные версии.
Но.
Замечено, что примерно после пятидесятого «камикадзе» добавление новых в основной индекс идёт неохотно. За последний месяц вообще добавлена всего одна штука, хотя «камикадзе» порождаются на свет постоянно, регулярно, и в гораздо больших количествах.
Стало быть, с течением времени на сайт начинают налагаться фильтры, и в основной индекс Гугла просачивается всё меньше и меньше достойных того документов.
Чтобы это обойти, надо повышать траст. То есть как минимум наращивать ссылочное. И не просто ссылочное, а внешнее ссылочное.
Очевидное.
Сайты с малозначимым (или даже откровенно некачественным или почти отсутствующим) контентом вполне способны сидеть в индексе Яндекса. Долго и надёжно.
Суть и происхождение контента особой роли не играют.
Трастовому сайту прощается многое, нетрастовый может выкрутиться либо получением входящих ссылок, либо задействованием какой-нибудь хитрой внутренней перелинковки с многочисленных вспомогательных (пусть даже и откровенно нагенерированных) страниц на значимые документы.
Объединение хитрого движка с умелыми действиями вебмастера по наращиванию ссылочной массы даёт вебмастеру возможность не особо переживать по поводу недостаточной кошерности контента. А также за всякое там дублирование контента в пределах сайта и тому подобные «запретные» действия.
P.S.
Про тестового морального урода.
Пациент проживёт недолго, ссылаться на него нет смысла.
Да и не нужно - хочется сохранить условие «ноль входящих ссылок» до конца.
Другие статьи категории «SEO - три весёлых буквы»
Эротические будни экономных бородатых дядек.

Объявлен набор в волонтёры. С IQ пониже.

№ 1Без темы
№ 2Невероятно, но факт
Невероятно, но факт - на коленке сделанный рерайт через некоторое время начинает пользоваться не слабым спросом. Причём длительность этого спроса - величина не постоянная. Вполне достаточно небольшого промежутка времени, чтобы функционал ластоблога породил несколько сотен страниц-"камкадзе". А дальше - лавинообразный процесс, который и наблюдаю уже в течении года на одном экземляре из лабораторных произведений, состоящий всего из шести страниц контентообъёмом всего в 500 зн. каждая.
На данный момент в идексе Я и Г примерно одинаковое количество страниц-"камкадзе" и зашкаливает за 10к в каждой из искалок, причём без всяких внешних ссылок. Всё это скопление порождает нехилый трафик, который неплохо монетизируется. Есть основания полагать, что за счёт этого потока, изначально брошенный за ненадобностью в лабораторные отходы откровенный ГС, цепко присутствует в серпе.
У парочки других подобных ресурсов, живущих в корзине вэбмастерской лаборатории, с порождением дорвейчиков тоже всё в порядке. Но, наблюдается некий дисбаланс в пользу той или иной искалки порядка 10К>100 и наоборот. Есть над чем подумать в разрезе поста Мастера...
Позвольте вопрос не совсем по теме, но касательно ластоблога.
Когда-то приметил, что на страницы типа "rss_ " Яндекс стал ругаться выражением "Неверный формат документа" в панельке вебмастера.
Какую прививку сделать ластоблогу, чтобы больше не получать подобных информативных сообщений яши?
Другое дело, что лента в виндовой кодировке, и если Яндекс почему-то думает, что там должен быть строго УТФ, и не читает хедер потока с кодировкой, то да, ему может померещиться про неправильный формат.
Также смотрите, куда именно Вы скармливаете RSS поток.
Сервис "Яндекс-блоги" работает с лентами Ласто-блога вполне корректно.
Но отдельные сервисы Яндекса требуют нестандартного формата. Яндексом же и выдуманного. Если суётесь туда со своим стандартным Atom/Rss/Rss-2 - то да, суётесь не по адресу.
Ну и казусы бывают, когда хостер по собственной инициативе зачем-то конвертирует RSS-windows в KOI. Доводилось видеть. Хедер ленты получается виндовый, а тело - в KOI. Естественно, тут казус и непонятки. Тот же Твиттер при импорте такой ленты рисует кракозябы.
№ 3Кстати, есть предложение
Суть такая: у меня есть белые проекты, к ним, в качестве блога прикручен Ластоблог. Так вот, со страниц постов, даю ссылки на основной контент белого сайта. Но, так как, яша, держит в индексе большей частью "камикадзе" - вот и было неплохо, именно с них, иметь ссылки не только на посты, но и на туда, куда мне нужно. Тем паче, камикадзе генерятся по кейвордам, и этот кейворд использовать в этом деле. Что бы разные камикадзе ссылались на разные страницы основного проекта. А может вообще, пусть ставит их рандомно.
Не знаю, понятно ли изложил...
Тут, правда, не совсем ясно мне, а стоит ли вообще "городить такой огород"?
Сразу скажу, что навешивание внешних ссылок на камикадзе шибко укоротит их жизнь. Если сейчас они работают понятно как и особо каверзных вопросов к ним не возникает, то всякие сверхурочные линки на пользу не пойдут.
№ 4Вдогонку.. маленькое уточнение
№ 5Поможем камикадзе.
Спарсив вордстат по своей теме, или теме статей, простеньким скриптом методично. порциями в день, засовывать их в файло сеарч.дб
Целесообразно прямо на старте влить сотни две записей сразу.
Обязательно с ошибками - юзеры сейчас безграмотны, причём безграмотны как-то удручающе, фатально и необратимо. Вот эти максимально приближённые к реальности "запросы" и надо индексить.
Если будет вопрос, куда это всё писать, то это и вовсе просто.
В раздел админки про преференции поисковых запросов.
Формат: кейворд, знак равенства на конце.
По одному кейворду на строчку.
Люди с пониманием будут ещё и пользовать в нужных местах квадратные скобки, как там предлагается (для дальнейшего роста армии камикадзе с нужными умениями) но в простейшем случае скобки не обязательны.
Вообще, в свойства админки заложен довольно богатый функционал работы с поисковым трафиком- наколбасить там можно много чего :)
№ 6Чтобы белые на виду стояли и не падали
По неписанному и никем не озвученному закону из кодекса поисковых систем, ими в расчёт берется самая первая ссылка из нескольких имеющихся на странице (в одно и то же место).
Через шаблон можете модернизировать сниппет как угодно.
В дефолте базовый вариант.
У каждого вебмастера может быть своё видение сниппета.
№ 10Контент
Понятно у многих - неактуальный копи-паст встречается. А почему сей домен мог попасть под эту санкцию?
Растаскивания контента на другие сайты.
Как мы знаем,
а) Яндекс никогда не понимал, кто автор контента.
б) Копипастеры ситуацию усугубляют, и либо вообще не ставят ссылку на оригинал, либо ставят её через детские ухищрения с JavaScript, чтобы ПиАр "не утекал".
Возникшая в итоге неадекватность Яндекса ничем не лечится, и даёт такой эффект.
Ну да у этой искалки всегда были свои представления о мире.
№ 11Не поможет ли от растаскивания кэширование?
Не поможет ли это бороться с растаскиванием контента?
+
Можете в админке вообще запретить отдельным категориям попадать в ленту.
Но, думается, копипастеров это не остановит.
№ 12Мусор на блоге
Во-всяком случае, в варианте с ГС этот фактор приводит к скорейшему попаданию под фильтры, хотя такие "страницы", как на WP, так и на других движках, зачастую активно индексируются. Примерно в течении недели =)
№ 14Варфоломеевская ночь
На входе имеем 4 группы сатов, в эти два апа у них следующие изменения:
- Сплоги, сплошной копипаст, возраст 1.5 года - получили в плюс страниц в том чисе и сеарч
- Сплоги, возраст от 3 мес до пары недель, сплошной циничный копипаст - за прошлый ап частично, за этот полностью - лишились страниц сеарч, страницы сеарч были вырезаны под ноль. Трафик остался на месте.
- «Типа белые сайты», возраст 2-3 мес, контент пишется на биржах копирайтерами, т.е. «уникальный», человеческий - за прошлый ап частично, за этот полностью - лишились страниц сеарч, страницы сеарч были вырезаны под ноль. Трафик остался на месте – не упал, что дает надежды.
- Сплоги, возраст 6-7 мес – получили в плюс страниц, в том числе и сеарч.
Вот теперь сижу и думаю, что сие значит?
На новых сайтах с возрастом до 6 мес – Варфоломеевская ночь, роль гугенотов исполнили страницы сеарч.
Не принесет ли следующий ап вылет «основных» страниц на новых сайтах?
Зы А в Багдаде все спокойно (гугл)
Сайтов в каждой группе было от 5 до 15 - выборка в принципе репрезентативная.
"Дедушке" можно ходить по плацу с расстегнутой ширинкой (и даже вовсе без штанов), а вот "духа бестелесного" за незастегнутую пуговицу жестоко накажут по всей строгости Устава.
Но дух тоже когда-нибудь станет дедушкой, и в этом решение проблемы.
Страна такая...
Правда, я всегда придавал большое значение внутренним ссылкам и хорошей ссылочной структуре, внутренней и внешней.
В общем, выводы мастера порадовали - я на правильном пути.