Яндекс и дублирование контента.
Индекса жаждешь?
Рецепт тут дюже простой.
Ссылок побольше...
В вебмастерской тусовке принято считать, что попасть в индекс Яндекса и в нём удержаться на протяжении длительного времени (годы) можно лишь с качественным и уникальным контентом. Когда каждая страница сайта являет собой чуть ли не шедевр копирайта и SEO-оптимизации. И по какой-то неведомой причине никто этот контент не копипастит на массу внешних сайтов.
Соответственно, если документы сайта не отвечают высоким идеалам образцово-показательного копирайта, то и не быть им в индексе.
Местному автору вышеозначенный постулат всегда казался не более чем выдумкой манимейкерствующих копирайтеров. Поэтому да не возбранится местному автору высказать пару мыслей на этот счёт публично.
С чем мы имеем дело.
Некоторое время тому назад, когда обитателей Раши осчастливили возможностью писать домены сайтов родными русскими буквами, Мастеру Ласто захотелось проверить, как его движки поведут себя под такими доменами. Скажем, в зоне .РФ
После проверки любопытство осталось удовлетворённым, а сам домен — ненужным. Ибо совершенно непонятно, с чего это вдруг люди не смогут жить без таких доменов, хотя раньше жили без них припеваючи. В данный момент, насколько местный автор в курсе, .РФ домены, будучи зарегистрированными, но так никому и не пригодившись, массово бросаются, и удаляются из реестра доменной зоны тысячами в день.
Но просто бросить домен — как-то не по-хозяйски. Так что в последний протестированный движок, которым оказался Ласто Блог, были влиты четыре поста. Про какую-то косметическую проблему, абсолютно не интересующую мужиков, но притягивающую женский трафик. Каковой мог бы конвертироваться в доход по партнёрке, но, скажем честно, так ни во что и не сконвертировался.
Теперь будьте внимательны.
Четыре поста по 300 (в среднем) слов представляют собой рерайт постов с блога на таком же движке, но хозяина партнёрки. Тот блог имеет многолетнюю историю, и жрёт с искалок приличный трафик. То есть гарантированно трастовый.
Сам рерайт делался без учёта критериев SEO, и без заточки под какие-то там ключевики и кейворды. Просто читаем абзац оригинального текста, и пишем своими словами то же самое в дырку для постинга. В стиле школьного изложения, не задумываясь.
То есть на старте мы имеем:
-
Домен с именем, никак не коррелирующим с тематикой сайта.
(В русском и нерусском языках даже и нету такого слова) -
Контент взят хорошо известный Яндексу, с трастового сайта.
-
Рерайт без учёта SEO-специфики.
Такой бы намалевал представитель школоло-поколения. -
Никакого оригинального дизайна сайту не давалось.
-
Никаких мероприятий по ускорению индексации не проводилось.
-
Внешних входящих ссылок тоже нет.
Вообще и принципиально.
Да, верно. Внешние ссылки на этот сайт тоже не ставились. То есть PageRank и ТИЦ у него девственно нулевые, внешнее ссылочное ранжирование не задействовано никак, да вдобавок ко всему с сайта имеются продажные исходящие ссылки (ибо Хитрая Контора — наш друг).
Что это такое по всем параметрам?
Типичный сателлит, пытающийся сконвертировать трафик с помощью баннера в пользу партнёрки. С нулевой раскруткой, скормленный лишь Яндекс-Вебмастеру и Гуглу. Чтобы быть проиндексированным ими.
То есть сателлит к тому же ещё и предельно дефективный.
Как думаете, какова судьба этого сателлита?
Всякий SEO-шник без раздумий скажет, что прямая дорога ему в бан. Вторичный контент, никакой включённости в ссылочное ранжирование, и всего 20 килобайт HTML кода с контентом (совокупный вес всех четырёх постов). Фигня какая-то. Недоразумение.
Но.
Не забываем, что ввиду наличия на борту движка Ласто Блога фишки размножения контента спустя непродолжительное время на сайте возникает масса страниц (сотни, а в перспективе и тысячи), сконструированных из кусков исходных четырёх постов.
А это, господа, крайне циничное дублирование контента. Вернее, мешанинг ограниченного по объёму оригинального контента в промышленных масштабах.
Нас интересует вопрос, какова реакция искалок на это.
И пока интересует только это.
Но интерес наш принципиальный.
Яндекс и дублирование контента.
Внимательно отслеживая странички в индексе указанной искалки, местный автор был поражён одним обстоятельством.
Эта искалка периодически удаляет из своего индекса странички постов. То есть собственно полезный контент сайта, его основу. Считая (и возможно, небезосновательно) его несущественным. Недостойным присутствия в индексе.
Это не есть неожиданность. Примерно то же самое случается с сайтом при АГС.
Однако многочисленные документы с «результатами поиска по сайту» в индексе искалки почему-то остаются. Скорее всего, там большая тошнотность кейвордов, согласованность их контента с тайтлом, иерархическая упорядоченность, что-то ещё не менее важное, но не вполне очевидное для Яндекса.
Поскольку вся эта толпа страниц ссылается на посты, по мотивам которых толпа и родилась, в один из последующих апов Яндекса выкинутые им ранее посты возвращаются в индекс. Просто потому, что сам сайт интенсивно и обильно на посты ссылается (постов же всего четыре штуки, так что каждый белый дорвейчик линкуется на все четыре поста сразу) — а это предельно агрессивное линкование.
После чего фильтр дублирования контента, видимо, срабатывает снова, и процесс повторяется. С той или иной степенью решимости (могут выпасть два или три поста из четырёх, а не все одновременно).
Тем не менее процесс идёт на грани фола.
Наблюдая нечто подобное и для других сайтов, местный автор имеет смелость сформулировать обобщение, не претендующее на истину в последней инстанции, но логически непротиворечивое:
-
Яндекс умеет детектировать страницы сайта с контентом на фоне вспомогательных.
-
К таким страницам он применяет полный спектр фильтров.
К вспомогательным страницам сайта, видимо, подход не столь суровый.
И они выживают, если не дураки в плане SEO. -
Не играет особой роли, что именно за контент расположен на основных страницах. Копипаст, рерайт, копирайт — при недостаточной трастовости сайта контент любого качества выпадет из индекса запросто и только в путь.
-
Противодействовать выпадению страниц способно правильное ссылочное — как внутреннее, так и внешнее.
-
Дублирование контента внутри сайта, даже совершенно безбашенное, в стиле камикадзе, не является поводом для бана.
Разные намёки.
Когда мы на своих сайтах наблюдаем, как основные документы ресурса покидают индекс поисковика, то обычно виним себя. За то, что это копипаст, недостаточно качественный рерайт, либо не шибко изящный синонимайз. Но когда мы точно знаем, что выпавшие документы — вообще копирайт (собственноручно написанные тексты, например), то это конкретно озадачивает.
На самом деле никакой нашей вины в секир-серпе нет. Можно прекрасно жить с откровенным копипастом, с многократно дублированным в пределах сайта контентом, и при этом надёжно и безвылазно сидеть в индексе.
Главное, ссылаться на значимые документы изнутри сайта. А ещё лучше — снаружи, с других сайтов Сети. Заодно повышая тем самым свой траст.
Гугл и дублирование контента.
Естественно, всех интересует, как на тестового морального урода смотрит Гугл.
Как ни странно, абсолютно все страницы, в том числе и с дублированным контентом «в стиле обнаглевшего камикадзе» сидят у него в дополнительном индексе. Их 1250 на момент написания этого поста (Яндекс знает про семь сотен).
В основном же индексе 75 документов. Причём контентообразующие страницы (которые с постами) сидят в основном индексе всегда, и его не покидают. Тут Гугл молодец.
Остальные семь десятков — наиболее удачные из «камикадзе». Если их отсматривать вручную, то по формальным признакам они действительно напоминают анонсы материалов с линками на их полные версии.
Но.
Замечено, что примерно после пятидесятого «камикадзе» добавление новых в основной индекс идёт неохотно. За последний месяц вообще добавлена всего одна штука, хотя «камикадзе» порождаются на свет постоянно, регулярно, и в гораздо больших количествах.
Стало быть, с течением времени на сайт начинают налагаться фильтры, и в основной индекс Гугла просачивается всё меньше и меньше достойных того документов.
Чтобы это обойти, надо повышать траст. То есть как минимум наращивать ссылочное. И не просто ссылочное, а внешнее ссылочное.
Очевидное.
Сайты с малозначимым (или даже откровенно некачественным или почти отсутствующим) контентом вполне способны сидеть в индексе Яндекса. Долго и надёжно.
Суть и происхождение контента особой роли не играют.
Трастовому сайту прощается многое, нетрастовый может выкрутиться либо получением входящих ссылок, либо задействованием какой-нибудь хитрой внутренней перелинковки с многочисленных вспомогательных (пусть даже и откровенно нагенерированных) страниц на значимые документы.
Объединение хитрого движка с умелыми действиями вебмастера по наращиванию ссылочной массы даёт вебмастеру возможность не особо переживать по поводу недостаточной кошерности контента. А также за всякое там дублирование контента в пределах сайта и тому подобные «запретные» действия.
P.S.
Про тестового морального урода.
Пациент проживёт недолго, ссылаться на него нет смысла.
Да и не нужно - хочется сохранить условие "ноль входящих ссылок" до конца.
Количество символов 9169 Количество символов без пробелов 7825 Количество слов 1277 Количество уникальных слов 593 Количество значимых слов 490 Количество стоп-слов 458 Вода 61.6 % Классическая тошнота документа 5.2 % Академическая тошнота документа 6.9 %
Хомячковый рай. Уйти и потеряться:
Эротические будни экономных бородатых дядек.
Так спохмела тяжелы...
Пришлите любую!
Как известно, бизнес — это такая прикольная штука, когда вкладываешь деньги во что-то перспективное, что потом приносит прибыль. И достаточно быстро, иначе это не бизнес, а долговременные инвестиции. Правда, всегда можно лопухнуться в оценке перспективности, и на этом получить убыток. Но это уже риски и издержки профессии.
Господа сайтовладельцы есть те же самые прозаические дельцы (если разложить термин по законам структуральной лингвистики, и выделить самую суть — привет Задорнову), и ничто торгашеское им тоже не чуждо.
Да, можно купить домен за сто рублей денег, заселить в домен простую CMS, влить в неё контент, совершить несколько телодвижений с яркой эротической окраской, немного вспотеть в процессе (не без этого), и подождать пару-тройку апов. После чего начать получать деньги от продажи ссылок и рекламных мест (хотя бы в виде контекстной рекламы или пропаганды партнёрок в тему).
Естественно, телодвижения очевидной эротической направленности у каждого сайтовладельца будут свои. Все же такие крупные специалисты в подобных вещах... Но, по большому счёту, тут вырисовывается либо любительщина (кто во что горазд и чему научен, причём всё своими силами), либо некий коммерциал в жанре «пусть профессионалы за денежку сделают мне красиво и приятно».
Местный автор с детства чтил нишу «amateur», однако это далеко не показательно. Ибо редко у кого есть бесплатные домены в любом количестве, мало кто сможет написать нужную для данного функционала CMS, ещё меньше спецов по парсингу контента из ниоткуда, с созданием явно полезных ресурсов справочного характера на актуальные темы. Ну и совсем немногие из умеющих всё это делать владеют технологиями и возможностями беззатратного продвижения получившихся ресурсов.
Поэтому рядовому сайтовладельцу на каждом шаге приходится тратить деньги, и он крут, если какой-то из шагов для него бесплатен.
Особо серьёзные деньги расходуются на этапе эротических танцев с бубном. Когда нулевому сайту надо придать серьёзные показатели пузомерок, чтобы он смог попасть в базу СеоПульта (а также других подобных сервисов), и начать приносить ощутимые деньги. Хотя бы рублей триста в сутки с тысячи страниц.
Местный автор категорически отказывается обсуждать вопрос, с какого бодуна все вдруг решили, что сайт с пузомерками обладает несомненной ценностью, и какой именно. Абстрагируемся от этого. Ибо что в тайтле поста написано?
Тайтл поста обещает рассказ про то, как с наименьшими затратами новорожденный и никому нафиг не нужный сайт превратить в донора, по которому акцепторы станут облизываться издалека, сильно вожделеть его, а потом драться между собой за право присосаться к титьке. И платить за то деньги эври дей многие годы.
Скажу сразу, особо для тех, кто не совсем понимает примитивную SEO-терминологию, что тупой нагон ТИЦ-а с PR-ом — это далеко не то, что имеется ввиду. Потому что акцепторам Ваш ТИЦ нафиг не упал, им нужен траст. Причём в той искалке, под которую акцептор продвигается.
Понятно, что не всякий акцептор это понимает. Например, школьникам нужен именно ТИЦ. Но ориентироваться на работу со школьниками вряд ли полезно, ибо толку с них в плане дохода мало, так что давайте постигать чуть более сложные вещи.
Яндексовый траст.
Давайте пойдём в Яндекс, и сделаем такой странный запрос:
(url:"nanocms.name" | url:"splog.name" | url:"sape.ru" | url:"www.lastoshop.com")
Такие домены взяты потому, что местный автор абсолютно чётко осознаёт, что представляет собой каждый из них, чего в нём сидит, и насколько оно трастово.
Домен сапы написан для того, чтобы вместо него Вы потом подставляли свои домены, и смотрели их траст относительно остальных. Если свой домен при этом в списке не находится, значит, нужно поиграться с www. в написании домена. Если и после этого своего домена в выдаче не видать, значит, он просто не проиндексирован.
Посмотрев на выдачу Яндекса по такому странному запросу, Вы увидите ранжирование указанных доменов по трасту сайтов, в тех доменах размещённых. Причём вовсе не факт, что они упорядочатся по ТИЦ-у и прочему PR-у. Потому как траст связан с пузомерками не напрямую.
Более того, указание вместо sape.ru забаненного Яндексом сайта lasto.com неожиданно покажет, что при бане траст не снимается. Так же, как, впрочем, и ТИЦ. У Гугла всё чуть иначе.
Представляется очевидным, что любой серьёзный оптимизатор, а тем паче сервис, ориентированный на серьёзных оптимизаторов, исчисляет траст потенциальных доноров в обязательном порядке. В простейшем случае описанным выше способом, путём нахождения позиции донора относительно сайтов, траст которых доподлинно известен.
При этом может сложиться ситуация, когда траст сайта с прокачанными до невозможности пузомерками оказывается ниже траста совсем новенького сайтика, буквально только что проиндексированного, с нулём ТИЦ-а. Что означает только одно: пузомерки сосут, а внешние ссылки на сайт иногда наносят вред. Надо смотреть, откуда именно они стоят.
Про раскрутку своего сайта.
Потратив немного времени на игру с Яндексом странными запросами, Вы будете готовы воспринять ряд постулатов, из чего же складывается траст документа:
-
Немаленький возраст домена.
ГС, не сумев попасть в базу СеоПульта, обычно помирает через год.
-
Доменная зона.
Обычно отдаётся предпочтение .RU, .SU, .COM
Остальные зоны оптимизаторам малоинтересны. Не потому, что поисковая система против них что-то имеет, а просто так исторически сложилось.
-
Формальное качество сайта.
Это отношение страниц в индексе к общему числу страниц сайта.
Чем цифра больше, тем лучше.
Если она меньше 10%, то с сайтом что-то не так.
-
Концепция траста сайта вполне применима к отдельной странице.
И вот тут уже интересно число внешних ссылок.
Если их больше, скажем, десятка, то такой донор никому не нужен.
-
Вменяемость показаний ТИЦ и PR.
Мастеров по их накрутке и склейке много, но они должны достаться школьникам.
-
Отсутствие очевидных фильтров Яндекса, наложенных на сайт.
Простейший индикатор — сравнение с трастом новорожденного сайта, как это описывалось несколько ранее.
В действительности анализ донора на пригодность включает ещё много пунктов. Например, совпадение по тематике донора с акцептором, возможность грамотного использования в анкоре ссылки ключевика из тайтла донора, также уместного и по отношению к акцептору. Но это уже вторично, ибо мы всё-таки гутарим про траст.
В этом месте, возвращаясь к abstract-у опуса, Вы должны чётко осознать, что процесс придания своему новорожденному сайту траста, достаточного для затевания дальнейшего бизнеса на продаже этого траста, не столь прост, как кажется школьникам.
Нет, конечно, можно тупо закупиться ссылками наобум, спалить бюджет на эти сотни ссылок, и получить на выходе какой-то ТИЦ, который никого никак не впечатлит. Потому что траста у домена будет не больше, чем при рождении. А то и меньше.
Наоборот, можно за те же деньги купить гораздо меньше ссылок (они дороже), но совсем с других сайтов, и при каком-то, пусть даже меньшем результирующем ТИЦ-е, накопить существенный траст. Которого будет достаточно для попадания в базу сайтов, рекомендованных для оптимизаторов. Что уже позволяет получать существенные деньги.
Как видите, эротические танцы с бубном могут проистекать с разным результатом, хотя со стороны все па обоих танцоров неотличимы. Но один танцор, сделав десять сайтов, имеет с каждого по рублю в сутки, и страшно недоумевает, с хрена ли так. А другой снимает по сто рублей с каждого сайта каждый день, и его ощущения совсем другие.
Теперь, понимая про правильную организацию бизнеса на продажных ссылках чуть больше, на этапе отращивания траста с помощью любой Хитрой Конторы Вам необходима какая-нибудь трастомерка. Чтобы зафильтровать все ГС, и не тратить на них деньги.
Рекомендации лучших собаководов.
Конечно, очень трудно и утомительно делать сравнительный анализ траста донора с трастом эталонных сайтов, по технологии, описанной в данной статье. Хотя и можно написать для этого какой-нибудь простенький скриптик, дабы стало чуть проще. Однако, наверное, есть способ лучше.
Местный автор знает один из возможных вариантов.
Он сопряжён с юзанием ФайерФокса и плагина под него.
Плагин можно взять с этого сайта: http://xtool.ru/a-4792
Сохранение рефера даёт Вам бонус (то, что там платно, будет бесплатным по большим лимитам).
Активируйте этот плагин внутри аккаунта Хитрой Конторы, и увидите наглядно траст доноров.
Сам траст исчисляется циферкой от 1 до 10, чем циферка больше, тем лучше. Десятка вполне достижима, и на момент написания опуса траст lasto.com ей и равнялся.
Официально считается, что граница между ГС (говносайтом) и более-менее нормальным ресурсом в цифрах равняется трём. То есть доноры с трастом менее тройки даром не нужны, а вот что-нибудь в районе пятёрки или семёрки очень даже полезно.
По личному опыту скажу, что дохода, производимого в Хитрой Конторе одним сайтом, вполне хватает для правильного вывода на орбиту пяти-семи новых (если другие способы выращивания траста недоступны, либо просто не хочется их задействовать, чтоб не палить в существующей сетке сайтов продвигаемые домены).
P.S.
Ну и раз уж мы начали трогать руками ссылки из заветной менюшки, про разные там Хитрые Конторы и покупку ссылок с трастовых сайтов, то давайте не забудем и про домены всякие.
С 11.10.11 по 11.12.11 домены .РФ по себестоимости.
Что-то в голову взбрело.
Хомячковый рай. Уйти и потеряться:
Топ секретно.
Как-то муторно шибко.
Есть же «Катюша» ...
Поскольку данный блог пополняется постами, написанными строго в ответ на вопрошалки читателей, да ещё и при обязательном наличии интереса автора к спрошенному, очень трудно спрогнозировать, про что будет очередной опус.
Но так случилось, что сегодняшние вирши очень даже про то, что надо.
На радость вебмастерам и прочим манимейкерствующим юзерам.
А также саповодам и саповедам.
Будет не лишним потратить толику жизни на постижение того, что всё равно рано или поздно постичь придётся.
Пузяка — наше всё.
В SEO тусовке очень много внимания уделяется не только индексируемости сайтов и прочим действительно важным вещам, но и всякого рода пузомеркам. По поводу последних местный автор совершенно спокоен, они лично его не волнуют ни в малейшей степени. Ибо ни на что не влияют столь сильно, чтоб про то греть голову. Но, поскольку рынок SEO-услуг крайне маргинализирован, далеко не все его игроки выглядят столь же спокойными удавами.
Мы намеренно не затрагиваем вопрос, какие цели преследует процедура откорма и возбухания пузомерок — кто этим занимается, тот, видимо, осознаёт. Нас интересует исключительно сам процесс в одной из его реализаций.
Понятно, что есть десятки способов наращивания показателей ТИЦ и PR, и все они ни разу не равноценны. Одно требует вложения сил, другое прожорливо до денег, третье убивает много времени. Да и итог всегда разный. Но каждому хочется затрачивать как можно меньше невосполнимых ресурсов для откорма «пуза» сайта.
Поэтому всегда и в обязательном порядке будут всплывать «темы», которые хочется «спалить». Вокруг чего непременно разворачивается коммерческая деятельность, плодятся мифы, текут сопли и слюни. «Темы» сдыхают, реинкарнируются во что-то чуть иное. Постоянно происходит какой-то движняк и мельтешит в глазах. Мозг выносится постоянно.
Тем не менее, понимание немногих общих моментов освобождает от знания кучи частностей. Поэтому, пригласив на трибуну местного автора в лице Мастера Ласто, давайте заслушаем теоретический курс по одной из версий XSS.
В жизни оно пригодится тыщу раз.
XSS – импортное слово.
Если кому невдомёк, то это так называемый Сross Site Sсriрting — «межсайтовый скриптинг». Чтоб не было путаницы с CSS, аббревиатура намеренно чуток искажена.
Как и любая другая гомосятина, XSS бывает пассивным и активным. Активный вариант мы сегодня трогать ни за что не будем, так как без должной подготовки будет больно, и рядовому вебмастеру с ним точно не совладать. А вот пассивный XSS легко доступен в самых разных реализациях. С ним можно извращаться, как бог на душу положит.
В общем случае Вам даже не потребуется серьёзных знаний и умений. Просто достаточно узнать (с помощью Гугла или стаи товарищей), что в таком-то движке есть возможность сформировать ссылку на себя, просто обратившись к любому сайту на этом движке по определённым образом сконструированному URL-у. Например, такому: http://lasto.com/blog/go.html?url=google.com
Далее, вдумчиво применяя синтаксис поисковых запросов Гугла или Яндекса, получаем море подобных сайтов. Проверяем их чекером, и обретаем базу для данного варианта XSS.
На словах вроде всё просто, но остался неясным самый главный момент:
Почему разработчики движков не противостоят XSS?
Прежде чем понять это, давайте обратим внимание, на чём именно паразитирует большинство вариантов пассивного XSS.
Мы доподлинно знаем две вещи: практически все движки разрабатываются за бугром (либо имеют прототипами то, что родилось там же). А рядовой серфер буржунета абсолютно не искушен в серфинге, и постоянно попадает в странные ситуации, по поводу которых очень любит бодаться и судиться.
Например, если на сайте есть внешняя ссылка, а по ту сторону клика открывается примерно такой же с виду сайт (по дизайну), то рядовой серфер буржунета искренне считает, что это одно и то же, и он продолжает находиться в том же самом месте. Про смену URL-а рядовой серфер ничего не понимает, про структуру Сети он вообще в большинстве случаев не в курсе. Для него Сеть — это то, что открылось на стартовой странице его браузера.
И если на втором сайте его как-то обманули, то претензии предъявляются к владельцу первого.
Чтобы так не получалось, наученные горьким опытом сайтовладельцы заставили разработчиков движков сделать страницу-прокладку. Которая молвит человеческим голосом чёрным по белому: «Ты, дорогой товарищ, покидаешь наш сайт, и переходишь на другой. Мы понятия не имеем, что ты там собрался делать. Но в любом случае мы не несём никакой ответственности за все твои дальнейшие действия, и ничем за то не отвечаем. Если согласен, кликни тут. Думаешь иначе — на внешний сайт лучше не ходи.»
Что самое примечательное, адрес перехода на внешний сайт в большинстве случаев содержится в URL-е страницы-прокладки. Либо в явном виде, либо в несложном urlencode() каком-нибудь. Что само по себе заставляет кричать «Бинго!»
Местный автор не думает, что в Рунете страницы-прокладки применяются с той же целью. Но, учитывая тотальную озадаченность вебмастеров по поводу «утекания ПиАра» и прочих мифических штук, а также дефолтностью страниц-прокладок в настройках движков, можно предположить, что сами страницы-прокладки не переведутся никогда и у нас.
А потому «Бинго» будет скандироваться ещё долго. И хором.
Понимают ли разработчики движков и сайтовладельцы смысл поводов для воплей про бинго?
Есть два разных ответа:
-
Нет, обстоятельства паразитирования на страницах-прокладках не считаются существенными, их ЧПУ сделано максимально простым и прозрачным строго для того, чтоб лишний раз не заморачиваться там, где никому никакая морока даром не нужна.
-
Да, все всё прекрасно понимают. Но специально оставляют возможность организации пассивного XSS для бесплатного приобретения входящих ссылок на внутренние страницы сайта, чтобы повысить цитируемость домена сайта, а через то и видимость домена в искалках. Как и что, далее по тексту.
В реальности верны оба варианта, и при желании в любой момент времени можно напарсить большую базу под ту или иную уязвимость. Вчера, сегодня, завтра. Да, есть тонкости, но пассивный XSS в силу его заточенности под юзабилити сайта будет жив всегда.
А раз так, станем изучать тему глубже.
Дженах.
В последнее время наиболее популярным в Рунете было паразитирование именно на страницах-прокладках, как это описано выше. И организовано посредством софта (в разных реализациях) под таким вот странным именем.
Добро, давайте думать про пассивный XSS на этом наглядном примере.
Выдумыватель тулзы, понимая, что доход от неё будет строго с продаж софта и баз под этот софт (а не от собственно деятельности тулзы), сразу озадачился выбором подходящего названия. Потому как правильное название — это 90% финансового успеха.
Как вы яхту назовёте, так она и поплывёт. С детства понятно.
Доподлинно известно, что изначально было выбрано название «Джедай». Чувак крут, гнёт силой мысли телеграфные столбы буквою «зю», лёгким движением руки превращает брюки в элегантные шорты, а брутального агрессора в хронического засранца, и всё такое.
Но, по врожденной привычке хайкаслагателя (да, это наш человек, всяко в душе самурай), разбив слово на слоги, выдумыватель тулзы обнаружил резкую потерю смысла. Ибо «Дже-дай» символизирует собой что-то вроде «дай мне двадцать седьмую букву армянского алфавита». Да и не найдётся тулза по такому названию в поиске никогда. Нах такое.
Кстати, о нахе.
Прекрасный предлог направленного движения. Что в русском языке, что в немецком. Что такое «Дже» по-немецки, пока не понятно (просветите, кто может), но и по-русски это уже звучит вполне привычно. Не пренебрегайте менталитетом целевой аудитории.
А потому да будет так.
И если с этимологией всё стало понятно, то далее обратимся к физиологии.
Смысл ДжеНаха.
Понятно, что ради написания развёрнутого ответа на заданный местному автору частный вопрос Мастер Ласто не ринулся затариваться тулзой от производителя, а просто сделал запрос в Гугл. Хотя, видимо, и запрос к автору тулзы дал бы тот же результат. Но провинциальные самураи не беспокоят друг друга на ночь глядя, без особой на то нужды, особо после кувшинчика вечернего сакэ.
У местного автора выгуглилась некая софтина на PHP, с тремя полями формы и кучкой чекбоксов на тёмном фоне. В подписи значилось «WEB-6» - что это такое, либо кто это такой, неведомо. Активной ссылки нет.
Софтина простая, написана грамотно, но местами есть неимоверные косяки. О косяках позднее, сначала о функционале.
Тут все просто — берем с уже имеющейся базы URL-ы по очереди, внедряем в них домен нужного нам сайта, и без всякого прокси смотрим, чего в этом урле откроется. Если есть упоминание нужного нам домена в коде страницы, то помечаем URL донора как адекватный, и пингуем его через pingomatic.com (ищите об этом сервисе информацию самостоятельно).
Когда база закончится, начинаются приятности.
По ФТП доступу скрипт ходит на сказанный ему сайт, и создаёт в нужном месте несколько файлов индекса со ссылками на прочеканные страницы. Файлы статичные, перелинкованные, и являют собой заурядную линкферму (давайте называть вещи своими именами) на странички-прокладки с тем самым пассивным XSS, про которые так много говорили большевики.
Собственно, вот эти статичные html документы и являются результатом работы скрипта. Их надо скормить яндексу для реализации теоретически возможного роста ТИЦа того сайта, что прокачивается данной ссылочной массой, либо Гуглу, если интересен PR.
Это делается через пингование URL-ов страниц линкфермы в блог-сервисы Яндекса и Гугла (если указано настройками), но не факт, что сиё возымеет хоть какое-то действие. А потому индексировать эти странички, скорее всего, каким-то макаром надлежит всё-таки Вам.
Как вариант (помним, что софт многообразен), предлагается никакой линкфермы не создавать, никуда ничего не пинговать, а тупо засунуть UIRL-ы доноров с XSS в аддурлку Яндекса. Предполагая, что тот будет аж пищать от восторга.
Это работает?
Местный автор очень сильно сомневается, что пингование в pingomatic.com кучки мусорных страниц доноров (снова смело назовём вещи своими именами) хоть чего-то даёт. Роботы Гугла и так без проблем находят всё, что им интересно, по обычным линкам (для чего скрипт и заливает линкферму на указанный ему домен). Наоборот, излишняя суета с пингованием, особо если доноры откровенно паршивого качества, может даже наказываться. Чтоб неповадно было.
Совсем никакого результата не получится, если вообще не формировать отчёта в виде линкфермы. Тысячи пингов разных мусорных страниц были, а толку с того нет. Это запросто так в вебмастеринге.
Так что, пользуя подобный софт, понимайте, в чём его назначение.
Поэтому тема работоспособности и полезности софта сводится к вопросу, насколько действенна именно линкферма, получаемая на выходе. Работают ли с ней искалки, индексируют ли саму линкферму, а также то, что доступно с неё по многочисленным ссылкам.
Напомню тем, кто потерял нить рассуждений, что продвигают Ваш домен или сайт в нём именно документики, доступные по ссылкам с линкфермы.
Это можно оценить.
Изготовленная в ходе тестирования местным автором линкферма имела такую подпись: «Все права защищены. Копирование ссылок с моего сайта запрещено!».
Представляется очевидным (хотя с этим можно до хрипоты спорить), что потенциальный пользователь тулзы не станет менять шаблон. Он просто не умеет этого делать — такова уж целевая аудитория подобных решений. Так что можно взять эту фразу, вбить в Гугла, и провести поиск по строгому соответствию.
Ну и проделать то же самое с Яндексом. Опять-таки по строгому соответствию.
Неожиданно окажется, что Гугл гораздо сильнее любит линкфермы, нежели Яндекс. Либо Яндекс любит их столь же сильно и даже больше, но совсем недолго. И быстро очищает свой серп от подобного.
Но то, что в Яндексе на момент написания опуса сыскалось всего две линкфермы (против сотни в Гугле) сильно о многом говорит. Судя по кэшу Яндекса, такие вещи в серпе живут всего несколько дней.
Как заставить это работать?
Местный автор отчётливо понимает, что взятый наудачу софт может являть собой всё что угодно, но ёлы-ж-палы. Либо надлежит делать тулзу толково, либо вообще не надо городить огород.
Соображения:
-
Если уж в тулзе использован Curl, то просто взять код страницы донора и увидеть (или не увидеть) в её коде (даже не в ссылке!) нужный домен — то ли детство, то ли глупость.
Ну давайте припишем Курлу ещё один оператор про CURLOPT_HEADER, и посмотрим ещё и на хедер документа. Который HTTP_1.1
Если там 404, то тогда не важно, что в коде. Это нерабочий URL, и его в баню.
Если 300 серия, то там редирект (и не факт, что на Ваш сайт), и это тоже далеко не то, что нам нужно и хочется.
А ещё бывают хедеры 500 серии, и всякие-разные, окромя 200...
Далее смотрим ссылки, ищем все прямые, не в ноиндексе и не в нофаллове, а среди них — на себя. И только если есть такая, чекаем этого донора как правильного.
В исходном же виде тулза вообще с радостью принимает страницу, хедер которой вопит о 404 ошибке, а в коде Апач рапортует, что документ с таким-то URL-ом ни разу не найден. Ну не дурдом ли?
Тем паче, что путь от дурдома до работающего как надо скрипта отделяет дюжина совсем несложных строк на РНР. Стоит их дописать, и половина «тщательно отобранных доноров» сразу же уходит в категорический неадекват.
Примечание:
При этом помните (или знайте), что по дефолту источником трафика в Curl подставлен сайт Гугла, и, если блок статистики анализирует и показывает трафик продвигаемого сайта, то сотни визитов с Гугла вовсе не означают сотни визитов с Гугла. Это то, что упало со скрипта ДжеНаха через доноров к Вам по редиректу, то есть абсолютно фиктивные вещи.
Прогон сайта скриптом по базе ДжеНаха никак на самом деле не влияет на трафик сайта. А видите в статсах суету — так это Вами же и созданная суета, не более того.
-
Про пингование несчастного Пингоматика адресами мусорных страниц местный автор выразился достаточно определённо чуть ранее.
Можете не соглашаться.
Если склонны так делать, то изыщите в своём городе бюро находок, и попробуйте начать сдавать туда бумажные пакетики со всяким дерьмом собачьим.
Потом обязательно расскажите в комментах, с какой по счёту попытки Вам набили морду.
-
Сотворение линкфермы в ретро стиле, прямо допутинской эпохи, это, конечно, сильно. У кого-то есть надежда, что это будет индексироваться и далее приниматься к сведению для дальнейшей индексации всего там прилинкованного?
Поднимите руки.
Очень хочется видеть этих людей.
А если серьёзно, то имело бы смысл раскидать ссылки на странички с XSS сотни тщательно отобранных доноров по страничкам своего сайта (силами движка, естественно — десяток строк PHP кода творит буквально чудеса), и вот тогда может быть это бы неспешно, но худо-бедно хоть как-то сработало.
-
Про то, что массовые технологии работают только в воображении алчущих масс, рассказывать, видимо, не нужно. Индивидуально тюнингованные вещи на порядок круче. Не умеете такие штуки создавать самостоятельно, либо находить, где их можно заказать и изготовить, не ждите чуда.
В целом же было интересно потестить такую штучку. Буду внимательно наблюдать за противостоянием Яндекса и любителей халявных пузомерок.
Ну а Вы теперь маленько в курсе, как работает (или пытается работать) пассивный XSS на примере того же ДжеНаха, какие стоят засады перед технологией, и куда ей надлежит грести дальше.
P.S.
При всяком упоминании чего-то этакого и хитропопого вдруг откуда ни возьмись слетаются всякие пионэры, и начинают осложнять жизнь своей суетой и глупыми вопросами.
Чтобы так не получилось и в этот раз, специально для пионэров и прямым текстом даю совет, как можно бесплатно приобщиться к супертехнологиям взрослых дядек. А то же сами не догадаются.
По означенному в тексте поста поисковому запросу следует сыскать в Гугле чью-то линкферму, ведущую на вменяемых доноров, то бишь созданную по «элитной» базе за сто уёв, всю многостраничную линкферму выкачать, и в HTML коде документов заменить по маске чужой домен на свой, а получившееся куда-нибудь закачать и проиндексировать.
Потом держать карман шире, и терпеливо ждать тысячи ТИЦа и тройки ПиАра.
