Магистр Йода: набалтыватель уникальных текстов.
Зипфа законы
Посложней бутерброда...
Но надобно знать.
Велико было желание написать сегодня про что-то весёлое и радостное. Но, посмотрев на долгосрочный рейтинг популярности постов, Мастер Ласто вдруг обнаружил, что конец вектора интересов его читателя нескромно упёрся совсем в другое место. А поскольку драгоценного читателя положено всячески радовать потаканием его странным и извращённым склонностям, соизвольте заслушать очередной рассказ на извечную тему о птичках.
Сначала, правда, несколько о другом. Типа подводка. Но на самом деле потуги на философию.
Как известно, умных людей, умеющих выдумывать схемы и алгоритмы, не так много. Принято считать, что их в районе 5% от общей численности занятых в той или иной нише или отрасли знаний. Это им не сидится на попе ровно. Вечно они чего-то изобретают, пробуют и экспериментируют, иногда нападая на золотую жилу. А чаще всего со свистом пролетают мимо кассы- таков уж удел любого исследователя.
Но, с другой стороны, кто не ищет, тот ничего и не обрящет, как уверяет нас Книга. Всего лишь одна нарытая золотая жила обычно с лихвой компенсирует десять пролётов мимо кассы. Ну а потом приходит опыт в изыскании золотых жил, и жизнь эмпирика становится всё веселее и радостнее, прямо-таки по цитатнику Отца народов.
Однако, плюшки плюшками, а не стоит забывать и про 95% оставшихся. Как мы теперь отчётливо понимаем, они не способны к строительству схем и выдумыванию алгоритмов. К изобретению различных приёмов достижения цели неизведанными доселе путями. А потому понуро ходят строем под зычную команду старшины.
В общем-то, это не хорошо и не плохо. Такова жизнь- или ты живёшь своей головой, принимая на себя все риски, связанные с выбором Пути, зачастую неверным, либо плывёшь по течению в ранге «как все» и в звании рядового. Здесь и там есть свои плюсы и минусы. Кто-то за пять минут наизобретает работы на год вперёд целому НИИ, а кому-то даже малость подумать башкой сложнее, чем выкопать колодец зубочисткой.
И если про 5% тут говорить бессмысленно, ибо неисповедимы пути их, и да будет ветер им в спину и удача навстречу с радостной мордой, то оставшиеся 95% нам сегодня как раз и интересны. Сиё эссе как раз про них.
Действительно, это они сбиваются в стаи, и обитают на всяких форумах, истачивая гигабайты диска сервера на обсуждение тривиальных вещей по десятому разу. Это они подписываются на кучу рассылок и фидов, ожидая, что там будет «спалено» что-нибудь этакое, и ждут такого момента годами, тратя по часу в сутки на чтение разной шелухи. Это они, как правило, заводят email на сервисах Яндекса и Рамблера, что для местного автора примерно как вопительный знак на цыплячьем фоне, нацепленный на заднем стекле идущего спереди автомобиля :)
Сей клуб «девяноста пяти» есть заповедник для всякого рода гуру, уже освоивших правила Игры. Можно взять любой миф наугад (или сходу выдумать свой), помозговать над ним вечерок-другой, и сотворить очередную схему по извлечению прибыли на ровном месте из воздуха. Можете поверить сразу, можете броситься на поиски тухлого помидора, дабы запустить им в Мастера Ласто в знак недоумения и категорического несогласия, но девять десятых всего того, что рекомендуется / впаривается / продаётся в интернетах (и не только), есть не что иное, как чья-то очередная схема.
Причём это ещё по самому оптимистичному прогнозу :)
Соответственно, почти всё то, в чём члены клуба «девяноста пяти» совершенно точно уверены на сто процентов, и чуть ли не молятся на это долгими зимними вечерами, обычно есть мифология в чистом виде.
Ну а под стройной пирамидой знаний на темы, скажем, вебмастеринга, так вообще подлежит километровая толща напластований всевозможных измышлений и мифологических штук, произрастающих и проистекающих хрен знает из какого места. Разгребите весь этот «фундамент» до основания - нет там никакой истины, а так, фигушки всякие…
Но пусть наконец из многого пафоса сложится малая конкретика.
Вот к примеру, абсолютно вся вебмастерская тусовка, удивлённая вдруг до невозможности своим внезапным вектором движения из настоящего в задницу, что обусловлено «странным» поведением искалок, засовывающих их замечательные сайты то в неминуемый бан, то в презренный сапплементал, то ещё под какие постыдные фильтры с мудрёными названиями, лечиться от которых надлежит чуть ли не у венеролога, хором грезит по так называемому уникальному контенту.
Это истинный святой Грааль вебмастера, якобы пропуск прямо в рай, без всяческих предшествующих страданий и искуплений грехов, а также прочего полагающегося по уставу обрезания под корень.
В принципе, тут как бы и нет никаких проблем- ну возьми клаву в руки, обрети табуретку под задницей, закати очи к небу в нездешней задумчивости, и таки породи этот уникальный контент… Но поскольку тусовке нужно клепать ГС в рамках программы производственного онанизма во славу Хитрых Контор, то этот номер не пройдёт. Сил не хватит. Истощение наступит быстрее, чем будет заработан первый килоуй.
Нормальные герои всегда идут в обход, всё правильно. Тут же, откуда ни возьмись, нарисуется указующий перст, с татуировкой на ногте «синонимайзер», поодаль другой, с надписью шрифтом типа тахома «перевод туда- обратно», рядышком третий, также с какой-то фигнёй… И толпа, воодушевившись вдруг открывшимися охренительными по своей силе перспективами, начинает послушно двигать телом с совершенно предсказуемым, но неведомым ей результатом.
А давайте, уважаемые коллеги, сделав лукавый вид, что якобы мы ничуть не в теме, без всяких комплексов и оглядок на авторитеты препарируем какой-нибудь указующий перст. Например, про синонимизацию. Но не с позиций представителя пресловутого клуба «девяноста пяти», для которого-то всё как раз понятно и сомнений не вызывает, а с точки зрения Фомы Неверующего, освободившего свой ум от мифов, разум- от стереотипов, а онанизм- от Хитрых Контор. Над которым ничто не довлеет.
То есть поставим вопрос прямо: а действительно ли синонимизация текста должна приводить к тому, что искалки воспримут оный за донельзя уникальный, и зайдутся в оргазменном экстазе?
Вроде бы как по логике вещей должны- между текстами раз (оригинал) и два (пропущен через синонимайзер) на уровне словесов не очень много общего:
«Интернет кружит голову творческому человеку: изобилие поразительных, фантастических проектов порождает лихорадку новых идей. Старайся не оглашать свой замысел прежде времени, особенно целиком, и особенно там, где высота положения порождает всеобщие ожидания, окружает замыслы критическим вниманием. В нем загодя найдут множество недостатков, а потерпеть неудачу окажется злосчастным вдвойне. Неожиданность - залог успеха. От игры в открытую ни корысти, ни радости. Недаром в Интернете так много виртуальных людей, и почти невозможно узнать, кто скрывается под маской. И вообще, молчаливая сдержанность и упорство в деяниях - святилище благоразумия.»
«Интернет дурит главу созидательному мужу: обилие ошеломительных, фееричных планов пробуждает лихоманку свежих мыслей. Норови не объявлять свойский план раньше срока, в особенности всецело, и особливо там, где возвышенность позы зарождает повальные ожидания, опоясывает замыслы драматическим интересом. В нем заблаговременно отыщут бездну изъянов, а потерпеть неуспех окажется злополучным вдвое. Внезапность - заклад удачи. От выступления в распахнутую ни выгоды, ни веселья. Неспроста в Сети так немало ненастоящих людишек, и совершенно неосуществимо изведать, кто таится под личиной. И вообще, безмолвная невозмутимость и напористость в поступках - храм предусмотрительности.»
Но, ежели Вы скормите сайт, изготовленный таким вот образом, а также исходный (контрольный, с откровенным копипастом, но из разных мест) Гуглу, то через некоторое время обнаружите, что синонимайз практически целиком ушёл в сапплементал, и показал тем самым результат куда более худший, чем даже исходный копипаст.
Где в этом логика?
На первый взгляд, её нет. Далее в главу приходит мысль: «Гугл, суцко, хитрый - это он так меня дрючит». Потом мысли кончаются, уступая место рассуждениям, приводящим к однозначным выводам, что именно так оно и должно быть. Объясняю, почему.
Все мы видели, без сомнения, культовый фильм «Убить Билла». В этот раз нам очень повезло, что озвучили его нормально, а не как обычно. Так что даже можно было местами испытать некоторое удовольствие от отстранённого созерцания, и воспринять кое-какие посылы авторов.
Например, эпизод про чемоданчик долларов со змеюкой внутри как раз адресовался вебмастерам, грезящим об уникальном контенте. Чтобы они это поняли, авторы даже сопроводили сей кусочек фильма монологом Дэрил Ханы о черной мамбе. Вспомните: «Мне нравится это слово - колоссальный. Его так редко удаётся использовать в речи...».
Я ни минуты не сомневаюсь, что Гугл точно видел этот фильм, и сделал из него все полагающиеся выводы. Ему доподлинно известно, что, например, существительное «глава» используется в сотню раз реже, чем его современный вариант, и обычно в сочетании с другим существительным, обозначающим должность (глава корпорации, администрации, фирмы, всякой прочей организации). Так что «голова» и «глава» нифига не равнозначны, и там, где по смыслу подразумевается первое, но употребляется второе, стоит навострить ушки.
А поскольку в том же тексте процент редко употребимых слов и выражений просто зашкаливает, ибо так и устроены синонимайзеры, оснащаемые базами синонимов для именно наиболее ходовых слов с заменой их на менее популярные (равночастотных синонимов очень немного), то детектировать даже самый осмысленный, тщательно согласованный по родам и падежам текст, порождённый синонимайзером, не представляет никакой трудности вообще.
Это примерно как встретить зимой в городской толпе абсолютно голого человека, и догадаться, что что-то тут не так. Тут даже не надо быть Штирлицем…
Наверное, читатель в этом месте слегка задумался, но не всякий подряд. Ибо кто такой Мастер Ласто, чтобы свергать с пьедестала очередного гуру, вопящего, что его синонимайзер- это золотой черенок от лопаты, которой можно грести деньги не уставая, даже без перерыва на обед?
Тогда Мастер Ласто станет Вас давить авторитетом филолога и профессора Гарвардского университета Джорджа Кингсли Зипфа, который ещё до Вашего рождения обнаружил: частота использования N-го наиболее часто используемого слова в естественных языках приблизительно обратно пропорциональна N. А если в конкретном тексте данная закономерность не соблюдается, то это не естественный язык. А автоматически сгенерированный, стало быть.
Очень сомнительно, чтобы поисковые машины, работающие с текстами, никак не использовали в своих алгоритмах, скажем так, основополагающий для лингвистики закон Зипфа (непременно изучите хотя бы топ документов, доступных по ссылке- узнаете много нового). Конечно, используют. В них целая куча алгоритмов, оперирующих всякими там семантическими срезами, и Ваш синонимайз сквозь них точно не пройдёт. Ежели на то будет воля искалки, конечно.
Поэтому, возвращаясь к нашему онанизму с Хитрыми Конторами, а также к теме генерации под них ГС десятками в день, спешу Вас порадовать известием, что делать это на основе традиционных синонимайзеров (с заменой синонимов по базе) глупо и бессмысленно. О чём с этого момента извольте начать знать.
Как мне кажется, некоторые перспективы тут есть у другого подхода, зачатки которого просматриваются в готовых вещах типа MyMonsterSeptember, а именно, в насыщении исходного текста всякими разными уместными оборотами да наречиями, позволяющими из унылой и худоязыкой детской сказки про Колобка получить витиеватое повествование на манер затейливой саги, чтение которой вслух и с выражением детишкам на ночь создаёт предпосылки для взращивания из них словоплётов и словоблудов почище Мастера Ласто, каковым оный с лёгким сердцем и передаст свою катану при выходе в тираж.
Но это ещё будет не скоро :)
Да, и просьба ко всем, кто захочет написать в комментах что-нибудь про сервисы проверки текстов на уникальность, категорически этого не делать. Ибо смысл поста не просто не понят, но даже не увиден.
Хомячковый рай. Уйти и потеряться:
Ктулху на планете обезьян.
Грома раскаты,
Весь в поджарках петух...
Свершится иль нет?
Обычно человека в реальной жизни и в состоянии слегка изменённого сознания пугают совсем разные вещи. Например, в сильном подпитии Мастер Ласто всякий раз боится различных обстоятельств. В прошлый раз это были бигудюшки на голове умной домашней женщины, которые только прикидываются полезными женскими приспособами, а на самом-то деле подозрительно напоминают личинок Ктулху. От которых надо немедленно избавиться, чтобы как бы чего не вышло. И ни в коем случае не бросать их в аквариум- ибо Зло тотчас пробудится, и тогда быть беде...
Но после того, как детёныши откатались по полу, рассказав попутно друг другу всё, что они знают о Ктулху (как оказалось, познания те весьма обширны, и включают упоминание имён Говарда Лавкрафта и Густафа Йохансена, а также группы «Металлика», посвятившей чудищу свою лучшую композицию), а умная домашняя женщина прозрачно намекнула, что скалка намного похожее на личинку Ктулху, и способна принести гораздо больше горя, причём пятью разными способами, Мастер Ласто, крепко задумавшись о четырёх ему не ведомых, как-то потихоньку протрезвел, и начал бояться того, чего и боялся всегда.
Если формулировать вербально, опуская сакральные выражения, то совсем простыми словами можно сказать так: вкладывая много сил и средств в то, что Вам до конца не подконтрольно, в любой момент ждите обидного и позорного форс-мажора. Он обязательно случится. Ибо ситуация не айс.
Вот прямо сейчас мы находимся внутри одного такого форс-мажора. Правда, в силу чудовищной рефракции, изнутри хрен ли видно, что на самом деле происходит, и чтобы то понять, надо отойти в сторонку, дабы охватить единым взглядом многие сущности.
Ну и давайте отойдём.
Наверное, не шибко преувеличу, если выскажу предположение: та инквизиция, которую всеми нами горячо любимый Яндекс устроил нашим сайтам своим фильтром «АГС-17», на самом деле потряс основы российского вебмастеринга. Просто мужики-то не знают.
Если Вы внимательно почитаете опус про странные медицинские процедуры, после чего тщательно подумаете в направлении заданного там топикстартером вектора, то придёте к очевидному умозаключению: дешёвые рушные домены и общедоступность кнопки «Бабло» от Хитрых Контор и в дальнейшем будут регулярно вызывать залпы из АГС-17 по Рунету, вбивающие в асфальт на самом деле какие попало сайты, а не те, что полагается. По принципу «на кого Бог пошлёт».
Причём страдать-то от этого будут вовсе не владельцы ГС, кому и адресован гранатомёт, а вебмастера, творящие сайты с любовью, а потому медленно и трудно.
Обосную.
Представьте себя бойцом Хитрой Конторы в звании Вебмастера. Вот заходите Вы в аккаунт, и видите, что ежедневный доход с Вашего зоопарка составляет не две тысячи рублей, как обычно, а, скажем, всего девятьсот. Это значит, что большая половина сайтов выпала из серпа, и покупка ссылок с них никому не интересна. Ваши действия?
Они просты:
- Ничего не делать.
Оптимизаторы постепенно снимут ссылки, сайт, обычно сделанный на нормальном движке, а потому не страдающий особыми изъянами, станет более кошерным, выпадет из-под фильтра, и вернётся в индекс.
Сам реально наблюдаю такие процессы на регулярной основе. - Если сайт единожды проиндексировался, то проиндексируется с тем же в тютельку контентом и ещё раз- покупаем ему новый домен за сто с копейками рублей, снимаем входящие ссылки с проштрафившегося сайта, перекидываем их на новый домен- через один ап в смысле денег всё вернётся на круги своя.
- Можно тупо сменить систему формирования адресов у документов сайта. Или заменить движок. Или накалякать скрипт из пяти строк, который за секунду поменяет по одной циферке в файлах папок постов, комментов и картинок- все урлы станут другими, и этого уже достаточно для вылезания из-под фильтра...
- Сделать что-то ещё столь же несложное, на что уйдёт ровно пять минут.
То есть понятно, что борьба с ГС путём их массового отстрела вообще не эффективна, и оборачивается некоторыми весьма скромными потерями времени вебмастера. Но для нормального человеческого сайта, каковые массово под отстрел попадают также, весьма фатальна.
Тут как в жизни- крысы и тараканы выживают при любом раскладе, а полезные зверюшки массово отходят в мир иной, являя пузо небу, после даже небольшого катаклизма. И нафига кому это надо?
Можно сказать и более прямо- Яндекс своими репрессиями содействует ГС-строительству, при котором новый ресурс генерируется за несколько секунд работы софта (десктопового или серверного). Ибо, если ранее русскоязычные сайты делались в том числе и как-то иначе, то теперь это потеряло смысл.
Тривиально говоря, нас возвращают к уже было позабытым дорвейным технологиям. На новом витке эволюции дорвеев, конечно. И это, на самом деле, хорошо- поскольку теперь время жизни любого сайта (белого, чёрного, ГС) непредсказуемо, и на самом деле никак не обусловлено его качеством, то:
- Владельцы коммерческих сайтов, каковым и нужна вся эта «раскрутка» через ссылочное ранжирование, будут всё более тяготеть к Гугловому серпу, и всё меньше смотреть в сторону бесноватой обезьяны с гранатомётом.
Особенно после того, как обезьяна пару раз захреначит метко в цель, а платоны изнасилуют мозг своими отписками про высокочтимую ими лицензию Яндекса- деловые люди обычно не играют в игры для дебилов более одного раза. - Обслуживающие интересы владельцев коммерческих сайтов Хитрые и Оптимизаторские Конторы перестанут истово молиться на совершенно ничего не символизирующий собой ТИЦ, наконец-то открыв всем великую, тщательно скрываемую тайну: он абсолютно ничего не даёт при ранжировании в серпе, а потому бессмысленен и нахрен никому не сдался.
- Нормальные вебмастера с удовольствием, как мне кажется, оставят Рунет, завязанный на Яндекса, школьникам, и будут способствовать продвижению коммерческих сайтов в Гугле, но за совсем другие деньги. Если на то будет воля Хитрых Контор, ясное дело.
Так понимаю, что развитию в данном направлении дан мощный толчок. Он, как обычно, почти полностью сдемпфируется непониманием людьми сути происходящего, а потому понадобится ещё много-много всевозможных катаклизмов, свершившихся на планете обезьян, чтобы окончательно и бесповоротно победил сильнейший поисковик.
И это будет не шарашка платонов.
Но и не скоро.
А пока мы продолжаем бояться всё того же, про что начинался пост- вкладывать силы и средства в создание сущностей, ненавидимых обезьяной с гранатомётом, потом осознавать, насколько это было глупо, ибо дальше по схеме предписано лизать задницу платонам, а потом метать харч в ихтиандра в отвращении от содеянного.
Пока не надоест этим заниматься.
P.S.
Имею скромную просьбу к бизнесменам, выпускающим туалетную бумагу.
Пожалуйста, отпечатайте на ней всю Лицензию Яндекса со всеми примечаниями и без купюр, и будьте добры, отправьте пару-тройку вагонов в новосибирский Академгородок- всё-таки, чёрт возьми, таки хочется её хоть когда-нибудь прочесть в уютной спокойной обстановке, и воздать ей должное...
Хомячковый рай. Уйти и потеряться:
Очистительная клизма.
Не очень благозвучное название для поста про разное высокое теоретизирование, потому сразу прошу прощения у любителей означенной медицинской процедуры, пришедших через поиск не туда. Ошибочка вышла. Уж простите местного автора, но привык он сочинять такие тайтлы, чтоб не в бровь, а в глаз...
Врач не излечит.
Разведёт лишь на бабки.
У Ласто спрошу...
Как, наверное, многие уже успели заметить, в последнее время в Рунете хрень какая-то приключилась. Не хворь и не эпидемия, а именно хрень- не совсем понятная штука с неочевидными гносеологическими корнями, которую ни умом понять, ни аршином общим измерить- у нас в Раше испокон веков всё такое замысловатое :)
Медвежья болезнь.
Но хиханьки хаханьками, а многим между тем не до смеха. Великий и ужасный Яндекс, дерябнув в начале осени явно чего-то не того, сходил в сортир и попугал Ихтиандра. В результате чего его хорошенько вытошнило, а его индекс заметно похудел.
Тем дело не ограничилось- после промывания желудка, спустя всего неделю, в ход пошла ещё и очистительная клизма, и после ещё одного акта пугания Ихтиандра в яндексовом индексе и вовсе мало чего осталось- всё дерьмо (по мнению Яндекса) благополучно слилось в унитаз, да простятся мне упоминания столь неприглядных сущностей в общественном заведении.
Понятно, что сами вебмастера не совсем согласны с такой классификацией их сайтов, и уж тем более с такими действиями конторы имени Платона Щукина. Тем паче, что сам Платон автоматическим ответом ставит вебмастеров на место- «окстись, уважаемый- твой сайт вовсе не побанен, маленько страниц в серпе осталось, так что старайся, пиши качественный контент, блюди нашу лицензию- и будет тебе счастье».
Вебмастер, конечно, тут же грузится по самые брови в осмысление того, почему от одной до дюжины страниц в индексе торчат, и чем оные отличаются от всех других, индекса недостойных. Впустую, в общем-то, грузится, потому как никакой закономерности тут нет.
Закономерность несколько в другом.
Если помнит кто, то года полтора назад Яндекс уже делал в точности то же самое- то ли втыкал себе два пальца в глотку, то ли юзал кружку Эсмарха, но проявления были аналогичными- число страниц у сайтов в индексе сокращалось до (чаще всего) одной штуки, после чего через некоторое время сайт или ворачивался обратно, или банился.
Причём вернувшийся сайт мог повторять эти эволюции в дальнейшем ещё несколько раз, и заканчивал их опять-таки неминуемым баном. Можете взять в качестве модели муху- замёрзнуть, оттаять и ожить она может всего лишь ограниченное число раз. После чего всё её здоровье иссякнет, и она окончательно окочурится.
То есть нового у Яндекса ничего не случилось- та же медвежья болезнь. Только отмеченная с большим размахом.
Ничто не свидетельствует в пользу окончательного и бесповоротного выздоровления Яндекса, а значит, всё это будет повторяться регулярно и впредь. Так что давайте поймём, с чем мы на самом деле столкнулись тогда и сейчас.
С чем мы имеем дело?
Начинать понимание следует с Гугла.
Если кто не в курсе, то сайт в серп Гугла встаёт довольно резво, и попервости (недели две-три) даже вроде бы получает некие преференции, в вебмастерской среде именуемые как «бонус новичка» - документы сайта довольно легко отыскиваются в топе по адекватным контенту низкочастотникам, получают поисковый трафик, и даже приносят какие-то существенные деньги, если по сути и замыслу весь этот сайт есть не что иное, как дор.
Всегда бы так было :)
Но потом время чудес кончается, и Гугл на основе накопленной информации по поведению серферов на данном сайте, ссылочного ранжирования и Бог весть чего ещё, начинает потихоньку применять к документам сайта фильтры. И если в сапплементал в итоге уйдёт процентов 80 документов сайта, а не больше, считайте, что Вам сказочно повезло...
В Яндексе вопрос фильтрования серпа организован несколько иначе. И более всего сама базовая процедура напоминает мне бассейн с двумя трубами, образ которого ничего не говорит сегодняшним челам, но являл форменный кошмар для обучавшихся математике в школах во времена Гагарина.
Действительно, когда по одной трубе (индексирующий бот) в серп что-то втекает, по другой (алгоритм фильтрации) что-то вытекает, а внутри бассейна всё бурлит и плещется, то ну никак нельзя предугадать тот момент, когда Ваш сайт засосёт в слив. Может быть, это случится через несколько дней после попадания в индекс, а может быть, и через год. Как повезет в этом хаосе броуновского движения.
То есть линейная и неотвратимая, а потому понятная схема (как в случае Гугла) заменяется на хаотический метод тыка. Что и повергает вебмастеров в уныние кажущейся непредсказуемостью поведения Яндекса.
Причём это ещё не все непонятки.
Естественно, сами правила фильтрации носят временный характер, и через пару недель уже будут отфильтровывать совсем не те сайты, что отлавливают сегодня. Правила эти динамичны, задаются, ясное дело, программерами искалки на основе анализа эффективности работы фильтров за предыдущий период, то есть весь процесс итерационный и циклический.
Как и всякий итерационный процесс, в каждой смежной итерации правила фильтрации не могут изменяться слишком сильно. А потому сайт, попадший под фильтры, уже в следующем периоде может быть либо амнистирован (вернуться в индекс целиком), либо угодить под фильтрацию более конкретно.
Долгое пребывание под фильтрами равнозначно бану, хождение по границе чувствительности фильтров приводит к периодическому пропаданию из серпа. А то, что такое пропадание обусловлено именно фильтрами, наглядно видно из присутствия некоторых страниц сайта в индексе (как правило, это морда плюс, возможно, несколько других страниц) - то есть собственно бана нет.
Виноваты ли Хитрые Конторы?
Многие вебмастера, чьи сайты ходят по границам фильтров, и периодически вываливаются из индекса, логично видят истоки всех своих бед в продажных ссылках, от которых, тем не менее, всё никак не могут отказаться- да, мышки страдали, плакали, кололись, но исступлённо грызли кактус...
Если поднять научные публикации сотрудников Яндекса, то да, действительно, там есть описания исследований, позволяющих на основе даже достаточно скромной выборки с 95% вероятностью сказать про любую ссылку на любом сайте, продажная ли она. Причём сам метод не ресурсоёмкий, пользует лишь лингвистику, и может быть применён хоть сейчас.
Однако, пока что не применяется- иначе все мы это бы тотчас почувствовали, а сами Хитрые Конторы давно бы испустили дух. В чём пока никто не заинтересован.
Между тем, продажные ссылки, конечно же, оказывают влияние на ссылочное ранжирование и серп в целом, искажая нормальное течение вещей, поэтому перенасыщенность сайта ссылками «не в тему», несомненно, равносильно команде «фас», подаваемой фильтрам. Хотя сам факт продажности пока что никому не интересен. Пока что, обратите внимание.
То есть, линкуясь на всяких придурков, Вы достигнете того же результата, что и поставив даже больше ссылок на не в тему, но за деньги. Потому что продажные ссылки обычно ведут на что-то более-менее серьёзное и осмысленное, у чего есть полезная составляющая, а придурки - они и в Африке придурки...
Но, между тем, собственно продажные ссылки сами по себе не есть единственная и основная причина фильтрации или бана сайта.
Причина медвежьей болезни Яндекса.
Она тривиальна: ресурсы искалки не безграничны, фильтрации сайтов на этапе добавления в индекс (как у Гугла) нет, ибо это сложно и ресурсоёмко, а потому высвобождение ресурсов от «гуано» осуществляется силами зондер-команды в лице так называемых фильтров, являющих собой совершенно независимый и ни с чем не синхронизируемый процесс (и вот в этом-то вся беда, ибо внешне это носит характер эпидемии).
То есть обожравшемуся индексу иногда становится совсем плохо и тяжко, и в этот момент добрая медсестра в порыве чадолюбия загибает индекс носом к коленкам, и ставит ему ведёрную клизму со скипидаром.
Процесс периодически повторяется, ибо по-другому, похоже, вся эта система работать просто не может. Ибо тут надо либо не жрать что попало (а не приучен), либо блюсти диету (по какой-то причине не получается), либо так отстроить систему пищеварения, чтобы клизма не понадобилась- судя по всему, вот с этим-то и самая большая проблема.
Как обычно, в Раше всё решается через жопу. Прости меня, Господи...
Но есть одно наблюдение.
Очень похоже, что фильтры, ответственные за изгнание недостойных сайтов из индекса искалки, пользуют концепцию оттаявшей мухи- амнистия выдаётся всего лишь несколько раз, после чего сайт банится нахрен. А потому есть некий «список попавших под раздачу сайтов», по которому зондер-команда периодически пробегается, и смотрит, достоин сайт очередного наказания в соответствии с текущими настройками фильтров, или нет.
Из этого следует, что с единожды выпавшим из индекса сайтом непременно что-то надо сделать. Ибо требуется тупо отвести его от границы применимости фильтров. А если ничего с сайтом не делать, то фильтры захапают сайт сызнова, и число попыток его амнистии очень быстро исчерпается, а сайт будет расстрелян зондер-командой.
А что такого Вы в принципе можете сделать?
Ниже в некотором роде фантазии, но исходят они из здравых вещей, повышающих привлекательность Вашего сайта с точки зрения искалки (а по этому и фанатеют фильтры, ясен пень).
- Уберите неуникальность контента в пределах сайта.
Не должно быть дублирования одного и того же контента в разных урлах.
Это у Гугла приготовлен сапплементал, а у Яндекса предусмотрен лишь бан. - Ценность контента сайта- конечно, вещь в себе.
И копипаст, безусловно, это не хорошо.
Но, ежели без него никак, то хоть ставьте ссылку на источник- это уже не воровство контента, а добросовестное цитирование.
Если Вы при этом думаете, что тут самое место ноиндексу и нофаллову, то смело продолжайте быть в этом уверенным, дабы вскорости узнать мнение Яндекса на сей счёт. - Если кто-то считает, что какие-то там уникализаторы текста, позволяющие из килобайтного текста про всякую чешую сделать сто «уникальных» текстов про ту же чешую, но проходящие какие-то там «тесты на уникальность», то с этого места начинайте знать, что это далеко не так.
Современным искалкам глубоко фиолетова степень уникальности Вашего текста. Сегодня критерии несколько иные- есть в этом тексте полезная составляющая, или в нём присутствует только та самая пресловутая чешуя. - Отсутствие полезного наполнения (или вообще того, что может быть в принципе проанализировано алгоритмами) – стопудовый повод для выкидывания документа из индекса. Печально, но пока под эту дудку с треском и свистом с Яндекса слетают всякие фотосайты и тому подобные вещи, где мало букв.
Но это те моменты, на которые следует ориентироваться глобально. А что делать, если сайт «мигнул», то есть однажды уже сходил под фильтры? И нет никакой возможности убрать дублированный в пределах сайта контент, или проставить ссылки на источник копипаста?
Рецепт исцеления.
Ведь бывает, что на домене есть серьёзные показатели пузомерок, давшиеся колоссальными затратами времени, усилий и денег - было бы очень обидно всё это потерять.
Тут надо сделать что-нибудь, чтобы изъять этот домен из «расстрельного списка» - после того, как домен «отпустит», и до следующего подпадания его под фильтры, как следует из ранее озвученных соображений, может пройти очень много времени :)
В голову приходит самое простое- снять с домена делегирование, чтобы в домене не было ничего, и домен выпал из индекса, а потом заново его проиндексировать, как свежачок. При этом, как правило, показатели пузомерок не успевают рассосаться- даже у отсутствующего много лет в индексе сайта сохраняется весь его ТИЦ.
Можно. Но, к сожалению, как показала практика, выпадает из индекса таким макаром домен очень долго.
Примерно так же медленно, как и при внезапном запрете индексации через файл роботса. Наверное, искалка никак не может поверить, что Вы добровольно решились на такое :)
Вариантом может быть изменение структуры УРЛов- в частности, достаточно смены рабочего расширения с .html на .shtml, к примеру говоря, даже без варьирования урлопостроения (ведь это составляет некоторую проблему, если только Вы сами не написали движок своего сайта). Но только если по адресам со старым расширением возникает ошибка 404.
В ряде случаев можно вообще ничего не менять, но заставить движок возвращать хедер 404 ошибки- для бота это будет равносильно отсутствию документа в этом адресе, хотя пользователь никак этого не увидит. Тут, впрочем, может возникнуть трабл с хитроботом, ибо тот, наоборот, не смотрит на хедеры, но сверяет буковки документа с архивированной в индексе версией.
Но вот что может сделать любой вебмастер, так это выкинуть нахрен процентов десять-двадцать документов, и добавить (на их место, или в новые урлы) столько же других, либо даже чуть больше. Причём разово, а не постепенно, как это всегда рекомендуется.
То есть устроить аврал и дать команду свистать всех наверх.
Чем решительнее Вы перекроите свой сайт, тем сильнее испугаете фильтры контента Яндекса- есть неслабая вероятность, что они от Вас отвяжутся.
Видите, какое это неблагодарное занятие, дружить с Яндексом? Но охота пуще неволи, кто бы спорил...
Ну и приписка ко всему вышесказанному, имеющая силу дискламбера.
Мастер Ласто, понятное дело, ни разу не сотрудник Яндекса, а потому не может знать наверняка, какое именно действие спасёт Ваш сайт от бана после первого выпадения его из индекса. А потому не несёт никакой ответственности за всё то, что Вы предпримите, поначитавшись вышеизложенного, равно как и за противодействие Яндекса в ответ на это.
