Блог провинциального самурая

Блог провинциального самурая

Оформление: гламурное / самурайское

Магистр Йода: набалтыватель уникальных текстов.


Зипфа законы
Посложней бутерброда...
Но надобно знать.


Магистр Йода набалтыватель уникальных текстов Велико было желание написать сегодня про что-то весёлое и радостное. Но, посмотрев на долгосрочный рейтинг популярности постов, Мастер Ласто вдруг обнаружил, что конец вектора интересов его читателя нескромно упёрся совсем в другое место. А поскольку драгоценного читателя положено всячески радовать потаканием его странным и извращённым склонностям, соизвольте заслушать очередной рассказ на извечную тему о птичках.


Сначала, правда, несколько о другом. Типа подводка. Но на самом деле потуги на философию.


Как известно, умных людей, умеющих выдумывать схемы и алгоритмы, не так много. Принято считать, что их в районе 5% от общей численности занятых в той или иной нише или отрасли знаний. Это им не сидится на попе ровно. Вечно они чего-то изобретают, пробуют и экспериментируют, иногда нападая на золотую жилу. А чаще всего со свистом пролетают мимо кассы- таков уж удел любого исследователя.


Но, с другой стороны, кто не ищет, тот ничего и не обрящет, как уверяет нас Книга. Всего лишь одна нарытая золотая жила обычно с лихвой компенсирует десять пролётов мимо кассы. Ну а потом приходит опыт в изыскании золотых жил, и жизнь эмпирика становится всё веселее и радостнее, прямо-таки по цитатнику Отца народов.


Однако, плюшки плюшками, а не стоит забывать и про 95% оставшихся. Как мы теперь отчётливо понимаем, они не способны к строительству схем и выдумыванию алгоритмов. К изобретению различных приёмов достижения цели неизведанными доселе путями. А потому понуро ходят строем под зычную команду старшины.


В общем-то, это не хорошо и не плохо. Такова жизнь- или ты живёшь своей головой, принимая на себя все риски, связанные с выбором Пути, зачастую неверным, либо плывёшь по течению в ранге «как все» и в звании рядового. Здесь и там есть свои плюсы и минусы. Кто-то за пять минут наизобретает работы на год вперёд целому НИИ, а кому-то даже малость подумать башкой сложнее, чем выкопать колодец зубочисткой.


И если про 5% тут говорить бессмысленно, ибо неисповедимы пути их, и да будет ветер им в спину и удача навстречу с радостной мордой, то оставшиеся 95% нам сегодня как раз и интересны. Сиё эссе как раз про них.


Действительно, это они сбиваются в стаи, и обитают на всяких форумах, истачивая гигабайты диска сервера на обсуждение тривиальных вещей по десятому разу. Это они подписываются на кучу рассылок и фидов, ожидая, что там будет «спалено» что-нибудь этакое, и ждут такого момента годами, тратя по часу в сутки на чтение разной шелухи. Это они, как правило, заводят email на сервисах Яндекса и Рамблера, что для местного автора примерно как вопительный знак на цыплячьем фоне, нацепленный на заднем стекле идущего спереди автомобиля :)


Сей клуб «девяноста пяти» есть заповедник для всякого рода гуру, уже освоивших правила Игры. Можно взять любой миф наугад (или сходу выдумать свой), помозговать над ним вечерок-другой, и сотворить очередную схему по извлечению прибыли на ровном месте из воздуха. Можете поверить сразу, можете броситься на поиски тухлого помидора, дабы запустить им в Мастера Ласто в знак недоумения и категорического несогласия, но девять десятых всего того, что рекомендуется / впаривается / продаётся в интернетах (и не только), есть не что иное, как чья-то очередная схема.


Причём это ещё по самому оптимистичному прогнозу :)


Соответственно, почти всё то, в чём члены клуба «девяноста пяти» совершенно точно уверены на сто процентов, и чуть ли не молятся на это долгими зимними вечерами, обычно есть мифология в чистом виде.


Ну а под стройной пирамидой знаний на темы, скажем, вебмастеринга, так вообще подлежит километровая толща напластований всевозможных измышлений и мифологических штук, произрастающих и проистекающих хрен знает из какого места. Разгребите весь этот «фундамент» до основания - нет там никакой истины, а так, фигушки всякие…


Но пусть наконец из многого пафоса сложится малая конкретика.


Вот к примеру, абсолютно вся вебмастерская тусовка, удивлённая вдруг до невозможности своим внезапным вектором движения из настоящего в задницу, что обусловлено «странным» поведением искалок, засовывающих их замечательные сайты то в неминуемый бан, то в презренный сапплементал, то ещё под какие постыдные фильтры с мудрёными названиями, лечиться от которых надлежит чуть ли не у венеролога, хором грезит по так называемому уникальному контенту.


Это истинный святой Грааль вебмастера, якобы пропуск прямо в рай, без всяческих предшествующих страданий и искуплений грехов, а также прочего полагающегося по уставу обрезания под корень.


В принципе, тут как бы и нет никаких проблем- ну возьми клаву в руки, обрети табуретку под задницей, закати очи к небу в нездешней задумчивости, и таки породи этот уникальный контент… Но поскольку тусовке нужно клепать ГС в рамках программы производственного онанизма во славу Хитрых Контор, то этот номер не пройдёт. Сил не хватит. Истощение наступит быстрее, чем будет заработан первый килоуй.


Нормальные герои всегда идут в обход, всё правильно. Тут же, откуда ни возьмись, нарисуется указующий перст, с татуировкой на ногте «синонимайзер», поодаль другой, с надписью шрифтом типа тахома «перевод туда- обратно», рядышком третий, также с какой-то фигнёй… И толпа, воодушевившись вдруг открывшимися охренительными по своей силе перспективами, начинает послушно двигать телом с совершенно предсказуемым, но неведомым ей результатом.


А давайте, уважаемые коллеги, сделав лукавый вид, что якобы мы ничуть не в теме, без всяких комплексов и оглядок на авторитеты препарируем какой-нибудь указующий перст. Например, про синонимизацию. Но не с позиций представителя пресловутого клуба «девяноста пяти», для которого-то всё как раз понятно и сомнений не вызывает, а с точки зрения Фомы Неверующего, освободившего свой ум от мифов, разум- от стереотипов, а онанизм- от Хитрых Контор. Над которым ничто не довлеет.


То есть поставим вопрос прямо: а действительно ли синонимизация текста должна приводить к тому, что искалки воспримут оный за донельзя уникальный, и зайдутся в оргазменном экстазе?


Вроде бы как по логике вещей должны- между текстами раз (оригинал) и два (пропущен через синонимайзер) на уровне словесов не очень много общего:


«Интернет кружит голову творческому человеку: изобилие поразительных, фантастических проектов порождает лихорадку новых идей. Старайся не оглашать свой замысел прежде времени, особенно целиком, и особенно там, где высота положения порождает всеобщие ожидания, окружает замыслы критическим вниманием. В нем загодя найдут множество недостатков, а потерпеть неудачу окажется злосчастным вдвойне. Неожиданность - залог успеха. От игры в открытую ни корысти, ни радости. Недаром в Интернете так много виртуальных людей, и почти невозможно узнать, кто скрывается под маской. И вообще, молчаливая сдержанность и упорство в деяниях - святилище благоразумия.»


«Интернет дурит главу созидательному мужу: обилие ошеломительных, фееричных планов пробуждает лихоманку свежих мыслей. Норови не объявлять свойский план раньше срока, в особенности всецело, и особливо там, где возвышенность позы зарождает повальные ожидания, опоясывает замыслы драматическим интересом. В нем заблаговременно отыщут бездну изъянов, а потерпеть неуспех окажется злополучным вдвое. Внезапность - заклад удачи. От выступления в распахнутую ни выгоды, ни веселья. Неспроста в Сети так немало ненастоящих людишек, и совершенно неосуществимо изведать, кто таится под личиной. И вообще, безмолвная невозмутимость и напористость в поступках - храм предусмотрительности.»


Но, ежели Вы скормите сайт, изготовленный таким вот образом, а также исходный (контрольный, с откровенным копипастом, но из разных мест) Гуглу, то через некоторое время обнаружите, что синонимайз практически целиком ушёл в сапплементал, и показал тем самым результат куда более худший, чем даже исходный копипаст.


Где в этом логика?


На первый взгляд, её нет. Далее в главу приходит мысль: «Гугл, суцко, хитрый - это он так меня дрючит». Потом мысли кончаются, уступая место рассуждениям, приводящим к однозначным выводам, что именно так оно и должно быть. Объясняю, почему.


Все мы видели, без сомнения, культовый фильм «Убить Билла». В этот раз нам очень повезло, что озвучили его нормально, а не как обычно. Так что даже можно было местами испытать некоторое удовольствие от отстранённого созерцания, и воспринять кое-какие посылы авторов.


Например, эпизод про чемоданчик долларов со змеюкой внутри как раз адресовался вебмастерам, грезящим об уникальном контенте. Чтобы они это поняли, авторы даже сопроводили сей кусочек фильма монологом Дэрил Ханы о черной мамбе. Вспомните: «Мне нравится это слово - колоссальный. Его так редко удаётся использовать в речи...».


Я ни минуты не сомневаюсь, что Гугл точно видел этот фильм, и сделал из него все полагающиеся выводы. Ему доподлинно известно, что, например, существительное «глава» используется в сотню раз реже, чем его современный вариант, и обычно в сочетании с другим существительным, обозначающим должность (глава корпорации, администрации, фирмы, всякой прочей организации). Так что «голова» и «глава» нифига не равнозначны, и там, где по смыслу подразумевается первое, но употребляется второе, стоит навострить ушки.


А поскольку в том же тексте процент редко употребимых слов и выражений просто зашкаливает, ибо так и устроены синонимайзеры, оснащаемые базами синонимов для именно наиболее ходовых слов с заменой их на менее популярные (равночастотных синонимов очень немного), то детектировать даже самый осмысленный, тщательно согласованный по родам и падежам текст, порождённый синонимайзером, не представляет никакой трудности вообще.


Это примерно как встретить зимой в городской толпе абсолютно голого человека, и догадаться, что что-то тут не так. Тут даже не надо быть Штирлицем…


Наверное, читатель в этом месте слегка задумался, но не всякий подряд. Ибо кто такой Мастер Ласто, чтобы свергать с пьедестала очередного гуру, вопящего, что его синонимайзер- это золотой черенок от лопаты, которой можно грести деньги не уставая, даже без перерыва на обед?


Тогда Мастер Ласто станет Вас давить авторитетом филолога и профессора Гарвардского университета Джорджа Кингсли Зипфа, который ещё до Вашего рождения обнаружил: частота использования N-го наиболее часто используемого слова в естественных языках приблизительно обратно пропорциональна N. А если в конкретном тексте данная закономерность не соблюдается, то это не естественный язык. А автоматически сгенерированный, стало быть.


Очень сомнительно, чтобы поисковые машины, работающие с текстами, никак не использовали в своих алгоритмах, скажем так, основополагающий для лингвистики закон Зипфа (непременно изучите хотя бы топ документов, доступных по ссылке- узнаете много нового). Конечно, используют. В них целая куча алгоритмов, оперирующих всякими там семантическими срезами, и Ваш синонимайз сквозь них точно не пройдёт. Ежели на то будет воля искалки, конечно.


Поэтому, возвращаясь к нашему онанизму с Хитрыми Конторами, а также к теме генерации под них ГС десятками в день, спешу Вас порадовать известием, что делать это на основе традиционных синонимайзеров (с заменой синонимов по базе) глупо и бессмысленно. О чём с этого момента извольте начать знать.


Как мне кажется, некоторые перспективы тут есть у другого подхода, зачатки которого просматриваются в готовых вещах типа MyMonsterSeptember, а именно, в насыщении исходного текста всякими разными уместными оборотами да наречиями, позволяющими из унылой и худоязыкой детской сказки про Колобка получить витиеватое повествование на манер затейливой саги, чтение которой вслух и с выражением детишкам на ночь создаёт предпосылки для взращивания из них словоплётов и словоблудов почище Мастера Ласто, каковым оный с лёгким сердцем и передаст свою катану при выходе в тираж.


Но это ещё будет не скоро :)


Да, и просьба ко всем, кто захочет написать в комментах что-нибудь про сервисы проверки текстов на уникальность, категорически этого не делать. Ибо смысл поста не просто не понят, но даже не увиден.



RSS лента ВСЕГО блога с комментариями RSS лента ВСЕГО блога БЕЗ комментариев RSS лента этой КАТЕГОРИИ с комментариями RSS лента этой КАТЕГОРИИ и БЕЗ комментариев RSS лента ЭТОГО ПОСТА с комментариями к нему



Прыг: 01 02 03 04 05 06 07 08 09 10
Скок: 10 20 30 40 50

Рейтинг популярности - на эти заметки чаще всего ссылаются: