Магистр Йода: набалтыватель уникальных текстов.

11 ноября 2009, 21:00

Магистр Йода: набалтыватель уникальных текстов.


Зипфа законы
Посложней бутерброда...
Но надобно знать.


Магистр Йода набалтыватель уникальных текстов

Велико было желание написать сегодня про что-то весёлое и радостное. Но, посмотрев на долгосрочный рейтинг популярности постов, Мастер Ласто вдруг обнаружил, что конец вектора интересов его читателя нескромно упёрся совсем в другое место. А поскольку драгоценного читателя положено всячески радовать потаканием его странным и извращённым склонностям, соизвольте заслушать очередной рассказ на извечную тему о птичках.

Сначала, правда, несколько о другом. Типа подводка. Но на самом деле потуги на философию.

Как известно, умных людей, умеющих выдумывать схемы и алгоритмы, не так много. Принято считать, что их в районе 5% от общей численности занятых в той или иной нише или отрасли знаний. Это им не сидится на попе ровно. Вечно они чего-то изобретают, пробуют и экспериментируют, иногда нападая на золотую жилу. А чаще всего со свистом пролетают мимо кассы- таков уж удел любого исследователя.

Но, с другой стороны, кто не ищет, тот ничего и не обрящет, как уверяет нас Книга. Всего лишь одна нарытая золотая жила обычно с лихвой компенсирует десять пролётов мимо кассы. Ну а потом приходит опыт в изыскании золотых жил, и жизнь эмпирика становится всё веселее и радостнее, прямо-таки по цитатнику Отца народов.

Однако, плюшки плюшками, а не стоит забывать и про 95% оставшихся. Как мы теперь отчётливо понимаем, они не способны к строительству схем и выдумыванию алгоритмов. К изобретению различных приёмов достижения цели неизведанными доселе путями. А потому понуро ходят строем под зычную команду старшины.

В общем-то, это не хорошо и не плохо. Такова жизнь- или ты живёшь своей головой, принимая на себя все риски, связанные с выбором Пути, зачастую неверным, либо плывёшь по течению в ранге «как все» и в звании рядового. Здесь и там есть свои плюсы и минусы. Кто-то за пять минут наизобретает работы на год вперёд целому НИИ, а кому-то даже малость подумать башкой сложнее, чем выкопать колодец зубочисткой.

И если про 5% тут говорить бессмысленно, ибо неисповедимы пути их, и да будет ветер им в спину и удача навстречу с радостной мордой, то оставшиеся 95% нам сегодня как раз и интересны. Сиё эссе как раз про них.

Действительно, это они сбиваются в стаи, и обитают на всяких форумах, истачивая гигабайты диска сервера на обсуждение тривиальных вещей по десятому разу. Это они подписываются на кучу рассылок и фидов, ожидая, что там будет «спалено» что-нибудь этакое, и ждут такого момента годами, тратя по часу в сутки на чтение разной шелухи. Это они, как правило, заводят email на сервисах Яндекса и Рамблера, что для местного автора примерно как вопительный знак на цыплячьем фоне, нацепленный на заднем стекле идущего спереди автомобиля :)

Сей клуб «девяноста пяти» есть заповедник для всякого рода гуру, уже освоивших правила Игры. Можно взять любой миф наугад (или сходу выдумать свой), помозговать над ним вечерок-другой, и сотворить очередную схему по извлечению прибыли на ровном месте из воздуха. Можете поверить сразу, можете броситься на поиски тухлого помидора, дабы запустить им в Мастера Ласто в знак недоумения и категорического несогласия, но девять десятых всего того, что рекомендуется / впаривается / продаётся в интернетах (и не только), есть не что иное, как чья-то очередная схема.

Причём это ещё по самому оптимистичному прогнозу :)

Соответственно, почти всё то, в чём члены клуба «девяноста пяти» совершенно точно уверены на сто процентов, и чуть ли не молятся на это долгими зимними вечерами, обычно есть мифология в чистом виде.

Ну а под стройной пирамидой знаний на темы, скажем, вебмастеринга, так вообще подлежит километровая толща напластований всевозможных измышлений и мифологических штук, произрастающих и проистекающих хрен знает из какого места. Разгребите весь этот «фундамент» до основания - нет там никакой истины, а так, фигушки всякие…

Но пусть наконец из многого пафоса сложится малая конкретика.

Вот к примеру, абсолютно вся вебмастерская тусовка, удивлённая вдруг до невозможности своим внезапным вектором движения из настоящего в задницу, что обусловлено «странным» поведением искалок, засовывающих их замечательные сайты то в неминуемый бан, то в презренный сапплементал, то ещё под какие постыдные фильтры с мудрёными названиями, лечиться от которых надлежит чуть ли не у венеролога, хором грезит по так называемому уникальному контенту.

Это истинный святой Грааль вебмастера, якобы пропуск прямо в рай, без всяческих предшествующих страданий и искуплений грехов, а также прочего полагающегося по уставу обрезания под корень.

В принципе, тут как бы и нет никаких проблем- ну возьми клаву в руки, обрети табуретку под задницей, закати очи к небу в нездешней задумчивости, и таки породи этот уникальный контент… Но поскольку тусовке нужно клепать ГС в рамках программы производственного онанизма во славу Хитрых Контор, то этот номер не пройдёт. Сил не хватит. Истощение наступит быстрее, чем будет заработан первый килоуй.

Нормальные герои всегда идут в обход, всё правильно. Тут же, откуда ни возьмись, нарисуется указующий перст, с татуировкой на ногте «синонимайзер», поодаль другой, с надписью шрифтом типа тахома «перевод туда- обратно», рядышком третий, также с какой-то фигнёй… И толпа, воодушевившись вдруг открывшимися охренительными по своей силе перспективами, начинает послушно двигать телом с совершенно предсказуемым, но неведомым ей результатом.

А давайте, уважаемые коллеги, сделав лукавый вид, что якобы мы ничуть не в теме, без всяких комплексов и оглядок на авторитеты препарируем какой-нибудь указующий перст. Например, про синонимизацию. Но не с позиций представителя пресловутого клуба «девяноста пяти», для которого-то всё как раз понятно и сомнений не вызывает, а с точки зрения Фомы Неверующего, освободившего свой ум от мифов, разум- от стереотипов, а онанизм- от Хитрых Контор. Над которым ничто не довлеет.

То есть поставим вопрос прямо: а действительно ли синонимизация текста должна приводить к тому, что искалки воспримут оный за донельзя уникальный, и зайдутся в оргазменном экстазе?

Вроде бы как по логике вещей должны- между текстами раз (оригинал) и два (пропущен через синонимайзер) на уровне словесов не очень много общего:

«Интернет кружит голову творческому человеку: изобилие поразительных, фантастических проектов порождает лихорадку новых идей. Старайся не оглашать свой замысел прежде времени, особенно целиком, и особенно там, где высота положения порождает всеобщие ожидания, окружает замыслы критическим вниманием. В нем загодя найдут множество недостатков, а потерпеть неудачу окажется злосчастным вдвойне. Неожиданность - залог успеха. От игры в открытую ни корысти, ни радости. Недаром в Интернете так много виртуальных людей, и почти невозможно узнать, кто скрывается под маской. И вообще, молчаливая сдержанность и упорство в деяниях - святилище благоразумия.»

«Интернет дурит главу созидательному мужу: обилие ошеломительных, фееричных планов пробуждает лихоманку свежих мыслей. Норови не объявлять свойский план раньше срока, в особенности всецело, и особливо там, где возвышенность позы зарождает повальные ожидания, опоясывает замыслы драматическим интересом. В нем заблаговременно отыщут бездну изъянов, а потерпеть неуспех окажется злополучным вдвое. Внезапность - заклад удачи. От выступления в распахнутую ни выгоды, ни веселья. Неспроста в Сети так немало ненастоящих людишек, и совершенно неосуществимо изведать, кто таится под личиной. И вообще, безмолвная невозмутимость и напористость в поступках - храм предусмотрительности.»

Но, ежели Вы скормите сайт, изготовленный таким вот образом, а также исходный (контрольный, с откровенным копипастом, но из разных мест) Гуглу, то через некоторое время обнаружите, что синонимайз практически целиком ушёл в сапплементал, и показал тем самым результат куда более худший, чем даже исходный копипаст.

Где в этом логика?

На первый взгляд, её нет. Далее в главу приходит мысль: «Гугл, суцко, хитрый - это он так меня дрючит». Потом мысли кончаются, уступая место рассуждениям, приводящим к однозначным выводам, что именно так оно и должно быть. Объясняю, почему.

Все мы видели, без сомнения, культовый фильм «Убить Билла». В этот раз нам очень повезло, что озвучили его нормально, а не как обычно. Так что даже можно было местами испытать некоторое удовольствие от отстранённого созерцания, и воспринять кое-какие посылы авторов.

Например, эпизод про чемоданчик долларов со змеюкой внутри как раз адресовался вебмастерам, грезящим об уникальном контенте. Чтобы они это поняли, авторы даже сопроводили сей кусочек фильма монологом Дэрил Ханы о черной мамбе. Вспомните: «Мне нравится это слово - колоссальный. Его так редко удаётся использовать в речи...».

Я ни минуты не сомневаюсь, что Гугл точно видел этот фильм, и сделал из него все полагающиеся выводы. Ему доподлинно известно, что, например, существительное «глава» используется в сотню раз реже, чем его современный вариант, и обычно в сочетании с другим существительным, обозначающим должность (глава корпорации, администрации, фирмы, всякой прочей организации). Так что «голова» и «глава» нифига не равнозначны, и там, где по смыслу подразумевается первое, но употребляется второе, стоит навострить ушки.

А поскольку в том же тексте процент редко употребимых слов и выражений просто зашкаливает, ибо так и устроены синонимайзеры, оснащаемые базами синонимов для именно наиболее ходовых слов с заменой их на менее популярные (равночастотных синонимов очень немного), то детектировать даже самый осмысленный, тщательно согласованный по родам и падежам текст, порождённый синонимайзером, не представляет никакой трудности вообще.

Это примерно как встретить зимой в городской толпе абсолютно голого человека, и догадаться, что что-то тут не так. Тут даже не надо быть Штирлицем…

Наверное, читатель в этом месте слегка задумался, но не всякий подряд. Ибо кто такой Мастер Ласто, чтобы свергать с пьедестала очередного гуру, вопящего, что его синонимайзер- это золотой черенок от лопаты, которой можно грести деньги не уставая, даже без перерыва на обед?

Тогда Мастер Ласто станет Вас давить авторитетом филолога и профессора Гарвардского университета Джорджа Кингсли Зипфа, который ещё до Вашего рождения обнаружил: частота использования N-го наиболее часто используемого слова в естественных языках приблизительно обратно пропорциональна N. А если в конкретном тексте данная закономерность не соблюдается, то это не естественный язык. А автоматически сгенерированный, стало быть.

Очень сомнительно, чтобы поисковые машины, работающие с текстами, никак не использовали в своих алгоритмах, скажем так, основополагающий для лингвистики закон Зипфа (непременно изучите хотя бы топ документов, доступных по ссылке- узнаете много нового). Конечно, используют. В них целая куча алгоритмов, оперирующих всякими там семантическими срезами, и Ваш синонимайз сквозь них точно не пройдёт. Ежели на то будет воля искалки, конечно.

Поэтому, возвращаясь к нашему онанизму с Хитрыми Конторами, а также к теме генерации под них ГС десятками в день, спешу Вас порадовать известием, что делать это на основе традиционных синонимайзеров (с заменой синонимов по базе) глупо и бессмысленно. О чём с этого момента извольте начать знать.

Как мне кажется, некоторые перспективы тут есть у другого подхода, зачатки которого просматриваются в готовых вещах типа MyMonsterSeptember, а именно, в насыщении исходного текста всякими разными уместными оборотами да наречиями, позволяющими из унылой и худоязыкой детской сказки про Колобка получить витиеватое повествование на манер затейливой саги, чтение которой вслух и с выражением детишкам на ночь создаёт предпосылки для взращивания из них словоплётов и словоблудов почище Мастера Ласто, каковым оный с лёгким сердцем и передаст свою катану при выходе в тираж.

Но это ещё будет не скоро :)

Да, и просьба ко всем, кто захочет написать в комментах что-нибудь про сервисы проверки текстов на уникальность, категорически этого не делать. Ибо смысл поста не просто не понят, но даже не увиден.

Навигатор: 01 02 03
12 ноября 2009, 02:12

№ 1Увы

Увы, тов. Ласто, новый дороген не оригинален. Но тем не менее, творческих узбеков в прибыльной его реализации! Думаю, он достойный представитель семейства. Дерзайте!
Вышеприведенные образцовые хрени, различаясь, скажем так, словами, на 100% совпадают синтаксисом. Т.е. Существительное-глагол-прилагательное-существительное и т.п. Вероятность такого совпадения достаточно длинного текста технически подкованные да рассчитают сами.
А ежели ее окажется недостаточно для бана - перейдем, например, к семантическим полям. "Голова-глава" - поле нумбер ван, "кружит-дурит" - поле нумбер ту и т.д. Ван-ту-три-ван... Впрочем, тут несколько сложнее.
Но бабло гугля наверняка сможет победить трудности! А могущему автоматом пересинонимизировать и синтаксис с полями наверно стоит забить на сапу и отправить резуму прямо в гугель...
Не проще ли чукче-неписателю, у коего никак не выходит оригинальный контент, просто купить сей контент у кого-нибудь, кого им проносит на раз? Безработных жюрналистов, говорят, нынче много...
Смысл увиден или таки нет?
А не будет ли любезен тов. Л. на досуге поделиться идеей, скажем, монетизации уникального малокоммерческого сайтца, на тему, например, "Филологические вести"?
alex
12 ноября 2009, 18:01

№ 2Зачем головастому в Гугель?

2 alex:
бабло гугля наверняка сможет победить трудности! А могущему автоматом пересинонимизировать и синтаксис с полями наверно стоит забить на сапу и отправить резуму прямо в гугель...

А вот, собственно, зачем?
"Могущий самостоятельно" как раз на сапе одной поднимет столько... :)
А гугель есть по своей организации концлагерь строгого режима, населенный биороботами, а не райское место для работы...
Там даже более четко чем в яндекс - "шаг вправо, шаг влево - побег", а в гугле плюс еще "прыжок на месте - попытка улететь" :)
Дмитрий
12 ноября 2009, 18:18

№ 3На 3

А для чего тогда нужен ваш синонимайзер, если после него еще и ручками ? Ручками можно и без него. Любой синонимайзер совершенно бесполезен, потому что платишь деньги, а потом еще и сам переписываешь то, что он наваял. Причем еще и в оригинал заглядываешь - иногда совсем непонятно чего он там накрутил.
То же касается и синонимайзера от Ласто. Я поставил его, попробовал пару раз, и забил на это дело. Манибэк, кстати, предусмотрен?
Будьте внимательны- "синонимайзера от Ласто" не существует в природе, а если он и есть, то не продаётся по религиозным соображениям.
Петрович
12 ноября 2009, 23:09

№ 4Юрий

Товарищ, вы б писали два варианта постов: с обильным водосодержанием - для ПС. И тезисные - для читателей. Не в обиду, но к Вашим постам идеально применимо "правило пяти процентов": изюминка мысли в мешке словесной шелухи.
почты нету
12 ноября 2009, 23:35

№ 5Намусорили тут семечками...

Любителям читать "Анну Каренину" в виде комикса из трех картинок:

В настоящей публикации показано, что уникализация текста через синонимайз в рамках целого сайта в принципе бесполезна. Картина маслом "приплыли".

И намёкнуто, что всякие сервисы проверки текста на уникальность формальны по сути, и зря обнадеживают вебмастера по поводу его синонимайза. Даже самого вроде бы качественного.

Третья картинка комикса рисует хитрого Гугла, которому ваш синонимайз, как до пи... дверка. В уголке картинки яндекс в тумане - чего он про дверку думает, не сказано. Наверное, теперь уже автору это до пи... дверка.

На бонусной картинке изобрАжен паровоз, под который молодому вебмастеру остается только бросится от полной безнадеги. Потому как че не делай - фиг обманешь серча.
Возблагодарим Помогальника :)

И попросим его делать перевод с русского на доступный каждого поста на регулярной основе.

Если не сложно.

Хотя, ИМХО, что-то при этом утрачивается- например, упомянутый в посте культовый фильм в виде комикса выглядит так:



Помогальник :
13 ноября 2009, 00:16

№ 6Для 4

Юрий!
Ни то что бы я заступаюсь за Вадима, (надеюсь он сам за себя постоять сможет), вот роботс этого сайта:

User-agent: Yandex
Disallow: /

User-agent: *
Allow: /
Crawl-delay: 3

Из чего видим что этот блог для вас, если осилите, а не для ПС. Насколько могу видеть у Вадима для искалок есть другая кучка доменов.

А по поводу темы, кажется, мастер запоздал с публикацией. Уже давно понятно что синонимайзинг и прочее ковыркивание языка не имеет будущего. Даже так нелюбимый Вадимом яндекс, о котором он здесь даже не упомянул, всю подобную хрень вычисляет на раз - два. И речь идет сегодня не о правильном синтаксисе, а действительно о читаемости и не побоюсь данного слова, смысловой нагрузке.

То ли еще будет.
Виктор
13 ноября 2009, 00:55

№ 7МАТОВЫЙ

Приходила мне такая мысль, да реализовать не суждено – не силен в программировании. Лучший вариант (имхо) это рерайт или правка ручками за переводчиком Промт. И текст уникальный, и польза какая-никакая есть.

По теме именно данного синонимайзера предлагаю идею. Давайте выпустим синонимайзер, который по тому же принципу будет не заменять слова, а разбавлять. Разбавлять их будет нашим родным МАТОМ. Идея имеет еще одну интересную сторону. Не все базы синонимов одинаково хорши для разных тематик. Т.е. база синонимов по недвижимости не одинаково хороша для автомобильных текстов. А МАТОВЫЙ-синонимайзер подходит ко всем тематикам. Он универсален. Методика проверена русским мужиком столетиями. Иные ведь умудряются мат использовать не для связки, а наоборот, мат разбавляется основной мыслью…

И ведь что интересно, Яша никогда не отнесет эти слова к устаревшим, редкоиспользуемым или специальным. Русский мат вечен и универсален.
Себастьян Перейро
13 ноября 2009, 21:28

№ 8Не, матовый не то...

Для Себастьян Перейро.
Искалки просто срежут мат с текста по своим словарям неучитываемых слов, тут то неуникальный
Постоянный читатель.
14 ноября 2009, 21:41

№ 9Однакость

Вот вы тут в словоблудии упражняетесь, а я вам так скажу:
На основании чего мне как потенциальному покупателю предлагается этот продукт купить?
Не вижу изюму. Пока не куплю - не увижу.
А покупать кота в мешке не хочется
Я
14 ноября 2009, 23:22

№ 10Мда... Видимо, это не лечится...

В тысяча последний раз, в особенности для обладателей емайла на яндексе, по какой-то совершенно непонятной причине демонстрирующих одноходовость мыслей и прямолинейность поступков, сполна присущих пресловутым школьникам, потерявшим способность думать как раз с наступлением эпохи России, встающей с колен (что, очевидно, как-то связано), настоящим заявляю, что в данном куске сайта никакой коммерцией обычно никто не занимается, ибо местному автору это просто не интересно как на ментальном уровне, так и по финансовым соображениям. Могут быть ссылки по поводу темы разговора, но могут и не быть - тогда воспринимайте всё на пальцах.

А вот ежели местному автору вдруг нестерпимо захочется денег, то уж поверьте, текст нарисуется такой, что читателю не удастся заснуть всю ночь, и он включит комп в четыре часа утра, чтобы купить то, о чём прочитал с вечера, но почему-то сразу не приобрёл по причине наличия недремлющей жабы, теряющей бдительность как раз после заката и поближе к рассвету. И в том тексте предусмотрительно не будет ничего, про что можно думать, или чем организм способен озадачиться.

Ok?
Lasto
Навигатор: 01 02 03