Инновации в массовом сайтостроении.

Инновации в массовом сайтостроении.

Рыбалка скучна...
Что развлечёт самурая?
Динамитная шашка!


Периодически, примерно эдак пару раз в год, по весне и по осени, у манимейкерствующих юзеров вошло в привычку садиться попой на табуретку, и добросовестнейшим образом медитировать про то, что же их кормит. Чтобы прекратить заниматься разной (пусть и очень интересной) фигнёй, и сконцентрировать все усилия на деньгоприносящих сущностях.


Никто не против?


Кто виноват?


Вообще, грядущая осень обещает быть на редкость весёлой. Всё-таки кризисные явления, они довлеют. Сдуваются пузыри, отмирает всё не шибко нужное. А с ним и шибко нужное за компашку- например, давеча грохнулся е-пасспорт, и вскорости загнётся ещё куча разных сущностей. Казалось бы, железобетонных и в принципе не убиваемых даже выстрелом в упор из самой могучей рогатки.


Но это вполне закономерно. Стоит осознать, что время халявных денег практически исчерпано, и привычные килобаксы будут даваться всё более тяжким трудом. Тут одно из двух- или пахать больше, или забодяжить научно-техническую революцию, без которой нас ждёт деградация и коллапс (кто живёт в Стране, это уже может начать наблюдать во всей красе).


Но вернёмся к вебмастерингу.


Чего ждать?


Если абстрагироваться от сиюминутных и лукавых ништяков, а также «тем», которые долго не проживут, то не очень-то и перспективной ниша вебмастеринга покажется. Тот самый кризис, про который автор ругался выше, откинул вебмастеров практически к самым истокам. К работе с трафиком и его монетизации посредством тематических сайтов, либо торговле рекламными местами на более-менее трастовых ресурсах.


И всё, ничего более практически и нету по факту.


Как только вебмастер это наконец осознает, он поимеет перед собой нехилую дилемму.


С одной стороны, ситуация момента требует от него создания хороших, интересных, качественных сайтов, из числа тех, что живут долго. Что довольно трудозатратно, и окупается очень нескоро. Если окупается вообще. Тут засада.


С другой стороны, нет никакой гарантии, что это чудо чудное вообще будет проиндексировано, и сможет претендовать хотя бы на рекламные деньги от монетизации через прозаическую линкоторговлю, не говоря уж о большем. Вы сами знаете, кто такой Яндекс, и какие корки он периодически отмачивает. Не мне Вам об этом рассказывать. Тут засада тоже.


Что делать?


Поэтому вебмастер вынужден встать нараскоряку- из соображений конкурентоспособности производство готового сайта нормального качества должно у него занимать не более часа (так вот и делают говносайты), но вместе с тем исходный контент при этом обязан по возможности отвечать самым высоким критериям. Где этот контент берётся и как добывается- то обычно ноу-хау, и джедаев не волнует.


Если «технология раскоряки» вебмастеру таки доступна, и он способен:


  1. Взять в руки однажды добытый уникальный контент.
  2. Немного его уникализировать по машинным алгоритмам.
  3. Минимально трудоёмким способом расставить теги, если надо.
  4. Насытить текст картинками для пущей красоты.
  5. А также ссылками, если требуется.
  6. Заюзать технологию отсроченного постинга.
  7. Экспортировать в формат, понятный основным популярным движкам.

то производство добротного сайта никакой проблемы не создаст, а происки Яндекса станут и вовсе не страшны. Потому что поиграться структурой ресурса, а то и вовсе выпустить его ремейк, никакого труда не составит.


Как делать?


Прекрасно понимая цели, которые придётся решать в ближайшие годы каждый божий эври дэй, Мастер Ласто надумал для расширения кругозора попользовать одну такую тулзу, сильно помогающую в рутинных процедурах, перечисленных в виде листинга выше, а также в корректной синонимизации исходных текстов, если оная требуется (и что для местного автора представляет особый интерес). О собственно тулзе чуть позднее, сперва о впечатлениях.


К сожалению, Мастер Ласто не оказался на острие технического прогресса, ибо он понятия не имеет, кто такой ВордПресс, и как выглядят данные в его XML формате, потребные для импорта в тулзу. Показалось, что деньги потрачены зря, но потом пришла мысль поюзать импорт контента в виде каталога txt-файлов – такое тоже можно.


Это довольно просто, и конвертор постов из ЛастоБлога (ага, в основном всё строится на нём) написался в пять минут:


<?php # файл ./data/php_pages/convert.php
   
global $_s,$echo,$title;
   
$out='./tmp/export.'.date('Y.m.d.H.i.s').'.zip';
$title='Export UserData';
$mess=array(
   
'admin' => panel_h1('<a href="login.html">Сперва авторизуйтесь</a>'),
   
'title'   => panel_h1('Рапорт об экспорте пользовательских данных:'),
   
'error'   => '<p>Процедура не поддерживается хостером.</p>',
   
'ok'      => '<br><p>Скачайте архив: <a href="'.$out.'">
                 <b>'
.$out.'</b></a></p>'.
                
'<p>Удалите его после скачивания!</p>',
);

if (!
$_s['admin']) finita($mess['admin']); else $echo=$mess['title'];

$fr=array('.','...',' .',' ?',' ,',' !');
$to=array(' ','',' ','? ',', ','! ');

$zip=new ZipArchive();  
if (
$zip->open($out,ZIPARCHIVE::CREATE)!==truefinita($mess['error']);

foreach (
$_s['post_short_info'] as $k => $v) {
   
$zip->addFile(
      
'./data/posts/'.$k,
      @
iconv(
         
'windows-1251'.'//IGNORE',
         
'cp866'.'//IGNORE',
         
trim(str_replace($fr,$to,$_s['cats'][$v['cat']])).'/'.
         
trim(str_replace($fr,$to,$v['title'])).'.txt'
      
)
   );
}
$zip->close();
$echo.=$mess['ok'];
finita();
   
?>

В один клик на хосте рождается zip-архив, в который кладутся директории с именами категорий, а в них посты в виде простых txt-файлов, именами которых являются заголовки этих самых постов. Ещё одним кликом Вы скачиваете этот архив со своего сайта на локальный компьютер, и получаете исходные данные в нужном формате.


Всё это скармливается тулзе, и начинается работа.


Впечатления:


Мне показалось, что сама тулза довольно шустрая. По крайней мере, я примерно представляю себе объём вычислений по синонимизации немаленьких текстов по немаленькой же базе, с учётом стоп-слов, и прочими ритуальными действиями. Но тут ожидаемых тормозов не возникло, что уже гуд (ноут стандартный, 4 ядра, 4 гига оперативки, 3гига процессора), и даже завелось под 64-разрядной Виндой-семёркой (у которой с самописными тулзами и ботами обычно бывают проблемы- с этой стороны всё, считайте, уже протестировано).


О синонимизации:


Профессиональный интерес у всякого словоплёта, конечно же, в первую очередь вызывает ход синонимизации. Стилистика местного автора не очень для этого подходит из-за некоторой лексической вычурности, но всё же, ритуальная тестовая фраза до и после:


Исходный текст:


«Столкнувшись с необходимостью наполнения сайта уникальными текстами, вебмастер обычно сильно пугается своих школьных опытов по написанию изложений (это рерайт в чистом виде), и начинает гуглить разные скрипты по синонимизации текстов, которые бы согласились работать у него на компе, прямо на локальной машине (это максимально удобно).


Да, имеются всякие варианты. Результат работы различных скриптов также может быть различным- всё зависит от того, насколько глубоко автор скрипта проработал алгоритмы, и пользовался ли своим детищем длительное время для генерации большого количества сайтов лично. Потому как для себя всё делается на совесть.»


Синонимизированный:


«Столкнувшись с потребностью наполнения веб-сайта уникальными словами, вебмастер обычно крепко пугается собственных школьных опытов по написанию изложений (это рерайт в чистом облике), и начинает гуглить различные скрипты по синонимизации слов, коие бы согласились действовать у него на компе, по прямой на локальной автомашине (это максимально комфортно).


Да, наличествуют всякие варианты. Итог работы разных скриптов также имеет возможность быть различным- всё находится в зависимости от такого, как глубоко автор скрипта работал алгоритмы, и использовал ли собственным детищем длительное пора для генерации большого числа сайтов самим. Что как для себя всё делается добросовестно


Вполне читабельно, почти не коряво. Результирующий текст каждый раз получается немного другим, замена синонимов не однозначная, есть элемент случайности. Перегенерировав сайт, получите чуток другой контент.


О тегах:


Тулза содержит автогенератор меток на основе анализа лемм, однако результат его работы не особо вдохновил.


Очевидно, тут лучше пользовать руки, толковее получится.


Работа с текстом:


А вот тут все здраво – можно вырезать все теги, но оставить только некоторые, причём у оставленных тегов сохранить отдельные атрибуты, а все остальные похерить. То же проделать с заголовками, усекая их до нужного размера, и приляпав на конце при усечении то, что Вы укажите.


Можно повелеть формировать вступительный текст при сотворении блогообразного сайта, указав объём этого текста, а также то, лишать его HTML форматирования, или нет. Тут есть недоработка- вступительный текст может оборваться на полуфразе, а не так, как привыкли пользователи ЛастоБлога- только по факту окончания предложения.


Всё-таки вроде как сделанный руками сайт подразумевает, что каждый элемент публикации не с Луны свалился, а тщательно проработан.


Также имейте ввиду, что при импорте контента из текстовых файлов, когда в них нет никаких метатегов, а один лишь голимый текст, как в моём случае, при несущественном объёме этого самого текста автоопределение кодировки не срабатывает, и она считается равной UTF-8. И если на самом деле это не так (а у меня не так), то от данной конкретной публикации остаются рожки да ножки. Поэтому контролируйте, что там наимпортировалось.


Автонарезка (разбивка на несколько статей).


Так понимаю, для истинных любителей копипаста мегабайтами :)


Довольно универсальные настройки- можно разрезать одну статью на несколько по кусочкам, ориентируясь на их результирующий объём в знаках, можно задать какое-то регулярное выражение (для отъявленных гурманов) для разбивки. Опять-таки есть опции формирования заголовков для каждого из кусочков, чтобы они смотрелись органично.


Отсроченный постинг:


Он обязательно есть, и состоит в указании даты выхода публикации. Дата может проставляться рандомно в указанных пределах.


Подразумевается, что искалки любят постепенно растущие сайты, и будут писать кипятком, когда наткнутся на такой.


Нет проблем- если движок поддерживает такие штуки, они будут.


Экспорт.


Тут поддерживается довольно много движков и блог-платформ, ни один из которых я не пользую, и не имею ни малейшего желания начинать становиться поклонником Джумлы или ВордПресса какого-нибудь. Вариант со статичным сайтом также не особо прикалывает, а вот CMS на текстовых файлах явно в тему. Самая простая зовётся Зебрум Лайт – ну и нехай будет она.


Никаких проблем с втыканием этого самого Зебрума в хост, а потом и заливкой файла контента в Зебрума не возникло. Вообще установка тулзы на комп, понимание, что в ней и как, написание конвертора контента из ЛастоБлога или ЛастоСплога в формат, понятный тулзе, генерирование ею сайта в формате Зебрума, поднятие этого сайта на Зебруме- на всё про всё ушло около часа.


Получилось что-то вот такое: http://xxx.xx (Упс. Читайте P.S)


А учитывая, что проект сохраняется на диск во внутреннем формате тулзы, сайт может быть перегенерирован в любой формат в любое время, сразу же, как только это понадобится.


Хотелки.


Если бы Мастер Ласто баловался дорами, или уж как-то особенно сильно прикалывался по Хитрым Конторам, то, вообще-то говоря, не представляет вообще никакой сложности научить Нану, оффсайт которой живёт в NanoCMS.name, и сконструированную рациональнее, а потому и более скорострельную, понимать формат файла данных того же Зебрума или XML формат ВордПресса (сейчас в РНР есть очень мощные функции парсинга XML документов, и это просто).


А уж для Наны-то есть куча разных штучек, позволяющих видеть трафик сайта, коллекционировать реальные поисковые запросы, может быть, как-то завязывать на них трафик, постепенно умножая его в разы, цеплять комменты через модуль Общительной Наны, организовать поиск по всему контенту (раз уж он сидит в виде одного текстового файла), творить прочие выкрутасы…


Однако что-то в душе намекает, что такое доростроительство осталось далеко в прошлом, и эти хотелки вряд ли будут реализованы. Что имейте ввиду при написании комментов в стиле «А вот хочется, чтобы…»


Ваша польза.


Однако определённый потенциал у тулзы есть, и надо с неё извлекать весь возможный профит.


Автор сильно намудрил с названием, нареча тулзу «CM-II TreeEdit». Не очень понятно, но пусть будет так. Весёлое кино про неё уже сняли, можете кликнуть и посмотреть- Ваш браузер или RSS ридер  при поддержке соответствующих кодеков и плагинов покажет фильму прямо отсюда:



К сожалению, на момент моего ознакомления с тулзой такой фильмы не было, и некоторые вещи озадачивали своей непонятностью неискушённого в таких изысках самурая :( Но Вам будет проще.


Как водится, при появлении в природе хорошей и нужной штуки знатоки и ценители находят друг друга, вступают в неформальные отношения, и пытаются взаимовыгодно сотрудничать. Этакие желания непременно возникли и в данном случае, в результате чего родились сразу две полезные кнопки.


Смысл этих кнопок - в экономии средств. Тулза у производителя оценена в 85 баксов, что, хотя и полностью адекватно функционалу (который непременно будет развиваться, совершенствоваться и апгрейдиться), но тем не менее уже начинает порождать мысли о путях уменьшения прайса.


Мастер Ласто может Вам предложить тулзу за сумму, близкую к $70 (по действующему на момент написания статьи курсу это равно 2100 рублей – Шоп патриотично оперирует только рублями в качестве основной валюты, долларовые цены могут колебаться в зависимости от сиюминутного курса уя, и не обязаны в точности равняться указанной выше цифре. Ну а при значительном изменении Центробанком курса уя и рублёвая цена будет откорректирована). Для чего есть первая кнопочка:



Также не обойдены вниманием почитатели тулзы по изготовлению сайта за 600 секунд примерно того же назначения, которые вместо $35 в качестве платы за переход с одной софтинки на другую могут это сделать баксов за 25 (в рублях это будет 700, соображения в скобках те же, что и выше). По поводу чего имеет место быть вторая кнопка:



Там и там шопом Мастера Ласто Вам выдаётся инвайт, которых, кстати говоря, ограниченное количество (сотня в первом случае и в точности равное числу состоявшихся клиентов во втором), так что через некоторое время предложения этого поста утратят силу. Если Вы читаете этот материал сильно позже, то за кнопками ничего обещанного уже не будет. По инвайту Вы получаете тулзу последней версии прямо на сайте производителя. Что и как, постигайте в документе, доступном по соответствующей кнопочке.


Что хочется слышать.


В комментариях обычно много пишется в стиле «вай, как хорошо- жить стало лучше, жить стало веселее» или «да вы тут все ®удаки».


У автора уже есть сложившееся мнение по тулзе, и ценность подобных комментариев для него невысока.


Поэтому сконцентрируйтесь на предложениях автору тулзы (чего не хватает, может быть, им упущен какой-то популярный движок для экспорта, например), на рассказе про возможные аналоги, и прочие интересные общественности высказывания с места.


Будем взаимно полезны.



P.S. от 11 сентября 2010


К сожалению, структура сайта на Зебруме в его стандартной компоновке включает много дублированного контента. Искалки воспринимают этот движок строго как сателлитный, и с индексацией у него есть некоторые проблемы, сводящие на нет безусловное удобство самого движка.


По этой причине, а также в силу привязанности Мастера Ласто к своим любимым модулям под Нану, без которых жить как-то некомфортно, по линку в заметке доступен демосайт не на Зебруме, а на этой самой Нане, оснащённой конвертором XML ВордПресса прямо в файловую структуру Наны.


Просьба не запрашивать у местного автора «необычную сборку Зебрума» - изначальный текст статьи чуток не соответствует истине, и никакой такой хитрой сборки Зебрума у местного автора нет.


Судя по фразеологии, этому посту релевантны статьи:

  1. Хадж бродячих самураев к подножию Белухи.

    Хадж бродячих самураев к подножию Белухи. Умные люди давно заметили — размеренная жизнь в стиле «хомяк в колесе» утомляет. Если есть возможность, настоятельно рекомендуется периодически помещать организм в непривычные для него условия.

  2. Интересная радиостанция - выбор и обзор BaoFeng UV-5R.

    Интересная радиостанция - выбор и обзор BaoFeng UV-5R. Периодически у всего мужского населения планеты возникает остро выраженная потребность сбежать из дома. Хотя бы ненадолго. Ибо мужики постоянно страдают — то от недостатка общения с женским полом, то от избытка.

  3. Выбираем и покупаем гуглофон.

    Выбираем и покупаем гуглофон. Раз в несколько лет местный автор, обнаружив признаки издыхания у своего текущего телефона, озадачивается выбором нового. Прошлый раз такое случилось в эпоху царствования платформы Windows Mobile и устройств на жёсткой логике (так называемых «звонилок»).

Хомячковый рай. Уйти и потеряться:

Адрес заметки: http://lasto.com/blog/post_1283590800.html

Прыг: 01 02
05 сентября 2010, 12:03
Какие у семерки проблемы с "тулзами и ботами"?! Налицо желание автора покрасоваться новым ноутом: "4 ядра, 4 гига оперативки, 3гига процессора)", ебануться же!
Для семерки на оффсайте майкрософта до сих пор нет библиотек (или как оно там зовется) для некоторых фреймворков, история которых обрывается на платформе ХР.

C 64-битными версиями вообще конкретная проблема.
Столкнётесь- прочувствуете.

Поэтому для местного автора профессионализм написателя софта заключается в первую очередь в том, может ли он обойти проблемы несовместимости. Некоторые написатели вообще не в курсе такой проблематики- и ничего не могут поделать с тем, что их платный софт ни при каких ухищрениях не может быть запущен на незаглюченной Винде прямо из магазина.

Местный автор дважды попадал в такую ситуацию, и для него это таки важно.

А меряться пиписьками и испытывать по этому поводу бурные эмоции давайте в других местах. Местному автору до хрена лет, чтобы заниматься такою фигнёй.
Виталий
05 сентября 2010, 21:25
Согласен, проблемы у новой Оси есть, именно несовместимость, прощще на русском у программеров если я не ошибаюсь это называется "Ад DLL" - именно Ад библиотек, когда казалось бы одна и таже dll-ка но разного времени апгрейда, не работает на новых или наоборот на старых прогах. Пример реальный: у меня Windows7 X64 Professional. Присутствует так называемый режим совместимости, но толку мало от него. Прога под названием Xpumer последнего выпуска глючит не по деццки, частые ошибки в обращениях к памяти процессов, незавершение и т.д. Я никогда не скажу что Windows7 хреновая. Я скажу что программеры, что дерут за прогу почти 600 баксов должны учитывать в ней всё, даже ссылку на магазин презервативов...
Я не обсуждаю здесь пост и тулзу из поста, пишу по поводу глючности некоторых программ по вине их разработчиков.
zloy62
07 сентября 2010, 20:49
А вот интересно, как долго будут заходить в индекс Яши такие сайты и как долго они там будут жить? Особенно, с продажными ссылками на борту.
Господа, при выборе движка для экспорта контента из тулзы, пожалуйста, учитывайте его карму.

Ёжику понятно, что движок сателлитной специализации любой искалкой оценивается адекватно, и судьба сайта на нём будет незавидной.

Наверное, несложно сотворить соответствующий запрос в Гугла, и на первой же странице серпа сыщутся откровения типа js-php.ru - мысли вслух по подобным URL-ам вполне здравые.

И, конечно же, ничего лучше самописного движка, ни в малейшей степени не копирующего какие-то другие, быть не может. Именно поэтому бывалые SEO-шники периодически шерстят интернет на предмет новых CMS, молча делают на них сайты десятками, и ни в жизнь не поставят себе движком попсовое решение.

Видимо, в примере к статье я зря взял Зебрума- карма движка не очень.

Наверное, всё-таки придётся сделать транслятор вордпрессового xml в формат Наны, и упросить Мастера Горди намалевать гламурный дизайн, аутентичный такого рода ресурсам.

Пара-тройка дюжин сайтов на такой связке через какое-то время покажет, чего Яндекс думает о них :)

Нелегал
08 сентября 2010, 01:28
Пока суть да дело - вышла обновка тулзы.

Добавлено:
  1. экспорт через xml-rpc и пример сервера
  2. импорт RSS Feed
  3. расширенный формат prt файла,
    возможность хранения дополнительных настроек
  4. обновление до свежей версии интерфейсной библиотеки
  5. автоматическая проверка обновлений

Улучшения/исправления:
  1. правка работы с русским буквами в имени пользователя системы
  2. исправления в процедуре вставки ссылок

Что нам тут особенно интересно: такая вещь, как экспорт через xml-rpc и пример сервера - т.е. теперь элементарными телодвижениями делаем свой сервер xmlrpc и выгрузку через него в любую CMS. В том числе и Нану. Пример сервера есть на оффсайте в разделе документация.

Ну а любителям всяких там изысков в клиентской зоне появились 2 новые eng базы для рерайтера/синонимайзера.

На очереди вот такие вот штуки, как спеллчекеры для русского, английского и немецкого языка и...

Пока помолчим. Планов много, а кода написано еще больше.
DrMax
10 сентября 2010, 22:23
"... придётся сделать транслятор вордпрессового xml в формат Наны ..."
Давно ждем. Покупал на том же серче контент в виде xml файлов. Транслировал в зебрум. Однако, привык больше, да и склонен к Нане. Поэтому приходилось с помощью текст-кит превращать контент в хтмл-файл и копировать в нану- мазохизм, короче.
С нетерпением буду ждать ранслятор вордпрессового xml в формат Наны.
Видимо, оный понравится не всем.

Стремление убрать любое дублирование контента по сами знаете какой такой причине вынуждает отказаться от меток-тагов.

Карта сайта явно будет, но местный автор почти уверен, что её объём не должен превышать сотни ссылок.

Причина та же.

Так что структура сайта видится как морда с десятком категорий в сайдбаре, в каждой категории по десятку артиклей, с контентом на морде сайта и мордах категорий, никак не дублирующих сам контент.

То есть это частный случай псевдоплоского сайта, призванный сами догадываетесь какую роль выполнять.

Но наполняемый контентом действительно в три клика, с пропиской всего чего нужно в файлы меню самостоятельно.

Что-то в рамках данной концепции можем пообсуждать, пока не поздно.
Obormot
13 сентября 2010, 02:09
Мастер, по линку хрена.ру я увидел как раз то, что хотел. Не пора обнародовать добавку к нане?
Сергей
14 сентября 2010, 00:45
Да карма у Зебры и правдо не очень, проверено на личном опыте. Плюс сам сайт на этом движке на разных хостах подвисал.
А вот Яндекс ничего хорошего о таких сайтах не подумает, если сайт будет на этом движке.
Дима
14 сентября 2010, 17:10
... транслятор вордпрессового xml в формат Наны только поюзавшим соответствующие кнопочки...;-)
Сергей Петрович
22 сентября 2010, 00:20
На очередную хитрую тузлу у искалок всегда найдется винт с обратной резьбой и контрагайкой. Плохой путь. Будет только зря потерянное время. Хотя это как кому. У Ласто вижу это неплохо получилось. Горди постарался. Ему нужно отдать должное. Ну, а контент то... паленый небось. Нет, не небось, проверил первую статью наугад - уникальность 0. Как известно в сайте не оболочка главное, а какраз его контент. Так, что за оформление 5, за дуриловку 2-.

Думаю не стоит вебмастерам ловиться на такую...сами придумайте слово. Пишите сами и будет вам счастье. Кстати сам Ласто то какраз сам и пишет за что ему всяческое уважение и похвала.

Да.. уж.. все в нашем мире из-за бабок. Задорнов был прав. Все чаще и чаще убеждаюсь в этом.
Yury
28 сентября 2010, 00:41
Пока суть да дело - вышел очередной апдейт тулзы. Уже за номером 1.0.4. Теперь он несет на борту, помимо всего прочего - еще и ручной рерайтер - тезарус. Понаблюдать это шаманское чудо можно по соответствующему адресу в ютубе. youtube.com
DrMax
Прыг: 01 02

Комментарии к этой заметке больше не принимаются.



  • сентябрь, 2010
  • пн вт ср чт пт сб вс
    1 2 3 4 5
    6 7 8 9 10 11 12
    13 14 15 16 17 18 19
    20 21 22 23 24 25 26
    27 28 29 30