Поисковый сервис Спутник подал первые признаки жизни.

Самые популярные товары с Али по лучшей цене:

Автомобильный диагностический сканер 640 руб.
Wi-Fi умная вилка, таймер 780 руб.
Мужской кошелёк с RFID-блокировкой 427 руб.

06 ноября 2013, 17:00

Поисковый сервис Спутник подал первые признаки жизни.

Поисковый сервис «Спутник» подал первые признаки жизни.


В двери стучат:
"Открой! Я Спутника бот!"
...а не послать ли?

Как все мы помним, некоторое время тому назад в руководящих структурах нашей страны огромной вдруг заговорили о намерении таки создать государственный поисковик. Который, в отличие от других ныне действующих, будет максимально кошерным. Что конкретно тут подразумевается под кошерностью, оговорено не было. Но, как мы понимаем, или хотя бы догадываемся, именно та самая пресловутая кошерность и является причиной создания новой поисковой системы.

Потом, правда, прошли сообщения, что всё ни разу не так, и никакого поисковика с пейсами вовсе не затевается, а журналисты что-то неправильно поняли или неверно истолковали, и, как обычно, нагородили отсебятины, аки шаловливый пацан, пойманный за ухо на чердаке женской бани. Но ещё чуть погодя шаловливый пацан был реабилитирован, и тема сисек всё-таки раскрылась во всей её полноте - кошерному поисковику таки быть.

Люди, близкие к SEO, в том нимало не сомневались, ибо имели независимую информацию о переманивании Ростелекомом самых разных персоналий, руками которых уже испечено немало поисковых кулебяк.

Правда, на собственно сайте sputnik.ru пока что ничего нет, лишь только понятно, что в корне там сидит nginx. Ну и ещё понятно, кто этим всем владеет:

Сайт: sputnik.ru

inetnum: 109.207.0.0 - 109.207.15.255
netname: Electronic-government
descr: Electronic government of the Russian Federation
org-name: OJSC Rostelecom
address:
OJSC Rostelecom Kiryukin Aleksey 25-2,
Dubovaya Roscha street
127427
MOSCOW RUSSIAN FEDERATION
phone: +7 495 339 11 22
fax-no: +74999953619

Так что собственно поиск с дыркой запроса и предсказуемым интерфейсом нарисуется чуть позднее. А пока идёт интенсивное сканировние всех сайтов (то есть абсолютно любых, без разбора), при условии, что те сайты глаголют на русском языке. Срок завершения этой процедуры, предположительно, истекает до конца года, так что процесс индексирования весьма интенсивен.

Индексирующий бот государственной поисковой системы «Спутник» имеет имя SputnikBot/2.2, и обычно приходит на индексируемый сайт с IP адреса 109.207.13.41. Трафик им создаётся довольно плотный, и без обучения статмодуля словам «кто такой, с какого взвода, почему не знаю?» оный бот распознается как просто Mozilla/5.0

Другие статьи категории «SEO - три весёлых буквы»

PageRank сегодня как он есть.

PageRank сегодня как он есть. Захотелось вдруг местному автору поговорить о хрестоматийной вроде бы вещи. В силу своей хрестоматийности, эта вещь почему-то воспринимается всеми как нечто совершенно незыблемое. Дескать, коли уж сей вещи молились и поклонялись многие поколения вебмастеров, вроде как надо истово стукаться лбом о твердь земную в её честь и далее.

Острова Яндекса на финише. Что видим?

Острова Яндекса на финише. Что видим? Вряд ли этот пост придаст кому-то импульс к незамедлительному действию, ибо местный автор полезен читателю тем, что позволяет наблюдать со стороны над ходом своих мыслей. Которые, пометавшись козой об забор, обычно приводят к более-менее правильным выводам. В чём их, выводов, и состоит ценность.

А работает ли сегодня тег noindex?

А работает ли сегодня тег noindex? Как оказалось, глобализация вовсе не ругательство какое, и даже не миф. Она не хило так убивает самобытность, подводя всех к одному знаменателю прямо влёт. Вот взять хотя бы теги, не входящие в официальную спецификацию языка HTML или XML. Наш любимый Яндекс их в своё время наплодил с запасом, но широкой публике известна лишь милая шняжечка в лице тега Noindex.
10 ноября 2013, 07:16

№ 6О плотности трафика

Возможно, кому-то будет интересно.

Как замшелый консерватор, обнаружил нового бота не в статмодуле, коего просто нет, а в логах Апача, где периодически (под настроение и с удовольствием) роюсь. Пока можно отнести слова о плотности трафика лишь к числу скачиваемых за один сеанс страниц - в этом отношении трафик действительно плотный. Паузы между запросами были в пределах 2-3 секунд, что позволяет одобрить манеры бота и отнести его все же к цивилизованным.

Но это частные примеры нескольких сайтов с файловым хранением данных на движке собственного пошива, который спокойно терпит и визиты школоты, стремящейся "скачать всё в 10 потоков без пауз и прочих реверансов".

Прервал написание - вытащил лог тяжелого проекта - там vBulletin на выделенном сервере, в логе на любую секунду приходится по 10-15 строк. Там бот вел себя полегче, между запросами паузы в 3-6 сек. То есть, адаптивность в наличии, время получения страницы явно учитывает и регулирует паузы. Словом, не Вебальта.

Адрес в первом случае тоже 109.207.13.41 (сайтики у хостеров-на-Хетцнере). Во втором случае бот ходит с 109.207.13.21 (сервер на московской площадке FirstDedic).
Спасибо за фенологические наблюдения.

Только хочется добавить, что бот хоть и цивилизованный (что не факт, может, просто читает и учитывает "Crawl-delay" в роботсе - а уберите эту запись, что, интересно, будет?), но несколько, скажем так, не сообразительный. Ходит по одним и тем же документам практически по кругу, и имеет интенсивность визитов поболее, чем у роботов Гугла и Яндекса. Причём в разы.
Zanuda
10 ноября 2013, 18:47

№ 7Снова о плотности

Crawl-delay у меня попросту нигде нет - стараюсь выбирать хостинг, который выдержит "потолочно-прогнозируемую" нагрузку. Я вообще не считаю эту директиву особенно нужной - именно из-за тех ботов и парсеров, которые маскируются под браузеры и robots.txt не запрашивают. А их в последнее время расплодилось множество.

Что касается обходов по кругу - это же норма жизни бота. Вероятно, пока у этого новичка не очень большая база URL, а с ее ростом и график обходов станет менее плотным. Да и пока вопрос, занимается "Спутник" уже индексированием, или пока только бота отлаживает. В общем, как всегда - вопросов много, ответы увидим потом.
Zanuda
Все заметки категории «SEO - три весёлых буквы»