Самые популярные товары с Али по лучшей цене:

Бабушкин пульт - один пульт вместо нескольких 375 руб.
Брендовая карта памяти Lexar на 32Gb 358 руб.
Автомобильный диагностический сканер 640 руб.

27 ноября 2012, 17:30

О глистах на сайте.

О глистах на сайте.

Трафик на сайте
Многое может поведать.
Бдительны будьте...

Каждый, кто хоть однажды смотрел полную статистику трафика своего сайта (не путайте с профанацией в виде так называемых «счётчиков»), по первости обычно всегда поражался, откуда же вся эта радость. Какие-то невообразимые тысячи хитов, в то время как живых человечков (по пресловутым «счётчикам») в разы, а то и в десятки раз, меньше.

Нет, понятно, существуют сотни разных ботов. Нужных и не очень. Доступ которых к сайту вебмастер обычно побаивается ограничивать — а ну как бот в итоге полезным окажется. Но даже с учётом ботов всё равно как-то много получается...

Местный автор тоже всегда интересовался, из чего складывается этот экстра-трафик. А особенно та его часть, которая, что называется, мимо кассы. Хиты, которые не попадают ни на один документ, а натыкаются на страницу 404 ошибки. Вроде как боты должны в итоге сообразить, что незачем туда долбиться. Но настойчиво долбятся...

Кто и зачем?

Добро, делаем такой эксперимент. Аккуратно пишем в лог айпишник визитёра на страницу 404 ошибки, источник трафика в виде ссылающегося URL-а, если таковой есть, а также запоминаем адрес «ошибочного» документа, и все GET и POST параметры такого хита. Копим лог на хосте с месяц - другой, и потом с любопытством заглядываем внутрь.

О ботах поисковых систем.

Несмотря на честно отдаваемый хедер 404 ошибки, поисковые системы не спешат заносить почившие с миром документы в несуществующие. Раз за разом все без исключения поисковые системы перепроверяют, действительно ли больше нет такого документа. Причём некоторые из документов перестали существовать лет пять тому назад. Но искалки всё никак не успокоятся...

Особенно «радует» поисковик mail.ru

Несмотря на Гугловый (в данное время) движок, тут есть самобытность.

Похоже, эта искалка бесконечно перепроверяет любой существовавший когда-то URL. Причём в конвейерном режиме (что может даже «подвесить» сайт), каждые три-четыре недели.

Самый смех заключается в том, что с поиска майла ру обычно никто и никогда сколько-нибудь существенного трафика не видел. Что как бы намекает, какие именно стихи надо в файл роботса писать.

Гугл тоже хорош, но тут хоть есть искра разума.

Если в Сети живы сайты, которые ссылаются на когда-то существовавшие у Вас разделы (давно снесённые за неактуальностью), то Гугл считает своим долгом периодически удостоверяться, живы документы в этих разделах, или нет.

При отсутствии внешних ссылок на потерявшие актуальность и убитые документы, Гугл считает возможным забыть о них. Не исключено, что он всё-таки перепроверяет их URL-ы, но настолько редко, что зафиксировать это проблематично.

Про Яндекс сказать что-либо затруднительно. Его бот столь непредсказуем, а выдача так инерционна, что трудно оценить статус бота. То ли он с индексацией пожаловал спустя год после обнаружения документа, то ли с инспекцией... В общем, про Яндекс местный автор говорить не готов.

Но суть опуса не про то, что боты поисковиков как-то не хрестоматийно относятся к документам в статусе «404 Not found», хотя и такое наблюдение небезынтересно.

Как оказалось, примерно половина «ошибочного» трафика приходится вовсе не на ботов и заблудших серферов. И вот это сильно любопытно.

Центры сканирования на уязвимости.

Далее нам судьба погрузиться в интернетный андеграунд. Поэтому люди, считающие, что подлость и коварство — стезя сирых и убогих, причём исключительно где-то на задворках реальной жизни, а в интернетах можно наткнуться разве что на упёртого дебила, и не более того, рискуют узнать много нового и огорчительного.

В самом деле, давайте заглянем в накопленный лог. Окажется, это самый настоящий каталог уязвимостей и дырок, как к всевозможным движкам, так и какому-нибудь визуальному редактору, допускающему загрузку файлов на сервер.

Начиная от всеми любимых ВордПресса и Джумлы, и заканчивая проприетарным (и оттого не менее дырявым) Битриксом. Не исключая всякие доски объявлений, а так же всё, что в принципе ломается.

Причём самые интересные подходы мы тут не видим. Потому как детектирование движка обычно многофазное — сначала происходит попытка оттестировать движок по его отклику на определённые URL-ы (и это есть в логе), а уж потом подразумевается сама попытка подсаживания в него зловреда, ежели первый этап успешно пройден (а он не пройден, раз движок не такой).

При этом никого не интересует, что в данном конкретном домене всей этой благости нет и в помине (люди понимающие не пользуются софтом для хомячков). Ибо сканирование сайтов на уязвимости делается ни разу не ручками, и не осмысленно. А автоматически и с определённой периодичностью, причём по всё расширяющемуся списку сигнатур.

И таких «центров сканирования» не один десяток. Начиная от китайских айпишников, и заканчивая чопорными англичанами. Причём больше половины приходится на Украину (в последнее время это обитель всевозможного варёза и таких вот выкрутасов).

Интересное наблюдение — не особо PR-истые и ТИЦ-евые домены не имеют похожего паразитного трафика. Он случается, но не в таком масштабе и ассортименте. Из чего можно заключить, что охота идёт в основном за трастовыми доменами, на которые было бы интересно воткнуть ссылки, видимые ботам, или даже подлить кучку страниц-доров.

Наверное, это умозаключение и даёт ответ на вопрос «Зачем?»
Осталось ещё понять, «Как?»

Два страха: большой и маленький.

Конечно, местный автор поизучал ставшие ему доступными фрагменты «кода подсадки» зловредов, а также то, что такие образцы кода имели целью влить на сайт (сам зловред).

Ассортимент зловредов довольно разнообразен, и, исключая реализуемые ими варианты дистанционного API к движкам, в которых местный автор всё равно ничего не разумеет, интерес для местного автора представляют только вполне самодостаточные вещи.

Оказалось, в ряде случаев они могут вызвать восторг.
У программера, естественно.

Мало того, что подобного рода файл-менеджеры (да, вот так всё просто) позволяют сделать прямо через браузер с инфицированным сайтом всё, что хотите. Буквально. В большинстве случаев внутри себя они ещё и содержат зашифрованный модуль, сообщающий непосредственно программеру этого файл-менеджера конкретный URL его установки.

Зная который, можно поломать уже взломанный сайт ещё раз, и теперь уже совершенно другим способом. Не напрягаясь по поводу самого процесса заражения сайта :)

То есть тут, как и в любой другой нише, за школотой, пользующейся выданными ей готовыми инструментами, в каких-то своих мелких целях, стоят более серьёзные люди, использующие школоту втёмную.

Естественно, их задача заключается не в подсадке на чужой сайт ссылок для прокачки своего говносайта с целью наращивания его ТИЦ (любимое занятие школоты). Тут ломаются сразу хостеры, с куда более глобальными последствиями.

То, что за школотой на взломанный сайт непременно пожалуют куда более серьёзные дядьки, можете не сомневаться. Это неизбежно. Как и то, что взрослыми дядьками на сайт будут подлиты фрагменты кода, творящие чудеса.

Возможно, даже с прицелом на будущее — чудеса начнут твориться не сразу, а годик-другой спустя. Когда история с взломом сайта не просто выплывет наружу, а уже и забудется.

Как этого избежать?

Никак нельзя.

Люди склонны пользоваться движками, сложность которых намного превосходит возможности рядового пользователя познать их. Даже если у пользователя есть такое желание.

Но, как правило, подобного желания нет и в помине.
Ибо рецепт счастья - «бесплатно и быстро».
А потому бездумно.

Так что люди обречены пользоваться «чёрным ящиком», понимая, что рано или поздно случатся два страха. Большой и маленький. Всё прямо по написанному.

Единственный шанс — воспользоваться движком без уязвимостей, желательно самопальным, и оттого никому не ведомым. Но это путь единиц, ибо «бесплатно и быстро» и «долго и вдумчиво» диаметрально противоположны по смыслу, и никак в этой жизни не пересекаются даже в теории.

Что, может быть, и хорошо — пищевая пирамида есть всеобщий закон природы.

Другие статьи категории «Вебмастеру на заметку»

Про любовь: пейсатели и основной индекс Гугла.

Про любовь: пейсатели и основной индекс Гугла. Любой владелец сайта любит хотеть, чтоб на его ресурсе не переводился поисковый трафик. Чаще всего это желание из области иррационального, ведь на самом деле немногие умеют зарабатывать на трафике. Но иногда сайт действительно монетизируется именно через трафик, так что хотелка вполне кошерна и в тему.

Грани эволюции: избавляемся от мигунов.

Грани эволюции: избавляемся от мигунов. Как-то тихо и незаметно прошёл очередной ап ПейджРанка (что случилось ещё 2 августа). Следом нагрянул ап ТИЦ-а, так что на повестке дня у нас, как обычно в таких случаях, подразумевается ритуал простановки новых цен в Хитрой Конторе. В ходе исполнения означенных ритуальных действий местный автор вдруг вспомнил, что ещё по весне на нескольких своих сайтах внедрил инновацию, а рассказать про то забыл.

Актуализация знаний про 301 редирект.

Актуализация знаний про 301 редирект. Есть у местного автора в его зоопарке одна очень полезная зверушка, периодически вызывающая одни и те же вопросы. И поскольку хождение по кругу вдохновляет только рецидивных заключённых детского сада и юных питомцев пеницитарных учреждений, сейчас мы будем самозабвенно растекаться мыслью по древу.
27 ноября 2012, 19:58

№ 1Безопасность прежде всего

В точку сказано "долго и вдумчиво", именно так и постигались Cms-ки Ласто, зато я уверен, что мои сайты в безопасности и ничуть не жалею о однажды сделанном выборе.

Спасибо за ваши простые (хотя поначалу конечно сложные) решения. Ваши продукты действительно достойны того, чтобы ими пользоваться во благо.
Речь как бы не про это, но спасибо.
Владимир
29 ноября 2012, 06:40

№ 3Зеркалка

Вариант для хитроконторных дел:
1) берется любая и даже дырявая CMSка на любом ЧУЖОМ хостинге - хоть тот же вордпресс на сайте вордпресса, гуглоблог или даже юкоз
2) регаемся, заливаемся
3) на своем домене ставим скрипт-зеркалку с этого фрисабдомена
4) php пилит рекламу, левые ссылки и прочий хлам, перепрописывает везде свой домен в линках и отдает итог в браузер юзера ну и кеширует страничку на сутки к примеру

Итого: нужен всего ОДИН скрипт на море всяческих реализаций. Проблема правда есть - проброс интерактива (регистрации, комментарии и прочее). Этот процесс довольно сложен.
Александр Хмелев
29 ноября 2012, 21:41

№ 4Замечал в стат модуле разное

Я у себя тоже замечал в стат модуле обращения к страницам, которых никогда не было, и в принципе быть не могло на сайте. Причем эти обращения идут регулярно, несколько лет.

Еще есть некоторые умники, которые любят получать халявные ссылки со статистики, эти тоже регулярно долбятся.

А вот поведение Яндекс бота последние несколько дней заставило задуматься. Дело в том, что один мой сайт долгое время (года два) находился под фильтрами, в поиске была только морда (АГС?) Решил привести его в порядок, почистил базу, переехал на другую цмс, отписал Платонам. Сайт в индекс не вернули, типа надо еще поработать над ним. Но в стат модуле вижу, что бот Яндекса регулярно ходит по сайту, причем исключительно по старым адресам.

То есть получается, что где-то на серверах есть копия сайта, независимо от фильтров?
Да, все поисковики периодически обходят страницы, которые когда-либо были проиндексированы, независимо от их текущего статуса есть/нет. В статье это с недоумением отмечалось.
Miki
01 декабря 2012, 18:17

№ 5За то и спасибо статмодулю

Первая же мысль, возникшая у меня кода-то после приобртетения статмодуля была о том, что безопасности надо отдавать приоритет ибо процесс взлома автоматизирован. Вторая же благодарность Мастеру Ласто появилась чуть позже - когда в его софтинах появилась возможность переименовывать ключевые файлы. Хотя этой возможностью, думаю, пользуются не более 5% апологетов :-)
Да, если в том же скрипте блога переименовать index.php в что-нибудь иное, и синхронную операцию сделать в .htaccess файле, то блог продолжит работать как ни в чём ни бывало, хотя вроде как индексного файла больше и нет.

Само собой, можно будет создать фиктивный index.php вместо настоящего, чтобы обманывать вирусню, ворующую пароли от FTP - эта вирусня будет портить именно фиктивный индексный файл, который никак не задействован. Но, по большому счёту, человеку, допускающему утерю контроля над FTP, уже ничего не поможет...

Ну а смена важнейших URL-ов относительно дефолтовых - да, мысль правильная. К примеру, админке лучше всего живётся там, где её никто не ищет.
Павел
08 декабря 2012, 14:52

№ 6Самопальный != безопасный

Собсно, сабжем все и сказано. Долго и вдумчиво делаемый самопально движок ну никак не гарантирует его секурности и отсутствия в нем дырок.
Спасает только и исключительно от скрипт-киддисов первого уровня.
Смысл высказывания был в том, что писатель движка не наделает глупостей специально или по недомыслию. В рамках своей компетенции, естественно - но как правило, бездари и не берутся изобретать движки.

А вот юзер, кода движка вообще не видевший, и понятия не имеющий, как оно там работает, вообще ничего не боится. Даже не представляя, на сколь тонкой верёвочке всё иной раз держится.

В итоге самопальный движок обычно гораздо безопасней того, что творит сообщество. Плюс нет никакой зависимости от этого сообщества, и моды на глупости внутри сообщества :)
Алеша
08 декабря 2012, 15:50

№ 7Еще о странностях..

Объем и количество ботового трафика некогда особого удивления не вызывал. Хотя конечно я не подозревал что столько "глистов" долбятся в сайт.

Однако "желтые полосочки" в статсе Ластоблога нередко вызывали искреннее недоумение. Ибо мастером заявлено -что желтые - суть перехоы с поиска. И когда на сайте, у которого счетчик LI, к примеру в жизни никогда не показывал больше 100 хостов в сутки наблюдаешь 5000 хостов поискового трафика (в родном статмодуле) - приходишь в некоторое замешательство. Причем этот трафик никак себя не проявляет -заработок с Адсенса не увеличивается, файлы не скачиваются, фильмы не смотрятся...

Видимо "нехорошие дядьки" научились таки имитировать переходы с поисковых систем - по другому я такие супер-всплески трафика объяснить не в силах..
Ну так гляньте в лог hits.http.db
Там же будет видно, что, откуда и почему.

Если действительно видите, что хит идёт якобы с Гула или иной искалки, а в запросе торчит, например, HTML код со ссылкой на говносайт, то скрипт такой хит посчитает (ему велено считать всё подряд), но тут же занулит на массу. Ибо нефиг.

Местный автор в таких случаях склонен писать хостеру придурка любезное письмо, и вскоре безобразие обычно прекращается. Хостеры тоже не любят юзеров-придурков.
Ikar
08 февраля 2013, 11:34

№ 8Спасибо за стату!

Спасибо Ласто!
Скопировал стату. Удивился запросам...
Я тоже не раз удивлялся низкой конвертируемости трафика на свои проектах. Смотрел awstats, лиру, логи доступа/ошибок, и видел большую разницу и много много непонятностей.
Пошёл залатывать дыры на своих сайтиках, менять пути, переименовывать файлы, удалять лишние скрипты на хосте и др.
Ариан
08 февраля 2013, 11:53

№ 9Роботс

Вопросик попутно: а почему сейчас в роботс этого сайтика так мало запретов ботам?
Раньше вроде больше было их в списке...
Боты слабо слушаются роботса, и их гораздо надежнее укрощать либо силами самого движка, либо htaccess-ом.

Лучше первое, нежели второе.
Менее затратно по ресурсам.

А по идее, роботс остался там же, где и метатеги.
В прошлом.
Ариан
Все заметки категории «Вебмастеру на заметку»