Всё про хедер If-Modified-Since как на духу.

02 сентября 2015, 17:00

Всё про хедер If-Modified-Since как на духу.

Всё про хедер If-Modified-Since как на духу.


Инстракшен прочтя,
Возьми в руки бубен.
Беде быть иначе...

Всем писателям, практикующим складывание буковок в слова публичным способом, с последующей публикацией этих буковок на собственном сайте, посвящается.

С выходом на практический аспект, если движок вменяемый, и позволяет легко и просто что-то в себе менять.

А страдать мы сегодня будем, как и обычно, по SEO. В этом оптимизейшене постоянно случаются какие-то пертурбации, которые в скриптах класса «любимый поисковиками» следует учитывать сразу же, как только те пертурбации начинают на что-то реально влиять.

О высокомерии поисковых систем.

Есть, есть такой эффект.
Вы про него должны хотя бы знать.

В частности, он проявляется в том, что поисковая система с некоторых пор больше не рассматривает любой ресурс Сети как самоценный, а исходит из достаточно формальных требований к этому ресурсу. Которые ни разу не очевидны даже для бывалого вебмастера, уже повидавшего в этой жизни практически всё.

В результате вебмастер вынужден делать крайне странные вещи: тянуть таксу за уши и хвост в разные стороны, блюсти стройность морды хомяка, и даже организовывать поиск по сайту высоконаучным и особо извращённым способом, дабы повысить поисковый трафик хотя бы на треть.

Само по себе всё это по отдельности и в совокупности никому особо не надо, но искалки этого зачем-то страстно хотят. Более того, они не перестают хотеть всё новых и новых вещей, не менее странных.

К примеру, поисковые системы современности, ссылаясь на обилие сайтов, своим поведением постулируют, что им невмоготу уже отслеживать отдельные документы, отлавливать их изменения, и своевременно переиндексировать контент. Нет, они в принципе не против всем этим заниматься, но и особым желанием не горят. А будут делать это постольку-поскольку. Может быть, вообще пару раз в год по великим праздникам.

В результате, если Ваш сайт не научен некоей особой магии (которой, конечно же, никто специально не обучает), индексироваться он будет хреново и медленно.

Свежая икона нашего иконостаса: If-Modified-Since.

Если мы откроем Библию вебмастера, то в «Технических требованиях» к сайту раздела про индексирование, третьим же пунктом (даже раньше, чем пойдёт речь про сакральный и кармический файл роботса) будет сказано о важности и облигатуарности поддержки Вашим сайтом этого HTTP-заголовка.

Про него в курсе не только лишь все, а мало лишь кто, так что чуть подробнее.

Если поисковая система знает о наличии на сайте какого-либо документа, она периодически его переиндексирует. Вдруг там понаписано чего нового, либо что-то старое зачёркнуто и переиначено на новый лад.

Но так как сайтов развелось немерено, тестирование на наличие изменений может протекать в облегчённом режиме. Когда поисковая система не смотрит сам документ, а проверяет сперва только его заголовки. По вебмастерски - хедеры.

Например, если в заголовке страницы через Last-Modified объявлено, что неделю назад в её контенте случились великие изменения, а поисковик видел этот документ в последний раз год назад, то, наверное, надо поставить данный документ в очередь на переиндексирование.

Всё это вполне логично, и все основные движки сайтов формировали заголовки Last-Modified для своих документов ещё с незапамятных времён.

Но постепенно подход сменился, и поисковая система перешла к новой итерации, к несколько иной логике. Или даже к другой парадигме - тут пока не понятно.

Теперь она не смотрит время последнего изменения файла, а спрашивает у сайта более конкретно: изменился ли этот файл с такой-то даты. Ну а уж сайт должен вернуть в заголовке Last-Modified дату последнего изменения документа, а также сам документ. А если документ с запрошенной даты не менялся, то контент документа возвращать вообще не нужно, а следует ответить лишь заголовком «304 Not Modified».

Для тех, кто в танке - такой заголовок без всякого контента в придачу не может быть воспринят браузером и просмотрен серфером, поэтому сайты обычно рисовать такое и вовсе не умеют. Теперь же этому надо учиться.

То есть Ваш ресурс должен организовать у себя ресепшен, учредить новую должность, нанять симпатичных девочек двойного назначения, работающих в три смены, и обязательно завести амбарную книгу с датами рождения всех документов, какие только есть на сайте. Ну и если какая буковка в документе изменилась, дата правки в амбарную книгу также должна вноситься. Чтоб по запросу Великого Гугла быть готовым мгновенно выставить 304 хедер.

Кстати, не думайте, что это чисто гугловская фишка.

Яндекс в своих рулёзах про индексирование шестым пунктом тоже постулирует важность заголовка Last-Modified, и по имеющейся там ссылке расскажет, чего будет, если его хотелки не удовлетворить.

До амбарной книги у Яндекса пока дело не дошло, но скоро всё будет точно так же, как и у Гугла. С лагом в несколько лет Яндекс внедряет всё, что Гугл навыдумывал.

Если вдумчивый читатель спросит у местного автора, зачем поисковику нужна эта морока с запросом заголовка If-Modified-Since и последующим ответом сайта, причём двояким, то местный автор склонен полагать, что поисковику стало сложно выдирать контент с просматриваемого документа, попутно выясняя, что тут является собственно контентом, а что относится к шаблону и рекламе. Корректный парсинг современного сайта - вещь не простая, и весьма ресурсоёмкая. Так что пусть сам сайт и делает всю эту работу - ему амбарную книгу с девочкой на ресепшене завести проще.

Поэтому тот, кто не хочет заводить на сайте ресепшен с девочками и амбарной книгой, со временем понижается в выдаче, так как индексирование его сайта будет соизмеряться с трастом ресурса. Траст невысок - индексируем раз в год. Со всеми вытекающими последствиями.

Тот, кто по жизни самый умный, и тут же смекнул, что переиндексироваться быстро и без очереди можно, подделав заголовки (возвращая 304 Not Modified на любой запрос с заголовком If-Modified-Since, даже если в реальности документ не менялся), наверное, будет с особым цинизмом выкрашен и выброшен, ибо не может быть, чтобы поисковик этого не предусмотрел.

Ну а пока местный автор видит, что документы движка, сделанного по уму, получают с Гугла больше трафика, чем такие же документы и в том же домене, но на движке без амбарной книги. Хотя документы примерно равноценны, и сидят в индексе искалки.

Скорее всего, то, что Вы прочитали в Справочном центре Гугла по соответствующей ссылке выше, есть святая правда, а так же один из параметров ранжирования. Это логично - искалка взаимно уважает тех, кто уважает её.

Как провериться?

Предельно просто - есть соответствующий сайт.

Лупите в форму проверки URL морды своего блога (или любого другого его документа, например, поста), и читайте приговор.

Как модернизировать свой софт?

Местный автор доработал все свои движки.
Обновляйтесь.

Другие статьи категории «SEO - три весёлых буквы»

Пингвин Гугла в реинкарнации Минусинска Яндекса.

Пингвин Гугла в реинкарнации Минусинска Яндекса. Как всякий вебмастер уже должен твёрдо знать, простые методы построения поисковой выдачи давно не актуальны. Ибо с ними весь ТОП быстро забивается чем попало. Потому как процедура манипулирования поисковой выдачей не сильно сложна, и доступна даже школьникам. Что плохо, в первую очередь для самой же поисковой выдачи.

Неестественные ссылки и грядущая реакция Яндекса на них.

Неестественные ссылки и грядущая реакция Яндекса на них. По всему видать, на середину мая выпадет много разных событий, бьющих обитателей местных палестин обухом по темечку. Видимо, опять начнётся суета с валютой, появятся поводы для нескончаемых гуманитарных конвоев на сопредельную, и прочая, и прочая. Благости не предвидится. Со стороны SEO тоже подкрадывается один нежданчик, про который стоит быть в курсе всем сайтовладельцам.

Файл роботса и поисковый трафик.

Файл роботса и поисковый трафик. Каждый вебмастер страждет познать Тайную Книгу Ктулху поисковых систем. Чтоб знать наперёд, чего такого страшного и радостного произойдёт, если сделать так-то и так-то. Ибо все боятся страшного, и жаждут радостного. Нет никакого способа узнать это, кроме как сотворив эксперимент. Ну так за дело.
03 сентября 2015, 03:39

№ 1Настоятельно рекомендуется...

Вот картинки заглавные - их обязательно "внедрять" в пост через форму создания поста? Или достаточно переобозвать в "номер_поста.jpg" и переместить (из тематической папки) в папку р? А в папке s она когда появится? Автоматом через час? Или, при ручном переименовании и принудительном размещении в папке р ничего в папке s не появится?

То же самое - если при создании поста заглавную картинку разместить в папке р (после создания поста переименовать её в номер вновь созданного поста), её "мини" версия появится в папке s? Через какое время?

А если заглавная картинка в папке р итак будет 250 на 150, она будет "перерабатываться" скриптом?

Может, всё таки можно куда-нибудь вставить if, чтобы папка s формировалась из прежних адресов картинок? Ведь до картиночного апгрейда миникартинки как-то же брались из поста! Для тех же популярных статей блога и для "наиболее релевантных постов".

Похоже, так и придётся перелопачивать все 250 постов. Иначе сильно отстаём :-(
Эх-х...
В соответствии с мануалом, заглавные картинки поста должны лежать в /i/p/, и быть прилинкованы по абсолютному урлу. Как они там появилось, никого не волнует. Можете грузить админкой, можете руками.

Не заглавные картинки поста могут лежать где угодно.

Если заглавная картинка велика, больше лимитов, заданных в админке, то при очередном кэшировании морды или страницы с анонсами для неё изготовляется копия в папку /i/s/, и с этого момента используется она. Если заглавная картинка не велика, никакой копии с неё не снимается, ибо незачем.

В случае, когда вебмастер держит картинки в ином месте, а не /i/p/ (что странно, ибо картинки всегда помещались только в эту папку), и ему неохота что-то менять, в руки ему даётся регулярка, каковую можно лицезреть в настройках админки, а также глумиться над ней, как бог на душу положит.
Дмитрий
04 сентября 2015, 03:26

№ 3У google.com Last-Modified не найден

Интересно, что у google.com Last-Modified не найден! У яндекса с этим получше - у него только 304 Not Modified не найден!
Гуглу не надо индексировать самого себя.
Да и никто другой Гугла тоже индексировать не собирается, верно?
Так что тут никакой интриги.
И двойные стандарты :)
Андрей
11 сентября 2015, 13:09

№ 5Воздать истокам

В ушедшие времена, когда в тучную почву яндекса можно было воткнуть почти любую палку в виде сайта, которая тут же зеленела листочками денех, многие пользовали уже забываемую тут простую и надежную как АК-47 nanocms на файлах. Несомненно, и сам Мастер состриг с помощью нанки не один пучок зелени. Конечно, зверушка свое отработала. Но.
Что, если важность заголовка Last-Modified коснется и nanocms? Ведь она существует, как и "привыкание" к ней). Чуток улучшить заслуженный скрипт -чем не воздаяние к былым заслугам?
Ничего сложного в этом нет, и каждый может такой функционал добавить. Тем паче, что на "проверочном" сайте из поста даже PHP код опубликован.

Но ежели возникает сомнение, чего куда вкорячить, то, во избежание недоразумений, на оффсайте Наны этот код уже вкорячен в дистрибутив. Там, строго говоря, два дистрибутива, "Нана Крошечная" и "Нана Базовая" - ввиду имеется вторая из них.
Алексей Воробьёв
14 сентября 2015, 08:32

№ 6Введен некорректный URL!

Эммм... caponepride.club - почему бы не давать скрипту обрабатывать все, что ему на вход дают? Сейчас экзотических доменных зон масса ведь?
Это вопрос к хозяину проверочного сайта из текста статьи, а не к автору самой статьи. Действительно, доменных зон сейчас великое множество.
Dmitry Pall
15 сентября 2015, 01:16

№ 7Проапгрейдился

Сегодня проапгрейдился. На морде выдает и "Last-Modified найден!" и "304 Not Modified найден!". А вот на всех остальных страницах "Last-Modified не найден!". Что это может быть?
Как выяснилось, сайт стоял под плагином ЧПУ. Любые внешние обёртки сайта могут хедеры сквозь себя не пропускать.
Бегущий по углям
15 сентября 2015, 04:29

№ 8Abductor и If-Modified-Since

If-Modified-Since в Abductor реализовано будет?
Да, заберите в abductor.ru
Слава
13 октября 2015, 17:56

№ 9Многостраничный пост

Больше интересуют поведенческие. Поэтому предлагаю сабж.

В длинных постах автор ставит метки, по которым скрипт из post_xxx,
делает post_xxx_1, post_xxx_2 и т.д. в зависимости от количества воткнутых в текст меток.

Плюс: в конце ставится панель навигации, тот самый "Прыг:", дополненный кнопками "Вернуться" и "Читать далее".

Естественно
а) комментарии сквозные, т.е. присутствуют на всех кусках поста.
б) в оглавлении видим только первый url
в) внутренний поиск использует весь текст поста, а не только часть из первого куска.
Местный автор решительно не одобряет тех недалёких людей, которые, даже не думая головой, в угоду мифам о способах оценки сайтов поисковыми системами впадают в форменный маразм, и целенаправленно и намеренно осложняют жизнь вполне себе реальным людям, поганя им юзабилити.

Пагинаторы - зло, причём даже с точки зрения удобства пользования поисковиками. Для поисковика все сорок кусочков поста - это разные тексты. Которые будут проиндексированы независимо друг от друга, и всяко иначе, чем исходный текст. А в случае Яндекса полной индексации порезанного на куски поста ещё и будете ждать пару месяцев.

Плюс пенальти огребётесь за одинаковые тайтлы всех этих сорока кусочков, а особо за искусственное повышение числа страниц с явно нехорошей целью манипулирования параметрами ранжирования (нашли, кого обманывать).

Так что по большому счёту, с любой точки зрения за пагинаторы надо руки отрывать. До тех пор, пока у вебмастеров в голове мозги не появятся, пусть ходят безрукие. С перспективой на реабилитацию когда-нибудь посмертно.

А на поведенческие тьфу. Все поисковики кричат, что надо делать сайты удобными для пользователя. В первую очередь. Вот и делайте - всё, что этому препятствует прямо, или мешает косвенно - серпом под корень.
про плагинатор - это не ко мне
про 40 кусков - это тоже ваше

То, что вы хотите - именно пагинатор.

про одинаковые тайтлы - вы плохое знаете возможности ластоблога, подтягивание h1 никто не отменял, пока ... или вы уже снесли?

ну как плодились страницы для хитрой конторы - я помню, а вы?
(откорректируйте, скорее главную с прыгом по десяткам и сотням, а то кто-то придёт и вам руки оторвет, лол)

про снос простого поиска под яйца ради хз чего - тоже

если автор забыл в чём фишка ластоблога, то - удалите генератор дорвейчиков, а то ай-яй как плохо.

Ещё раз, если не понятно: бить цельный значимый текст на кусочки ради каких-то там поведенческих - глупо.

То, что по уставу должно быть разделено на порции (предлагаете на морде 1000 анонсов - серьёзно что ли?) вполне естественно фасуется на эти самые порции.

Неужели не видна разница между этими сущностями?


Я не предлагал морду в 1000 анонсов.

Месье это выше написал как пример некошерности.
Что зачем же морду бить на сто страниц?
Пусть морда будет китайская.
Чтоб весила 40 мегов - юзеру же просто счастье.
Или вообще что имелось ввиду?


Вот урл ...search_history.html
Смотрите как навигация у нас в скрипте устроена. Если в блоге 1000 постов, то и на главной такое вылезет. Хз как это называется.

И ЧТО?
Месье это в первый раз в жизни увидел?
Любой форум/блог навигационно устроен именно так.


Про то глупо или мудро разбивать пост на части, это каждый решает сам.

Да никто ничего не решает.
Как разработчик сделает, так и будет.
В данном случае рассечение поста на кусочки - полная глупость.
Вы спросили, вам ответили, с указанием, почему именно.
Алексей
Все заметки категории «SEO - три весёлых буквы»