Книга глазами SEO-специалиста: «Введение в информационный поиск»

Близость терминов запроса
Вторая веб-страница имеет минимальную ширину наименьшего окна и поэтому лучше всего соответствует запросу
Маргинальная релевантность
Полезность для пользователя
Ссылки
Вывод

Введение в информационный поиск — это учебник, в котором описываются проблемы информационного поиска (включая web) и их решение.

Мне, как seo специалисту, было интересно узнать основы алгоритмов и моделей информационного поиска для более полного представления поиска в web и, если повезёт — найти новые теории, касающиеся факторов ранжирования.

В этом обзоре я перечислю то, что мне удалось найти в книге, влияющее на ранжирование. Только тезисы и никаких формул. Стоит отметить, что это лишь основы и поисковые системы вероятнее всего используют модификации данных алгоритмов. Я не стал упоминать о моделях информационного поиска, возможно затрону эту тему в отдельной статье.

Обозначения встречаемых терминов:

Ранжирование — сортировка сайтов в поисковых системах, где самые первые являются наилучшими.
Факторы ранжирования — характеристики алгоритма поисковой системы, которые оценивают страницу.
Релевантная страница — страница, которая наиболее точно отвечает на запрос, способная удовлетворить потребность пользователя.
Термин — слово на веб-странице.
Документ — веб-страница.
Коллекция — Множество, группа веб-страниц.

Частота термина и обратная документная частота

Частота термина и обратная документная частота — это две статистические меры, используемые для определения веса каждого слова в документе. Чем вес больше, тем страница считается релевантнее, располагается выше в позициях по запросу.

Частота термина (TF) — каждому термину присваивается вес, зависящий от количества употребления данного слова в документе. Веб-страница, где слово запроса встречается чаще, является более релевантной.

Пример: В группе документов содержится две веб-страницы по десять слов:

Термин	Сколько раз встречается в первом документе	Сколько раз встречается во втором документе	Вес слова по TF в первом документе	Вес слова по TF во втором документе
Модель	2	3	0,2	0,3
Автомобиль	5	4	0,5	0,4
Новый	3	3	0,3	0,3

Первая веб-страница считается лучше второй по термину “Автомобиль”, а вторая страница лучше первой по термину “Модель”.

Обратная документная частота (IDF) — вес слова документа обратно пропорционален частоте употребления этого слова в коллекции документов. Очевидно, если слово встречается практически в каждой веб-странице, то его вес будет минимальным. Также существует список стоп-слов, которые вообще не влияют на ранжирование, например предлоги.

Пример: В группе 10 документов

Термин	Количество документов, в которых встречается	Вес по IDF
Запрос	2	0.7
Пользователь	8	0.1
Купить	6	0.22

Термин “Запрос” является в данном случае более важным, в отличии от остальных.

Какие выводы можно сделать?

Для того, чтобы продвинуть страницу под запрос (например, продвижение сайтов), необходимо использовать термины запроса. И чем больше слов запроса будет на странице, тем лучше. Конечно, на сегодняшний день, нельзя просто взять и употребить тысячу одинаковых слов для лучшего ранжирования. За подобные манипуляции веб-страница попадает под фильтр. Поэтому важно найти то самое количество слов на странице, которое будет задавать максимальный вес термину и при этом не загонит страницу в переспам.
Такие слова как “впрочем”, “значит”, “однако” имеют минимальный вес (т.к. они встречаются на многих страницах, из-за чего не влияют на ранжирование).

Близость терминов запроса

Все слова запроса на веб-странице должны быть расположены близко друг к другу, т.к. это повышает шансы на то, что потребности пользователя будут удовлетворены. Основывается на двух правилах:

чем меньше ширина, тем лучше документ соответствует запросу;
если в документе содержатся не все термины запроса, то ширина равна очень большому числу.

Пример: В группе три документа

N документа	Предложение, из которого состоит документ	Запрос	Ширина наименьшего окна
1	Как продвинуть свой сайт в топ 10	Продвинуть сайт	3
2	Как продвинуть сайт в топ	Продвинуть сайт	2
3	Продвинуть страницу в топ-10	Продвинуть сайт	—

Вторая веб-страница имеет минимальную ширину наименьшего окна и поэтому лучше всего соответствует запросу.

Какие выводы можно сделать?

Если слова запроса в точном виде присутствуют на сайте (т.е. страница имеет минимальную ширину наименьшего окна для запроса) — отлично;
Если присутствуют не все слова запроса — плохо.

Маргинальная релевантность

Желательно, чтобы документ был полезным даже после просмотра других документов. Для этого он должен быть уникальным. К примеру, в web присутствуют страницы, копирующие другие и не приносящие пользы для пользователя.

Полезность для пользователя

Страница должна удовлетворять потребности пользователя. Проблема в том, что у разных групп пользователей разные потребности. Отсюда можно выделить целое множество факторов ранжирования.

Например:

сколько времени прошло до покупки товара (лучше — меньше);
время, проведённое на странице (лучше — больше);
доля покупателей по отношению к общему количеству посетителей (лучше — больше).

Ссылки

Page Rank — метод вычисления весов, который основывается на том, что чем больше ссылок ведет на страницу и чем они качественнее, тем страница релевантнее.

Основные принципы:

Если одна страница содержит ссылку на другую, то обычно это рассматривается как признание авторитетности первой страницей по отношению ко второй, а значит.
Не все ссылки являются положительным отзывом. Например, существуют сайты, имеющие на каждой странице ссылку на веб-студию, которая разработала дизайн этого сайта. Очевидно, что это не является признанием авторитетности и подобные ссылки будут учитываться с минимальным весом.

Пример (https://usedcars34.ru/):

Текст ссылки, указывающий на страницу, должен иметь хорошее описание этой страницы.
На веб-страницах желательно использовать ссылки на авторитетные ресурсы.

Вывод

К сожалению, в книге описано слишком мало возможных источников сигнала ранжирования для поисковых машин. Каждый из них мне был известен прежде и информацию о них до сих пор использую в работе. Я считаю, что данный учебник больше полезен для разработчиков и исследователей поисковых систем, но его также будет интересно прочесть тем, кто интересуется поиском в интернете.