Начните работать с нами
Оставьте заявку

Книга глазами SEO-специалиста: «Введение в информационный поиск»

Обзор книги «Введение в информационный поиск» от SEO-специалиста команды Mello. В статье рассказываем  о полезных инсайтах из книги, которые влияют на ранжирование. Только тезисы и практические выводы.

14 августа 2020

Введение в информационный поиск —  это учебник, в котором описываются проблемы информационного поиска (включая web) и их решение.

Мне, как seo специалисту, было интересно узнать основы алгоритмов и моделей информационного поиска для более полного представления поиска в web и, если повезёт — найти новые теории, касающиеся факторов ранжирования.

В этом обзоре я перечислю то, что мне удалось найти в книге, влияющее на ранжирование. Только тезисы и никаких формул. Стоит отметить, что это лишь основы и поисковые системы вероятнее всего используют модификации данных алгоритмов. Я не стал упоминать о моделях информационного поиска, возможно затрону эту тему в отдельной статье.

Обозначения встречаемых терминов:

  • Ранжирование — сортировка сайтов в поисковых системах, где самые первые являются наилучшими.
  • Факторы ранжирования — характеристики алгоритма поисковой системы, которые оценивают страницу.
  • Релевантная страница — страница, которая наиболее точно отвечает на запрос, способная удовлетворить потребность пользователя.
  • Термин — слово на веб-странице.
  • Документ — веб-страница.
  • Коллекция — Множество, группа веб-страниц.

Частота термина и обратная документная частота

Частота термина и обратная документная частота — это две статистические меры, используемые для определения веса каждого слова в документе. Чем вес больше, тем страница считается релевантнее, располагается выше в позициях по запросу.

Частота термина (TF) — каждому термину присваивается вес, зависящий от количества употребления данного слова в документе. Веб-страница, где слово запроса встречается чаще, является более релевантной.

Пример: В группе документов содержится две веб-страницы по десять слов:

Термин Сколько раз встречается в первом документе Сколько раз встречается во  втором документе Вес слова по TF в первом документе Вес слова по TF во втором документе
Модель 2 3 0,2 0,3
Автомобиль 5 4 0,5 0,4
Новый 3 3 0,3 0,3

Первая веб-страница считается лучше второй по термину “Автомобиль”, а вторая страница лучше первой по термину “Модель”.

Обратная документная частота (IDF) — вес слова документа обратно пропорционален частоте употребления этого слова в коллекции документов. Очевидно, если слово встречается практически в каждой веб-странице, то его вес будет минимальным. Также существует список стоп-слов, которые вообще не влияют на ранжирование, например предлоги.

Пример: В группе 10 документов

Термин Количество документов, в которых встречается Вес по IDF
Запрос 2 0.7
Пользователь 8 0.1
Купить 6 0.22

Термин “Запрос” является в данном случае более важным, в отличии от остальных.

Какие выводы можно сделать?

  1. Для того, чтобы продвинуть страницу под запрос (например, продвижение сайтов), необходимо использовать термины запроса. И чем больше слов запроса будет на странице, тем лучше. Конечно, на сегодняшний день, нельзя просто взять и употребить тысячу одинаковых слов для лучшего ранжирования. За подобные манипуляции веб-страница попадает под фильтр. Поэтому  важно найти то самое количество слов на странице, которое будет задавать максимальный вес термину и при этом не загонит страницу в переспам.
  2. Такие слова как “впрочем”, “значит”, “однако” имеют минимальный вес (т.к. они встречаются на многих страницах, из-за чего не влияют на ранжирование).

Близость терминов запроса

Все слова запроса на веб-странице должны быть расположены близко друг к другу, т.к. это повышает шансы на то, что потребности пользователя будут удовлетворены. Основывается на двух правилах:

  • чем меньше ширина, тем лучше документ соответствует запросу;
  • если в документе содержатся не все термины запроса, то ширина равна очень большому числу.

Пример: В группе три документа

N документа Предложение, из которого состоит документ Запрос Ширина наименьшего окна
1 Как продвинуть свой сайт в топ 10 Продвинуть сайт 3
2 Как продвинуть сайт в топ Продвинуть сайт 2
3 Продвинуть страницу в топ-10 Продвинуть сайт

Вторая веб-страница имеет минимальную ширину наименьшего окна и поэтому лучше всего соответствует запросу.

Какие выводы можно сделать?

  1. Если слова запроса в точном виде присутствуют на сайте (т.е. страница имеет минимальную ширину наименьшего окна для запроса) — отлично;
  2. Если присутствуют не все слова запроса — плохо.

Маргинальная релевантность

Желательно, чтобы документ был полезным даже после просмотра других документов. Для этого он должен быть уникальным. К примеру, в web присутствуют страницы, копирующие другие и не приносящие пользы для пользователя.

Полезность для пользователя

Страница должна удовлетворять потребности пользователя. Проблема в том, что у разных групп пользователей разные потребности. Отсюда можно выделить целое множество факторов ранжирования.

Например:

  • сколько времени прошло до покупки товара (лучше — меньше);
  • время, проведённое на странице (лучше — больше);
  • доля покупателей по отношению к общему количеству посетителей (лучше — больше).

Ссылки

Page Rank — метод вычисления весов, который основывается на том, что чем больше ссылок ведет на страницу и чем они качественнее, тем страница релевантнее.

Основные принципы:

  • Если одна страница содержит ссылку на другую, то обычно это рассматривается как признание авторитетности первой страницей по отношению ко второй, а значит.
  • Не все ссылки являются положительным отзывом. Например, существуют сайты, имеющие на каждой странице ссылку на веб-студию, которая разработала дизайн этого сайта. Очевидно, что это не является признанием авторитетности и подобные ссылки будут учитываться с минимальным весом.

Пример (https://usedcars34.ru/):

  • Текст ссылки, указывающий на страницу, должен иметь хорошее описание этой страницы.
  • На веб-страницах желательно использовать ссылки на авторитетные ресурсы.

Вывод

К сожалению, в книге описано слишком мало возможных источников сигнала ранжирования для поисковых машин. Каждый из них мне был известен прежде и информацию о них до сих пор использую в работе. Я считаю, что данный учебник больше полезен для разработчиков и исследователей поисковых систем, но его также будет интересно прочесть тем, кто интересуется поиском в интернете.