- Близость терминов запроса
- Вторая веб-страница имеет минимальную ширину наименьшего окна и поэтому лучше всего соответствует запросу
- Маргинальная релевантность
- Полезность для пользователя
- Ссылки
- Вывод
Введение в информационный поиск — это учебник, в котором описываются проблемы информационного поиска (включая web) и их решение.
Мне, как seo специалисту, было интересно узнать основы алгоритмов и моделей информационного поиска для более полного представления поиска в web и, если повезёт — найти новые теории, касающиеся факторов ранжирования.
В этом обзоре я перечислю то, что мне удалось найти в книге, влияющее на ранжирование. Только тезисы и никаких формул. Стоит отметить, что это лишь основы и поисковые системы вероятнее всего используют модификации данных алгоритмов. Я не стал упоминать о моделях информационного поиска, возможно затрону эту тему в отдельной статье.
Обозначения встречаемых терминов:
- Ранжирование — сортировка сайтов в поисковых системах, где самые первые являются наилучшими.
- Факторы ранжирования — характеристики алгоритма поисковой системы, которые оценивают страницу.
- Релевантная страница — страница, которая наиболее точно отвечает на запрос, способная удовлетворить потребность пользователя.
- Термин — слово на веб-странице.
- Документ — веб-страница.
- Коллекция — Множество, группа веб-страниц.
Частота термина и обратная документная частота
Частота термина и обратная документная частота — это две статистические меры, используемые для определения веса каждого слова в документе. Чем вес больше, тем страница считается релевантнее, располагается выше в позициях по запросу.
Частота термина (TF) — каждому термину присваивается вес, зависящий от количества употребления данного слова в документе. Веб-страница, где слово запроса встречается чаще, является более релевантной.
Пример: В группе документов содержится две веб-страницы по десять слов:
Термин | Сколько раз встречается в первом документе | Сколько раз встречается во втором документе | Вес слова по TF в первом документе | Вес слова по TF во втором документе |
Модель | 2 | 3 | 0,2 | 0,3 |
Автомобиль | 5 | 4 | 0,5 | 0,4 |
Новый | 3 | 3 | 0,3 | 0,3 |
Первая веб-страница считается лучше второй по термину “Автомобиль”, а вторая страница лучше первой по термину “Модель”.
Обратная документная частота (IDF) — вес слова документа обратно пропорционален частоте употребления этого слова в коллекции документов. Очевидно, если слово встречается практически в каждой веб-странице, то его вес будет минимальным. Также существует список стоп-слов, которые вообще не влияют на ранжирование, например предлоги.
Пример: В группе 10 документов
Термин | Количество документов, в которых встречается | Вес по IDF |
Запрос | 2 | 0.7 |
Пользователь | 8 | 0.1 |
Купить | 6 | 0.22 |
Термин “Запрос” является в данном случае более важным, в отличии от остальных.
Какие выводы можно сделать?
- Для того, чтобы продвинуть страницу под запрос (например, продвижение сайтов), необходимо использовать термины запроса. И чем больше слов запроса будет на странице, тем лучше. Конечно, на сегодняшний день, нельзя просто взять и употребить тысячу одинаковых слов для лучшего ранжирования. За подобные манипуляции веб-страница попадает под фильтр. Поэтому важно найти то самое количество слов на странице, которое будет задавать максимальный вес термину и при этом не загонит страницу в переспам.
- Такие слова как “впрочем”, “значит”, “однако” имеют минимальный вес (т.к. они встречаются на многих страницах, из-за чего не влияют на ранжирование).
Близость терминов запроса
Все слова запроса на веб-странице должны быть расположены близко друг к другу, т.к. это повышает шансы на то, что потребности пользователя будут удовлетворены. Основывается на двух правилах:
- чем меньше ширина, тем лучше документ соответствует запросу;
- если в документе содержатся не все термины запроса, то ширина равна очень большому числу.
Пример: В группе три документа
N документа | Предложение, из которого состоит документ | Запрос | Ширина наименьшего окна |
1 | Как продвинуть свой сайт в топ 10 | Продвинуть сайт | 3 |
2 | Как продвинуть сайт в топ | Продвинуть сайт | 2 |
3 | Продвинуть страницу в топ-10 | Продвинуть сайт | — |
Вторая веб-страница имеет минимальную ширину наименьшего окна и поэтому лучше всего соответствует запросу.
Какие выводы можно сделать?
- Если слова запроса в точном виде присутствуют на сайте (т.е. страница имеет минимальную ширину наименьшего окна для запроса) — отлично;
- Если присутствуют не все слова запроса — плохо.
Маргинальная релевантность
Желательно, чтобы документ был полезным даже после просмотра других документов. Для этого он должен быть уникальным. К примеру, в web присутствуют страницы, копирующие другие и не приносящие пользы для пользователя.
Полезность для пользователя
Страница должна удовлетворять потребности пользователя. Проблема в том, что у разных групп пользователей разные потребности. Отсюда можно выделить целое множество факторов ранжирования.
Например:
- сколько времени прошло до покупки товара (лучше — меньше);
- время, проведённое на странице (лучше — больше);
- доля покупателей по отношению к общему количеству посетителей (лучше — больше).
Ссылки
Page Rank — метод вычисления весов, который основывается на том, что чем больше ссылок ведет на страницу и чем они качественнее, тем страница релевантнее.
Основные принципы:
- Если одна страница содержит ссылку на другую, то обычно это рассматривается как признание авторитетности первой страницей по отношению ко второй, а значит.
- Не все ссылки являются положительным отзывом. Например, существуют сайты, имеющие на каждой странице ссылку на веб-студию, которая разработала дизайн этого сайта. Очевидно, что это не является признанием авторитетности и подобные ссылки будут учитываться с минимальным весом.
Пример (https://usedcars34.ru/):
- Текст ссылки, указывающий на страницу, должен иметь хорошее описание этой страницы.
- На веб-страницах желательно использовать ссылки на авторитетные ресурсы.
Вывод
К сожалению, в книге описано слишком мало возможных источников сигнала ранжирования для поисковых машин. Каждый из них мне был известен прежде и информацию о них до сих пор использую в работе. Я считаю, что данный учебник больше полезен для разработчиков и исследователей поисковых систем, но его также будет интересно прочесть тем, кто интересуется поиском в интернете.