Яндекс представил поисковой алгоритм на основе нейронных сетей для запросов с длинными хвостами

A A A

Что случилось?

2 ноября 2016 года на блоге Яндекс появилась информация о запуске нового поискового алгоритма — «Палех».
Благодаря ему поисковик лучше понимает длинные запросы, работая с их смыслом.

Из 280 миллионов ежедневных запросов в Яндексе около ста миллионов — редкие или же вообще уникальные, поэтому один из простых способов визуализации всех запросов — птица, клюв которой — частые запросы, туловище — запросы средней частотности, а низкочастотные и редкие представляют собой длинный хвост.
Получается жар-птица, которая часто появляется на палехской миниатюре, виде народного промысла, который развился в поселке Палех, в России, откуда алгоритм и получил свое название.

Запросы в «хвосте» можно разделить на несколько подгрупп.
Например запросы от детей, которые пока не освоили язык общения с поисковиком («яндекс скажи пожалуйста дед мороз есть или нет») или же запросы людей, которые хотят найти фильм или книгу по общему описанию («фильм, где карлик с лохматыми ногами шел к горе»).

Алгоритм "Палех" призван справляться с запросами с длинным хвостом

Работать с таким запросами Яндексу в рамках существующих алгоритмов крайне трудно, поэтому для решения этой задачи были задействованы нейронные сети.

Как работает алгоритм «Палех»?

Искусственные нейронные сети — метод машинного обучения, которые дает хороший результат в анализе естественной информации: изображений, звуков, букв.

Метод обучения нейронной сети базируется на анализе объектов с наличием необходимого элемента для распознавания и объектов без необходимых элементов.
Например показав огромное количество различных изображений с человеческим силуэтом (положительные примеры), а после изображения без него (отрицательные примеры) можно обучить нейронную сеть находить человеческие силуэты и на других, анализируемых в будущем, картинках.

Поскольку работать с числами поисковой системе проще, чем с буквами, разработчики алгоритма использовали систему сравнения страниц и запросов с помощью чисел.
Анализируя число, в которое был преобразован запрос, алгоритм выдает самую близкую по числовому значению веб-страницу, тем самым выдавая пользователю самый релевантный результат.
Такой способ обработки Яндекс назвал «семантическим вектором», именно он помогает в обработке запросов из «длинного хвоста».
С помощью этого метода можно определить уровень соответствия между запросом и страницей, даже если у них нет ни одного общего слова.

Подробнее работу вектора с технической стороны разработчики описали в статье на Хабрахабре.

Что изменилось?

Потенциал метода, по словам разработчиков, огромен. Ведь его можно применять в поиске изображений, также можно представить в виде «семантического вектора» профиль пользователя в сети — интересы, поисковые запросы, посещенные сайты.
Конечной целью можно считать момент, когда на основе нейронных сетей будет получена модель, которая поймет соответствие запросов и документов не хуже человека.

Если вы нашли ошибку, выделите участок текста и нажмите Ctrl + Enter или , чтобы сообщить нам.

  • Angelos

    Очень красивое сравнение с птицей. Интересно, насколько эффективно будет этот алгоритм работать.