SEO – оптимизация
и продвижение сайтов
Контактный телефон:
(495) 509-66-10
Напишите нам:
info@gold-marketing.ru
Яндекс

Встречаем новый алгоритм ранжирования "Палех"

19.12.2016 13:10    admin
Рубрика: Яндекс
Встречаем новый алгоритм ранжирования "Палех"

2 ноября 2016 года Яндекс объявил о запуске нового поискового алгоритма «Палех», работа которого построена на анализе информации с помощью так называемых нейросетей – упрощенных математических моделей участков коры головного мозга человека, отвечающих за протекающие в нем процессы.

Такие математические модели принято называть искусственным интеллектом. В отличие от традиционных алгоритмов они способны к самообучению, в процессе которого нейронные сети учатся устанавливать сложные связи и выполнять обобщения.

Благодаря своим «мыслительным способностям» «Палех» позволяет поисковой системе находить релевантную по содержанию страницу тогда, когда обычный алгоритм ее попросту «не видит» из-за отсутствия в тайтле (заголовке) слов из запроса пользователя. При этом нейросеть способна распознать страницу с искомой информацией даже в том случае, если этот запрос настолько редкий, что проанализировать релевантность страницы по другим факторам (поведенческим, ссылкам) не представляется возможным.

Почему «Палех», и в чем главное отличие интеллектуального поиска Яндекса от обычных алгоритмов?

Графическое изображение распределения высокочастотных, среднечастотных и низкочастотных запросов напоминает сказочную жар-птицу – завсегдатая знаменитой палехской миниатюры. Высокочастотных запросов (то есть тех, которые чаще всего набирают пользователи в поисковой строке) совсем немного, они составляют «клюв» графика. Среднечастотных запросов больше, они встречаются реже, но достаточно часто для достоверного статистического анализа. Такие запросы на графике формируют «туловище» птицы.

 

Применявшиеся ранее поисковые алгоритмы Яндекса хорошо справлялись с поиском страниц, релевантных запросам из «клюва» и «туловища».

Что же касается низкочастотных запросов, то в абсолютном отношении их гораздо больше, чем высокочастотных и среднечастотных. На графике они формируют длинный веерообразный «хвост».

Низкочастотные запросы дублируются в строке поиска крайне редко, а иногда и вообще не повторяются, что полностью исключает возможность получения какой-либо достоверной статистики. Вероятность же того, что в заголовке страницы с релевантным содержанием и запросе из «хвоста» окажутся одинаковые слова очень низка. Поэтому в результаты поиска по низкочастотным запросам нужная пользователю информация раньше попадала очень редко. Новый алгоритм, основанный на построении «семантического вектора» в 300-мерной системе координат, существенно улучшает результаты выдачи по запросам именно из этой группы. Таким образом, можно сказать, что с помощью нейросетей разработчикам Яндекс.Поиска удалось «поймать палехскую жар-птицу за хвост».

Сравнение работы обычного текстового фактора и нейронной модели


В доказательство вышесказанного в своем блоге на Хабрахабре Яндекс приводит следующее сравнение распознанной релевантности заголовков страниц (нормирование в диапазоне от 0 до 1) запросу «келлская книга» текстовым фактором BM25 и нейросетью.

Заголовок страницы

BM25

Нейросеть

келлская книга википедия

0.91

0.92

ученые исследуют келлскую книгу вокруг света

0.88

0.85

book of kells wikipedia

0

0.81

ирландские иллюстрированные евангелия vii viii вв

0

0.58

икеа гипермаркеты товаров для дома и офиса ikea

0

0.09

Как видно из таблицы, только последний из предложенных для анализа тайтлов не релевантен запросу. При этом и текстовый фактор, и нейросеть одинаково хорошо распознали в качестве релевантных заголовки, содержащие прямое вхождение запроса и его словоформу. Однако BM25 вместе с нерелевантным тайтлом оставил «за бортом» распознанные нейросетью в качестве релевантных страницы с заголовком на английском языке и с близким по смыслу словосочетанием.

Нужно оговориться, что «думающую» нейронную сеть «одолевали сомнения» не только в отношении тайтла «ирландские иллюстрированные евангелия vii viii вв», но и в отношении полностью нерелевантного заголовка «икеа гипермаркеты товаров для дома и офиса ikea». Однако в первом случае значение получилось достаточно большим для того, чтобы страница оказалась на высоких позициях в выдаче, а во втором, наоборот, слишком незначительным для того, чтобы ухудшить результаты поиска.

 При изменении запроса на «евангелие из келлса», BM25 счел полностью нерелевантными 3 заголовка страниц, содержание которых отвечает запросу,  тогда как нейросеть и в этом случае успешно справилась с поставленной  задачей.

Заголовок страницы

BM25

Нейросеть

келлская книга википедия

0

0.85

ученые исследуют келлскую книгу вокруг света

0

0.78

book of kells wikipedia

0

0.71

ирландские иллюстрированные евангелия vii viii вв

0.33

0.84

икеа гипермаркеты товаров для дома и офиса ikea

0

0.10

С учетом вышесказанного, разработчики из Яндекса убеждены, что отныне все страницы, заголовки которых отвечают по смыслу запросам пользователей, должны попадать на хорошие позиции в результатах выдачи.

Что думают специалисты

В рядах вебмастеров и оптимизаторов появление «Палеха» вызвало неоднозначную реакцию. Кто-то из специалистов считает, что продукт очень сырой, и поиск Google, который уже давно «пользуется услугами» нейросетей, все равно работает лучше. Кто-то предлагает оставить возможность выбора вариантов поиска – с помощью обычного алгоритма «с железной логикой» и с помощью «сомневающегося» Палеха. Кто-то уверен, что полностью релевантную, тематическую и/или деперсонализированную информацию нужно искать с помощью Nigma или DuckDuckGo, либо в Яндекс.Каталоге, содержащем коллекцию вручную отобранных сайтов с полезной информацией.

Кто умнее: Google или Яндекс?

Поддавшись общему азарту, мы решили самостоятельно проинспектировать интеллект двух колоссов поиска – Яндекс и Google. Для начала было решено найти в сети песенку водяного из мультфильма «Летучий корабль».

В ответ на запрос «песенка никто со мной не дружит потому что у меня внутри вода»  ссылка на «песенку водяного» на Youtube появилась в выдаче Яндекса на первой странице (правда, в конце списка):

 

Еще одна ссылка на текст песни – на третьей странице:

  

На первой странице выдачи Google никаких конкретных ссылок на «песенку водяного» нет, на второй странице поисковик выдает ссылку на сайт с текстами детских песенок, в аннотации которого есть фраза «внутри меня водица», однако обнаружить эту фразу удается далеко не сразу:


Таким образом, при поиске «песенки водяного» нейросети Яндекса без труда взяли верх над поисковым алгоритмом Google.

В то же время на запрос «фильм про официантку и писателя», который был задан с целью найти оскароносный бестселлер с Джеком Николсоном и Хелен Хант, Google безошибочно выдал искомое в первых же трех результатах поиска, и только потом предложил альтернативные варианты, кстати, тоже вполне релевантные:


 

Что касается Яндекса, то практически вся первая страница выдачи по аналогичному запросу была отдана ссылкам на комедийную драму «Официантка», хотя у главной героини фильма был роман отнюдь не с писателем, а с гинекологом. 

После этого мы решили узнать, насколько хорошо конкурирующие поисковые системы справляются с запросами пользователей, стремящихся купить что-то нетривиальное и точно не знающих, как это называется.  На запрос «где купить велик с лыжами» (регион – Минск), целью которого был поиск предложений по продаже Ski Bike в белорусской столице, оба движка уверенно отправили нас в магазины со спортинвентарем.

При этом слово «велик», очевидно, сориентировало Яндекс.Поиск в сторону детской аудитории, поэтому на первые места в выдаче попали предложения спортинвентаря для детей.

Google же сделал упор не на детях, а на экстремальных видах спорта. То есть в нашем конкретном случае лучше понял, что именно мы от него хотим.  Этот подтверждается тем фактом, что вслед за магазинами со спортинвентарем в результатах выдачи Google оказалось много полезной информации о Ski Bike:

 

 

 

Результаты внедрения нейросетей в поисковые системы в ближайшем и отдаленном будущем

Можно сколь угодно долго рассуждать над тем, какая поисковая система лучше. Тем не менее, ежемесячно более миллиарда пользователей ищут товары и услуги в Яндексе. И хотя «Палех» пока еще далек от совершенства, его внедрение требует оперативной реакции веб-мастеров и интернет-маркетологов, задача которых – адаптировать сайты к новым условиям.

Работа предстоит большая и сложная. Вероятнее всего, в то время как нейронные сети будут учиться лучше понимать пользователей и совершенствоваться, вебмастерам придется неоднократно вносить изменения в заголовки продвигаемых страниц.

Нужно также учитывать, что разработчики не собираются останавливаться на месте. И планируют создание нейросетей, способных строить семантические векторы, сопоставляя смысл запроса не только с тайтлом, но и с текстовым содержимым страницы. А это значит, что не за горами новая эра интернета, который, наконец-таки, окончательно очистится от бессмысленных и бесполезных текстов с обилием «кривых» ключей, недостоверной информации, ненужных ссылок и т.д.  


Tags: 
Просмотров: 1311  Комментариев: 0
(Нет голосов)
ВКонтакт Facebook Google Plus Одноклассники Twitter Яндекс Livejournal Liveinternet Mail.Ru

Назад в раздел