Как RankBrain меняет объектный поиск

Как RankBrain меняет объектный поиск

Обозреватель Кристин Шайкнер (Kristine Schachinger) создала удобное пособие для новичков, рассказывающее, как работает объектный или «сущностный» поиск (Entity Search) и каким образом Google задействует свою систему машинного обучения RankBrain для улучшения его результатов.

Не так давно стало известно, что известная поисковая компания, наряду с прочими алгоритмическими факторами, использует для повышения релевантности поисковой выдачи такой механизм как RankBrain.

В частности, RankBrain работает в ключе распознавания и обработки запросов, используя механизмы анализа сложных и/или неоднозначных запросов, позволяющие связывать их с нужными темами. Это позволяет Гугл обеспечивать лучшие результаты поиска, что особенно важно, если учитывать, что ежедневно система получает несколько сотен миллионов запросов, что является баснословным показателем даже для Google.

Сама компания говорит о RankBrain как об одном из самых важных для алгоритма Google сигналов ранжирования.

«RankBrain является одним из сотни сигналов, которые входят в алгоритм, определяющий, какие результаты и в какой очередности будут представлены в поисковой выдаче», — сказал Грег Коррадо (GregCorrado), старший научный сотрудник компании. «На его активизацию ушло несколько месяцев. И сегодня он по праву может считаться третьим по значимости сигналом, внесшим огромный вклад в совершенствование работы поисковой системы», — добавил исследователь.

Примечание: RankBrain является скорее «процессором запросов», чем «фактором ранжирования». На данный момент пока не ясно, какие именно функции выполняет нововведение в качестве сигнала ранжирования, так сигналы, как правило, тем или иным образом тесно привязаны к контенту.

Справедливости ради стоит отметить, что данный сигнал является далеко не единственным значимым изменением в устройстве поисковой машины за последнее время. В течение нескольких лет Google внесла немало ценных коррективов в принципы работы системы, начиная от обновлений алгоритмов и заканчивая макетом страницы поисковой выдачи. Google преобразовалась в «животное», качественно отличающееся от того, что мы могли видеть до появления Панды и Пингвина.

Причем эти изменения касались не только поиска. Менялась сама структура компании. С появлением головной компании «Alphabet», объединившей множество самых разных проектов Google, сама Гугл не только перестала быть одним простым организмом, но и утратила свою главенствующую позицию.

Тем не менее, RankBrain сильно отличается от предыдущих изменений. Данная инновация является попыткой уточнить результаты запросов в основанном на Графе Знаний объектом поиске. В то время как сам по себе объектный поиск не является чем-то новым, добавившемуся к нему алгоритму машинного обучения всего несколько месяцев.

Так что же представляет собой «entity search»? Как он работает в паре с RankBrain? И куда, в итоге, влечет нас за собой Google?

Чтобы ответить на эти вопросы, нужно сначала вернуться на несколько лет ранее.

Колибри (Hummingbird)

Запуск этого алгоритма повлек за собой кардинальные перемены. Он, если можно так выразиться, стал «капитальным ремонтом» системы обработки органических запросов поисковой системы. Внезапно Google перешла от поиска «строк» (т.е. строк символов в поисковых запросах) к поиску «вещей» (например, объектов).

Фактически новый алгоритм стал результатом плодотворной работы компании по включению семантического поиска в ее поисковую систему. Таким образом, Google весьма смело замахнулась не только на сферу машинного обучения, но и на понимание и обработку естественного языка (NLP). С этого момента пропала необходимость в порядком надоевших ключевых словах — теперь и без этого Гугл сможет понять, что вы имели ввиду, вводя тот или иной запрос.

Целью семантического поиска является улучшение точности поисковых результатов путем понимания поискового намерения и контекстуального значения терминов, механизме их появления в поисковом пространстве данных. Будь то сайт или закрытая система. В итоге ответы Google своим пользователям становятся в разы более релевантными. Системы семантического поиска умеют смотреть на ситуацию с разных сторон, учитывая контекст поиска, локацию, намерения, вариации слов и синонимы, обобщенные и специализированные запросы, концепцию соответствия и запросы на естественном языке. И главные поисковые системы сети, Google и Bing, располагают элементами семантического поиска.

При этом сегодня, по прошествии двух лет, каждый пользователь Google сможет подтвердить, что мечты о семантическом поиске так и остались мечтами. Конечно, сказать, что Гугл не отвечает ни одному из критериев нельзя, однако система пока что еще достаточно далека от того, что называется семантическим поиском.

Например, система использует базы данных для того, чтобы определить и связать объекты. Однако семантический движок проанализирует, как контекст влияет на слова, и затем уже он сможет оценивать и интерпретировать смысл. У Google такого понимания нет. И по некоторым данным система все же остается исключительно навигационным поиском, не имеющим по своему определению, по своей природе ничего общего с семантическим анализом.

Таким образом, хотя Google и может посредством анализа данных, машинного и дистанционного обучения распознать известные объекты и связи между ними, она все еще не в состоянии понять естественный язык человека. Она также не может с легкостью интерпретировать ассоциативные признаки без дополнительных разъяснений, если эти связи в хранилище Гугл слабо коррелированы или вообще отсутствуют. Эти пояснения обычно становятся результатом дополнительного пользовательского ввода.

Конечно, в течение определенного времени Google вполне сможет выучить многие из этих определений и связей, если достаточное количество пользователей будет искать заданный список терминов. Именно в этот момент и придет на помощь машинное обучение в виде RankBrain. Вместо того, чтобы стимулировать пользователя к уточнению поискового запроса, система выдвинет наиболее оптимальное предположение о характере искомой информации, основанное на осознанной потребности человека.

Тем не менее, даже при содействии RankBrain не сможет интерпретировать значения так, как это сделает обычный человек, и это является частью естественного языка семантического определения.

В итоге, по определению Google не является семантической поисковой системой. Но тогда что она такое?

Переход от «строк» к «вещам»

Одна из записей в официальном блоге Google гласит: «Мы работали над интеллектуальной моделью — на языке программистов «графом» — понимающим реальные объекты и связи между ними: вещи, не строки».

Как уже упоминалось, Гугл сегодня очень хороша в выявлении точных данных. Нужен прогноз погоды? Информация о пробках? Обзор ресторана? Google даст ответ на запрос, даже не побуждая вас зайти на нужный сайт, вся информация будет выведена на самом видном месте — вверху страницы поисковой выдачи. Приведенные данные, как правило, опираются на Граф знаний и являются результатом перехода от тех самых «строк» к «вещам».

Этот переход стал выдающимся событием для поисковиков, базирующихся на архивах данных, особенно при условии, что биты данных будут помещены в Граф знаний. Именно эти биты данных и отвечают на вопросы «кто?», «что?», «где?», «когда?», «почему?» и «как?». Google в состоянии предоставить своим пользователям информацию, о необходимости которой для себя они даже не догадывались.

При этом этот толчок к объектам повлек за собой и некоторые ухудшения. В то время как Google преуспела в анализе прямой, основанной на данных информации, она перестала совершенствоваться в увеличении релевантности ответов на сложные комбинированные поисковые запросы. Такие запросы не имеют четкого сопоставления с конкретными объектами, известными данными и/или атрибутами данных. В силу этого они крайне плохо распознаются поисковой системой.

Как следствие, вводя подобный сложный запрос, вы можете рассчитывать лишь на несколько релевантных ответов системы, которые запросто могут оказаться не таким уж и ценными для вас. То есть результат поисковой выдачи становится в большей степени набором потенциально возможных ответов, чем списком конкретных ответов на поставленный пользователем запрос. Но почему так происходит?

Сложные запросы и их влияние на поиск

«RankBrain использует искусственный интеллект, чтобы встроить огромное количество письменных языков в математические объекты, — называемые «вектора» — которые компьютер сможет понять. Если RankBrain видит слово или фразу, с которой он не знаком, машина делает предположение о том, какие слова или фразы могут иметь аналогичный смысл и соответствующим образом фильтрует результат, поднимая тем самым планку эффективности поисковика до невиданных ранее высот», — пишет издание «Bloomberg Business».

Хотите увидеть сложные запросы в действии? Перейдите в окно поиска и посмотрите, на что способна система. Если вы использовали необычный или несвязанный набор терминов, то вы увидите, как Google сформирует для вас набор потенциально возможных вариаций ответов. Почему так происходит?

Гугл ищет нужные ответы среди элементов, известных системе, задействуя систему машинного обучения (RankBrain), чтобы создавать/понимать/анализировать не являющиеся очевидными причинно-следственные связи. В основном, когда объект или связь не известны Google (а соответственно она не в состоянии точно определить контекст, смысл), то она их просто пытается угадать.

Даже когда объект известен, невозможность определить релевантность между искомыми пунктами снижается, когда релевантность еще не раскрыта. Помните те случаи, когда Google показывал вам слова, не использовавшиеся в поиске? Это работает таким же образом, мы просто больше не видим те удаленные критерии поиска.

Вы сможете убедиться во всем самостоятельно, если вновь введете свой запрос в окно поисковика. Печатая, обращайте внимание на выпадающее окно и представленные в нем результаты. И вместо того, чтобы до конца ввести требующийся вам запрос, просто выберите из представленного списка наиболее подходящий вам результат.

Обратили внимание на то, насколько более точны результаты, когда вы используете формулировки Google? Хотите знать, почему так происходит? Все дело в том, что Гугл не может понимать язык, не зная, что обозначает то или иное слово. И она не может понять взаимосвязь между объектами, если не будет достаточного количества людей, которые смогут указать, каким образом коррелируются между собой данные атрибуты. Именно таким образом и работают объекты в упрощенных условиях поиска.

Под словом «объекты» мы понимаем различного рода существительные — людей/места/идеи/вещи. Объекты известны Google и их значение определяется базами данных, на которые ссылается поисковая система.

Как мы уже отметили, Google дает отличные результаты касательно погоды, кино, ресторанов и результатов вчерашнего матча по футболу. Она сможет дать вам определения и связанные с ними термины и даже сможет работать как электронная энциклопедия. То есть с выдачей информации, объектное и причинно-следственное окружение которой досконально известно, проблем не возникнет. Однако если заданные пункты неизвестны, или непонятна связь между ними, то Google вас не поймет. Тогда ей не останется ничего другого, кроме как предположить о сущности вашего вопроса и выдать более-менее адекватный (в понимании системы) вариант.

Google хочет превратить слова, которые выводятся на странице, в объекты, обозначающие конкретные вещи и располагающие связанными атрибутами. То есть фактически, создать для компьютера нечто подобное человеческому мозгу — искусственный интеллект.

Данная задача не из простых, однако работа в нужном направлении уже идет полным ходом. «Гугл занимается созданием гигантской внутренней системы, имеющей информацию как о каждом отдельном объекте, так и обо всем многообразии объектов мира», — говорит разработчик программного обеспечения компании, Амит Сингал (Amit Singhal).

Как это работает?

Возьмем для примера «чай со льдом», «лимоны» и «стекло». Все они являются объектами (вещами), окруженными известными причинно-следственными связями. Это значит, что при поиске по данным пунктам Google сможет выдать множество релевантных результатов. Система поймет, что вам нужно, поскольку цель пользователя будет очень ясной.

  • А теперь давайте изменим запросы — «чай со льдом», «ройбуш» и «стакан». Google в общем целом понимает, что вам требуется в этом случае, однако теперь интерпретация пользовательских намерений уже усложняется. Почему? Потому что ройбуш хотя и используется для приготовления чая как такового, однако не является распространенным ингредиентом конкретно для чая со льдом.

  • И вновь усложним задачу — «чай со льдом», «годжи» и «стакан». Теперь Google погружается в сектор многообразия потенциально возможных результатов, пытая отыскать варианты, хоть в какой-то степени отвечающие поставленной задаче. Одни результаты могут оказаться «мимо кассы». Другие будут релевантны лишь чаю из годжи, но никак не чаю со льдом. Система в растерянности.

  • Ну, и наконец, финальное преобразование — «чай со льдом», «растворенный сахар» и «стакан». Гугл теряется в догадках о смысле данного запроса. И хотя все эти объекты имеют отношение к рецепту приготовления сладкого чая, в поисковой выдаче вы, помимо сайтов с рецептами приготовления чая, увидите и ссылки на ресурсы по химии. Прочему? Да просто поисковик не может правильно понять взаимосвязь между указанными пунктами.

А теперь представим, что вы вместо того, чтобы до конца вводить собственный запрос, задействуете слова из выпадающего меню Google, отвечающие в общем и целом вашим потребностям. Что предложит вам система? «Стакан сладкого чая со льдом». Слово «сахар» было изменено на «сладкий», а слово «растворенный», вводящее систему в ступор, просто было опущено. В итоге, вы получаете идеально релевантный запросу ответ.

Но почему?

Что может сделать Google, так это понять, что объект «чай со льдом» — это такая вещь, которая называется «чай со льдом». А «стакан» — это соответственно стакан. Тем не менее в последнем примере у системы возникают трудности с пониманием значения слова «растворенный» в связке с объектами «чай со льдом», «сахар» и «стакан».

Поскольку этот запрос может иметь отношение к чаю со льдом и сахаром, налитом в стакан, так и к раствору сахара, используемого в лаборатории, вы получаете довольно странный набор результатов. Некоторые из них по понятным причинам не имеют никакого отношения к чаю, но зато релевантны «растворенному сахару». Также вы получаете результаты, соотносящиеся одновременно и с чаем, и сахаром, но все же далекие от рецептуры приготовления сладкого холодного чая.

То, что мы видим эти страницы, скорее всего, является заслугой работы RankBrain, пытающегося расшифровать намерения пользователя. Механизм пытается определить взаимосвязи между объектами, но, не имея достаточных возможностей для такой работы, он все равно скатывается в пучину потенциально возможных вариантов.

Так, им имеем набор поисковых запросов, которые Google должен оценить на основе имеющихся в его базе данных объектов, вещей. Далее на основе известных системе причинно-следственных связей будет анализироваться характер взаимоотношений между этими объектами. Имея плохое представление о намерениях пользователя, Google подключает RankBrain для подбора и выдачи наиболее близких по смыслу ответов.

Так куда же движется Google?

Будущее компании Google

Несмотря на свои эксперименты с RankBrain, компания все же потеряла часть рынка США. После запуска Колибри Google пришлось распрощаться примерно с 3% от общего числа пользователей. Соответственно достигнутые результаты далеко не во всем могут расцениваться положительно. Более того, некоторые склонны вообще говорить лишь о недостатках нововведений.

Возможно, Google определиться, является они она движком для получения ответов или все же поисковой системой. Либо она разделит эти функции и станет работать в обоих направлениях.

Будучи не в состоянии создать семантический поиск, компания основала систему, зависимую от фактажа. RankBrain был добавлен с целью получения более точных результатов поиска, поскольку объектные поисковые запросы не всегда понятны не только в плане значения существительных, но и в аспекте взаимосвязей между ними.

Со временем, RankBrain станет более совершенной. Механизм выучит новые объекты и запомнит вероятностные связи между ними. Это позволит данной технической надстройке быть более результативной, более полезной для пользователей, нежели сейчас. Однако, как бы парадоксально это не звучало, система будет работать против себя, постепенно теряя пользователей. Насколько эти потери на пути к совершенству окажутся существенными — покажет время.