Что нового у яндекса в поисковых алгоритмах. Новый алгоритм Яндекса «Королев

Youtube

22 августа 2017 Яндекс запустил новую версию поискового алгоритма – «Королёв». Максимально кратко и емко можно описать его суть словами из пресс-релиза Яндекса:

Запуск алгоритма состоялся в Московском планетарии и сопровождался докладами разработчиков алгоритма, торжественным нажатием кнопки запуска и даже звонком на МКС и прямым эфиром с космонавтами.

Полное видео презентации можно посмотреть прямо здесь, а ниже мы рассмотрим основные изменения и ответы на частые вопросы. Информацию мы будем сопровождать комментариями сотрудников Яндекса в блоге компании, а также цитатами из официальных источников.

Что изменилось в поиске Яндекса?

«Королев» – это продолжение алгоритма «Палех », представленного в ноябре 2016 года. «Палех» был первым шагом в сторону семантического поиска, задача которого – лучше понимать смысл страниц.

«Королев» же теперь умеет понимать смысл всей страницы, а не только заголовка title, как было после анонса «Палеха».

Алгоритм должен улучшить выдачу по редким и сложным запросам.

Документы могут не содержать многих слов запроса, поэтому традиционные алгоритмы определения текстовой релевантности не справятся с этой задачей.

Выглядит это примерно так:

В Google работает аналогичный алгоритм – RankBrain:

Область действия алгоритма «Королев» распространяется на все запросы, в том числе на коммерческие. Однако больше всего влияние заметно именно на многословных запросах. Яндекс подтвердил, что алгоритм работает на всем поиске.

Конечно, целью алгоритма было улучшение качества выдачи по редким и сложным вопросам. Проверим на редких и сложных коммерческих запросах, связанных как раз с названием предмета.Например, в этом случае Яндекс действительно понимает, о чем идет речь. Правда, в выдаче в основном обзоры и статьи, а не коммерческие сайты.

А в этом случае поисковик понял, что меня, скорее всего, интересует дрон или квадрокоптер. Конечно же, выдача начинается с Яндекс.Маркет:

Но в некоторых случаях Яндекс бессилен…

Как это работает (+ 11 фото из презентации)

Разберем подробнее презентацию нового алгоритма. Ниже будут только выдержки самых интересных моментов с нашими комментариями и слайды из презентации.

Новая версия поиска основана на нейронной сети. Она состоит из большого количества нейронов. У нейрона есть один выход и несколько входов, он умеет суммировать полученную информацию и после преобразования передавать ее дальше.

Нейронная сеть может выполнять гораздо более сложные задачи и ее можно обучить понимать смысл текста. Для этого нужно дать ей много обучающих примеров.

Работу в этом направлении Яндекс начал с модели DSSM, состоящей из двух частей, соответствующих запросу и странице. На выходе была оценка, насколько они близки по смыслу.

Для обучения нейросети нужно много обучающих примеров.

Отрицательные – это пара текстов, не связанных по смыслу.

Положительные – пары «текст-запрос», связанные по смыслу.

Согласно презентации, Яндекс использовал для обучения массив данных о поведении пользователей на выдаче и считал связанными по смыслу запрос и страницу, на которую часто кликают пользователи в выдаче. Но как позже пояснил Михаил Сливинский, удовлетворенность пользователя результатами поиска меряются не только кликами:

Как ранее рассказывал в презентации "Палеха" Александр Садовский, наличие клика не говорит о том, что документ релевантен, а отсутствие, что не релевантен. Модель Яндекса предсказывает, задержится ли пользователь на сайте и учитывает множество других метрик удовлетворенности пользователя.

После обучения модель представляет текст в виде набора 300 чисел – семантического вектора. Чем ближе тексты по смыслу, тем больше сходство чисел векторов.

В поиске Яндекса нейронные модели использовались давно, но в алгоритме «Королёв» увеличено влияние нейронных сетей на ранжирование.

Теперь при оценке смысловой близости алгоритм смотрит не только на заголовок, но и на текст страницы.

Параллельно Яндекс работал над алгоритмом сравнения смыслов запросов на основании нейронных сетей. Например, если для одного запроса поисковая система точно знает лучший ответ, а пользователь ввел запрос, очень близкий к нему, тогда результаты поиска должны быть похожи. В качестве иллюстрации такого подхода Яндекс приводит пример: «ленивая кошка из монголии» – «манул». ()

В «Палехе» нейронные модели применялись только на самых поздних стадиях ранжирования, приблизительно на 150 лучших документов. Поэтому на ранних стадиях ранжирования часть документов терялась, а они могли быть хорошими. Это особенно важно для сложных и низкочастотных запросов.

Теперь вместо вычисления семантического вектора во время исполнения запроса Яндекс делает вычисления заранее – при индексации. «Королёв» проводит вычисления на 200 тыс. документов на запрос, вместо 150, которые были раньше при «Палехе». Сначала такой метод предварительного расчета был испытан на «Палехе», это позволило сэкономить на мощности и находить соответствие запросу не только заголовка, но и текста.

Поисковик берет полный текст на этапе индексации, проводит нужные операции и получает значение. В итоге для всех слов и популярных пар слов формируется дополнительный индекс со списком страниц и их предварительной релевантностью запросу.

Команда Яндекса, которая занималась проектированием и внедрением нового поиска, запускает его.

Запуск алгоритма:

Обучение искусственного интеллекта

В Яндексе уже много лет задачей сбора данных для машинного обучения занимаются асессоры, которые оценивают релевантность документов запросу. С 2009 по 2013 год поисковик получил более 30 млн таких оценок.

За это время появился поиск по картинкам, по видео, внутренние классификаторы и алгоритмы: количество проектов Яндекса выросло.

Так как все они работали на технологиях машинного обучения, требовалось больше оценок и больше асессоров. Когда асессоров стало больше 1500, Яндекс запустил краудсорсинговую платформу «Толока» , где может зарегистрироваться и выполнять задания любой человек.

Например, вот такие задания встречаются в «Толоке»:

Или такие:

Если хотите подробнее узнать, как пользователи оценивают релевантность ответов, чтобы понимать, какие параметры выдачи оцениваются, рекомендуем почитать инструкции по заданиям или даже попробовать пройти обучение.

За несколько лет в сервисе собралось более 1 млн человек, которые сделали более 2 млрд оценок. Это позволило Яндексу сделать огромный рывок в масштабировании и объеме обучающих данных. Только в 2017 году задания выполняли более 500 000 человек.

Среди заданий есть:

Оценка релевантности документов;

Задания для развития карт. Так проверяют актуальность данных об организациях для базы Справочника;

Задания для настройки речевых технологий голосового поиска.

Правила, которым Яндекс хочет научить алгоритм, открыты всем зарегистрированным пользователям в виде инструкций для работников «Толоки». По некоторым заданиям просто собирается субъективное мнение людей.

Вот выдержка из инструкции о том, как Яндекс определяет релевантность документа:

Яндексу очень важно качество оценок. Оно может быть субъективно, поэтому задания даются сразу нескольким людям, а потом математическая модель оценивает распределение голосов с учетом степени доверия к каждому работнику и экспертизы каждого участника. Для каждого «толокера» хранятся данные о точности оценок по каждому проекту и сводятся в единый рейтинг.

Именно поэтому нельзя сетовать на то, что необъективность асессоров погубила ваш сайт.

Таким образом, в Яндексе появилась дополнительная группа факторов:

Смысл страницы и соответствие ее запросу;
Является ли документ хорошим ответом на похожие пользовательские запросы.

Что изменилось в топе Яндекса?

Алгоритм предположительно был запущен несколько раньше презентации и, если верить сторонним сервисам (например, https://tools.pixelplus.ru/updates/yandex), изменения в выдаче начались еще в начале августа, но неизвестно, связано ли это с алгоритмом «Королев».

По этим данным можно выдвинуть гипотезу, что уменьшение доли главных страниц в топ-100 и уменьшение возраста документов в пределах топ-100 связано с новым алгоритмом, который помогает получить больше релевантных ответов.

Правда, при этом заметных изменений в топ-10, топ-20 или топ-50 не видно. Возможно, их там нет либо они незначительны. Мы также не заметили существенных изменений выдачи по продвигаемым запросам.

Текстовая релевантность в стандартном понимании никуда не делась. Подборки и более широкие ответы по многословным запросам содержат большое количество страниц с вхождениями слов запроса в title и текст:

Свежесть результатов поиска тоже имеет значение. Пример из презентации Яндекса содержит ряд свежих результатов с искомой фразой целиком.

Хотя, учитывая тот факт, что алгоритм проводит расчеты сразу при индексации, «Королев» теоретически может влиять и на подмешивание результатов быстроботом.

Надо ли как-то оптимизировать тексты под «Королев»?

Скорее наоборот: чем больше поисковик учится определять смысл текста, тем меньше требуется вхождений ключевых слов и тем больше требуется смысла. Но принципы оптимизации не меняются.

Например, еще в 2015 году Google рассказал об алгоритме RankBrain, который помогает поиску лучше отвечать на многословные запросы, заданные на естественном языке. Он неплохо работает, что отметили пользователи в многочисленных публикациях сравнения поиска Яндекса и Google после анонса новой версии алгоритма.

Это не сопровождалось масштабной презентацией и сильно не повлияло на работу специалистов. Никто целенаправленно не занимается «оптимизацией под RankBrain», поэтому и в Яндексе это никак глобально не меняет работу специалиста. Да, появился тренд на поиск и включение в текст так называемых LSI-ключей, но это явно не просто часто повторяющиеся слова на страницах конкурентов. Ожидаем развития SEO-сервисов в этом направлении.

В алгоритме также заявлено, что анализируется смысл и других запросов, по которым пользователи попадают на страницу. Опять же, в перспективе это должно дать одинаковую или похожую выдачу по синонимичным запросам, так как сейчас результат анализа выдачи порой показывает, что пересечений по синонимичным запросам в выдаче нет. Будем надеяться, что алгоритм поможет устранить подобные несоответствия.

Но Яндекс пока не может найти (или плохо находит) документы, близкие по смыслу к запросу, но вовсе не содержащие слов запроса ().

Советы:

Убедитесь, что страница отвечает на запросы, под которые она оптимизирована и по которым переходят пользователи.

Убедитесь, что страница все же включает слова из поисковых запросов. Мы не говорим про прямые вхождения, просто проверьте, есть ли слова из запросов в любой форме на странице.

Тематические слова могут придать странице дополнительную релевантность, но это явно не просто часто повторяющиеся слова на страницах конкурентов. Ожидаем развития SEO-сервисов в этом направлении.

Для ключевых фраз, по которым страница сайта хорошо ищется, проверьте, не выбивается ли показатель отказов из среднего показателя по сайту. Если по запросу сайт находится на высокой позиции и пользователь находит то, что ему нужно, сайт может быть показан по сходным по смыслу ключевым фразам (если такие есть).

Клики на поиске показывают удовлетворенность пользователя результатом. Это не ново, но стоит еще раз проверить сниппеты по ключевым запросам. Возможно, где-то получится повысить кликабельность.

Как проверить влияние алгоритма на свой сайт?

Для сайтов, у которых нет ярко выраженной сезонности, вы можете сравнить количество низкочастотных ключевых фраз, по которым переходили на сайт до запуска алгоритма и после. Например, взять неделю в июле и неделю в августе.

Выбираем «Отчеты – Стандартные отчеты – Источники – Поисковые запросы».

Выбираем визиты из Яндекса:

И фильтром оставляем только те запросы, по которым был 1 переход. Дополнительно стоит исключить фразы, содержащие название бренда.

Также можете посмотреть наличие поисковых фраз, слов из которых у вас нет в тексте. В целом, такие фразы присутствовали среди НЧ-запросов и раньше, просто сейчас их может стать заметно больше.

Перспективы и прогноз

Поисковик сможет еще лучше находить документы, близкие по смыслу к запросу. Наличие вхождений станет еще менее важным.

К текущему алгоритму будет добавлена персонализация.

В перспективе хорошие материалы, отвечающие на вопрос пользователя, могут получить еще больше трафика по микрочастотным, редким или семантически похожим запросам.

По низкочастотным ключевым фразам может увеличиться конкуренция за счет большей релевантности неоптимизированных документов.

Гипотеза. С помощью подобных алгоритмов Яндекс может лучше оценивать, насколько семантически связаны страницы, ссылающиеся на другие, и учитывать это для оценки внешних ссылок. Если это может быть значимым фактором с учетом слабого влияния ссылок в Яндексе.

Нам стоит ожидать дальнейших изменений, связанных с нейросетями, и в других сервисах Яндекса.

Вопрос-ответ

Вопрос : так как Яндекс оценивает клики, значит ли это, что накрутка поведенческих факторов будет набирать обороты?

Вопрос : связан ли «Королев» с «Баден-Баденом»?

Вопрос : как включить новый поиск Яндекса?

Ответ : в блоге Яндекса и в поисковых запросах часто встречались вопросы, как включить или установить новый поиск. Никак . Новый алгоритм уже работает и никаких дополнительных настроек делать не нужно.

«Королев» — это не Минусинск, не Баден-Баден. Это не карательный фильтр. Он, кстати, не является надстройкой — является частью основного алгоритма Яндекса.

«Королев» работает на основе самообучаемой нейронной сети и затрагивает довольно редкие многословные запросы, в первую очередь информационные, которые направлены на уточнение смысла — низкочастотные (НЧ) и микроНЧ, в том числе голосовой поиск, разные естественные варианты запросов, типа «фильм, где мужик в разных ботинках».

Создан этот алгоритм был с целью улучшить качество выдачи по таким запросам, по аналогу с RankBrain Гугла, который давно с такой задачей хорошо справляется, да и сейчас, по первым замерам, работает по таким запросам лучше Яндекса.

До этого был и есть алгоритм «Палех», который уже начал искать по смыслу, но делал это в реальном времени и сопоставлял только смысл запроса и заголовка — Title страницы.

«Королев» анализирует не только Title, но и всю страницу в целом, показывает в выдачу даже те страницы, где нет упоминания слов из запроса, но по смыслу страница подходит. При этом он определяет суть страницы заранее, на этапе индексирования — в результате скорость и количество обрабатываемых страниц мощно увеличились.

Про «треть» тут может быть преувеличено — реальной доли запросов, которые затронет «Королев», пока еще никто не измерял.

Другие статьи про «Королев»:

Я много моментов тут еще не расписывала, про них стоит почитать в других статьях. Я выбрала тут только самые лучшие, действительно стоящие:

Мнения разных экспертов:

Дополнительные официальные источники:

Некоторые отрывки из мнений по ссылкам выше:

Дмитрий Шахов

«Королев» пройдет мимо поисковой оптимизации. По крайней мере, на данном этапе. Перед поиском стоит задача дать ответы по запросам, по которым нет документов с вхождениями. Поиск эту задачу решает. Hummingbird в Google, «Палех» и «Королев» в Яндексе. Запросы, по которым нет документов, не входят в зону интереса поисковой оптимизации. Именно поэтому там и нет документов.

Артур Латыпов

Многие ждали, что вскоре после «Палеха» появится алгоритм, который будет работать аналогично, но не по заголовкам, а по контенту. Пока не заметили скачков трафика на наблюдаемых сайтах, будем наблюдать внимательней и смотреть на развитие алгоритма в будущем. Интересно, раньше для улучшения ранжирования по большому количеству запросов, в том числе смежных, готовили SEO-тексты, они были у кого-то лучше, у кого-то хуже, кто-то их называл по-другому, но смысл от этого не менялся. Теперь за SEO тексты наказывают, а поиск будет ранжировать документы по смыслу.
Ожидаем, что в работе оптимизаторы будут больше использовать LSI при подготовке текстовой оптимизации.

Соответственно, будут развиваться SEO-сервисы. Напомню, что подготовка списка SEO-слов, терминов в тематике, смежных запросов для подготовки контента и оптимизации, используется специалистами уже несколько лет. Поэтому серьезных изменений в механике не произойдет, по крайней мере пока.

В итоге, больше внимания уделяем:

Качеству контента;
интенту запроса;
мониторингу выдачи.

И, конечно, всегда интересно после запуска нового алгоритма от Яндекса анализировать, что изменилось, и наблюдать, что будет дальше.

Дмитрий Севальнев

Фактически, с внедрением ряда новых факторов, которые учитывают:

смысловое соответствия пары запрос-документ (по всему тексту документа, а не только по Title, как ранее в алгоритме «Палех»),
качество ответа документа на схожие по смыслу поисковые запросы, –

не будет глобальных изменений для SEO-индустрии. Наиболее значимые изменения коснутся «длинного хвоста» запросов, под которые целенаправленно SEO-специалисты мало работают. Их много, они редкие и часто обеспечивают единичные заходы на сайт.

Может быть увеличена значимость ряда факторов, которые и так прорабатываются специалистами, с того момента как LSI стал «модной темой».

Олег Шестаков, CTO & Founder в Rush Analytics Russia

Анонс алгоритма «Королев» был, наверное, самым масштабным за все время с точки зрения шоу. С точки зрения технологий нельзя сказать, что это какой-то новый технологический прорыв. В чем смысл инновации: теперь нейронные сети Яндекса оценивают соответствие запрос-документ не просто с точки зрения вхождения запроса и его вариаций (леммы, частей запроса и т.д.) в текст документа, но и с точки зрения смысла запроса. Нейронная сеть, обученная на больших данных, теперь умеет определять релевантность документа запросу, даже если в документе нет вхождения слов запроса. На самом деле – это не новая технология – она же использовалась в алгоритме «Палех», правда он учитывал лишь заголовки документов. Т.е. настоящая инновация здесь в том, что инженеры Яндекса сумели масштабировать очень ресурсоемкий алгоритм на несколько порядков – теперь алгоритм может оценивать сотни тысяч документов, а не 150 строк текста как раньше.

Как алгоритм повлияет на рынок SEO?

— Глобально – никак. Это всего лишь часть алгоритма, а большинство других факторов как работали, так и будут работать. Данный алгоритм сильнее всего должен затронуть НЧ-запросы и часть СЧ-запросов.

— Придется уделять больше внимания качеству текстов. Теперь, чтобы вывести страницу в ТОП, текст страницы должен содержать как можно больше слов-синонимов и связанных с запросом слов, чтобы пройти по факторам нового алгоритма, т.к. он теперь учитывает именно такие слова, а не просто «прямые вхождения». Здесь нет никакой магии – нейросеть обучается учителями-асессорами и все равно работает с текстами реальных сайтов, находя связанные по смыслу слова. Значит можно провести похожий анализ и сделать экстракцию этих слова их документов ТОПа. Грамотные SEO-специалисты начали это делать уже несколько лет назад. Если простыми словами – тот же LSI, только в профиль.

— Рынок дешевого копирайтинга начнет схлопываться, и это очень хорошо. Задание на написание текста в формате «3 прямых вхождения, 4 разбавленных и длина 2500 символов» будет порождать тексты, которые будут слабо ранжироваться.

Теперь нужны тексты-истории. Мы как SEO-специалисты должны рассказать историю про продукт клиента во всех подробностях, описав продукт со всех сторон – при таком подходе будет физически сложно упустить важные тематичные запросу слова. Заметьте, что вебмастера, зарабатывающие на статейных сайтах, уже очень давно пишут тексты-истории даже о юристах по алиментам, с отличной версткой, раскрытием темы и points of interest. Что в результате? У них куча трафика и ТОПы, плюс тотальная победа над сухими сайтами юридических фирм.

Производство контента станет несколько дороже и профессиональнее. SEO-компании либо перестанут писать SEO-бред и построят взрослые контент-редакции внутри, или их клиенты потеряют позиции в поиске. Яндекса вчера толсто на это намекнул.

Александр Алаев

«Королев» со всем не про SEO. Цель SEO – работа с запросами, которые спрашивают много раз и смысл их понятен, а релевантных ответов тысячи. Задача поисковика в коммерческом сегменте – найти лучших кандидатов по коммерческим критериям, а не искать смыслы. Именно поэтому коммерческая выдача не изменится, по крайней мере сколько-либо заметно.

А вот владельцам информационных ресурсов еще раз стоит обратить внимание на качество контента, ориентировать свои публикации не под поисковые запросы, а под интересы пользователей, писать человеческим простым языком.

Все мои проекты, кроме этого SEO-блога:

ТОП База - качественная база для полуавтоматической регистрации с Allsubmitter или для полностью ручного размещения - для самостоятельного бесплатного продвижения любого сайта, привлечения целевых посетителей на сайт, поднятия продаж, естественного разбавления ссылочного профиля. Базу собираю и обновляю 10 лет. Есть все виды сайтов, все тематики и регионы.

SEO-Topshop - SEO-софт со СКИДКАМИ, по выгодным условиям, новости SEO-сервисов, баз, руководств. Включая Xrumer по самым выгодным условиям и с бесплатным обучением, Zennoposter, Zebroid и разные другие.

Мои бесплатные комплексные курсы по SEO - 20 подробных уроков в формате PDF.
- каталоги сайтов, статей, пресс-релизовые сайты, доски объявлений, каталоги фирм, форумы, соцсети, блоговые системы и прочее.

"Приближаясь.." - мой блог на тему саморазвития, психологии, отношений, личной эффективности

Алгоритм ранжирования сайтов в Яндексе непрерывно подвергается изменениям и дополнениям: добавляют новый функционал, обновляют ограничения, фильтры… Очень долгое время учет всех алгоритмов ранжирования вели только внутри компании и, когда его резко обновляли, пользователи негодовали и, откровенно говоря, мало что понимали.

Занимало не мало времени на исследования алгоритмов ранжирования Яндекса, поиск ответов на тему фильтров и как не попасть в «черный список». Сейчас все чуть проще, но не на столько, чтобы оставить без внимания разбор принципа работы Яндекса.

Алгоритмы Яндекса имеют уже довольно долгую историю создания и становления, еще с далекого 1997 года. С того времени Яндекс изменился и появлялись все новые алгоритмы и новые фильтры. Начнем свой «разбор полетов», пожалуй, с самых «свежих» алгоритмов.

Новый алгоритм Яндекса «Баден-Баден». 2017 год

Яндекс новый алгоритм определения текстового спама под названием «Баден-Баден».
Алгоритм создан для борьбы с «накруткой» релевантности путём написания бесполезных для пользователя и «переоптимизированных» текстов (с большим количеством вхождений ключей).

Как говорится в блоге Яндекса, алгоритм, определяющий текстовый спам, существенно изменен и улучшен. Сами авторы публикации утверждают, что данный алгоритм «является частью общего алгоритма ранжирования, результатом его работы может стать ухудшение позиций переоптимизированных страниц в результатах поиска». И что же это могло бы означать?

Во-первых, если его «переработали и улучшили», то, скорее всего, этот алгоритм создан для замены уже привычных фильтров «переспам» и «переоптимизация». А если он действительно «является частью общего алгоритма ранжирования», то и диагностировать наличие «штрафов», накладываемых данным алгоритмом, ясное дело, будет труднее.

Новый алгоритм Яндекса 2016 год. «Палех»

Алгоритм будет стараться сопоставить смыслы запроса с помощью нейросетей, а не просто сопоставлять ключевики, как это делалось обычно. Это делалось для того, чтобы обеспечить наилучшую выдачу по редчайшим запросам пользователя. Новый алгоритм основан на нейронных сетях и помогает Яндексу находить соответствие между поисковым запросом и заголовками страниц, даже если у них нет общих ключевых фраз. Чтобы понять, что фактически произошло, несколько цитат из официального блога компании Яндекс:

В нашем случае мы имеем дело не с картинками, а с текстами - это тексты поисковых запросов и заголовков веб-страниц, - но обучение проходит по той же схеме: на положительных и отрицательных примерах. Каждый пример - это пара «запрос - заголовок». Подобрать примеры можно с помощью накопленной поиском статистики. Обучаясь на поведении пользователей, нейросеть начинает «понимать» смысловое соответствие между запросом и заголовками страниц.

Семантический вектор применяется не только в поиске Яндекса, но и в других сервисах - например, в Картинках. Там он помогает находить в интернете изображения, которые наиболее точно соответствуют текстовому запросу.

Технология семантических векторов обладает огромным потенциалом. Например, переводить в такие векторы можно не только заголовки, но и полные тексты документов - это позволит ещё точнее сопоставлять запросы и веб-страницы.
Внедрение нового алгоритма Яндекс – это еще один значимый аргумент в пользу продвижения по низкочастотным запросам для тех, кто занимается развитием и продвижением сайтов. Перспективы развития нового алгоритма Яндекса лишь подтверждают верность выбранного направления, ведь в недалеком будущем речь пойдет об улучшенном распознавании не только заголовков, но и всего текстового документа в целом (!).

В Яндексе график частотного распределения представляют в виде птицы, у которой есть клюв, туловище и длинный хвост, характерный жар-птице

Клюв - самые высокочастотные запросы. Список таких запросов не очень большой, но их задают очень-очень часто.
Туловище -среднечастотные запросы.
Хвост - низкочастотные и микронизкочастотные запросы. «По отдельности они встречаются редко, но вместе составляют существенную часть поискового потока, и поэтому складываются в длинный хвост».

Такой хвост принадлежит птице, которая довольно часто фигурирует на палехской миниатюре. Именно поэтому алгоритм получил название «Палех».

Все алгоритмы Яндекса. (2007-2017 года)

2 июля 2007 год . «Версия 7». Новая формула ранжирования, повышение числа факторов, анонс состоялся только на searchengines.guru .
20 декабря 2007 год . 17 января 2008 год. «Версия 8» и «Восьмерка SP1». Авторитетные ресурсы получили значимый плюс в ранжировании, внедрение фильтрации «прогонов» для накрутки ссылочных факторов.
16 мая, 2 июля 2008 год . «Магадан» (Fast Rank для быстрого подбора претендентов, мягкость, расширение базы аббревиатур и синонимов, расширенные классификаторы документов), «Магадан 2.0» (уникальность контента, новые классификаторы запросов пользователей и документов).
11 сентября 2008 год . «Находка» (учёт стоп-слов в поисковом запросе, новый подход к машинному обучению, тезаурус).
10 апреля, 24 июня, 20 августа, 31 августа, 23 сентября, 28 сентября 2009 год.
«Арзамас / Анадырь» (учёт региона пользователя, снятие омонимии), «Арзамас 1.1» (новая региональная формула для ряда городов, кроме Москвы, Санкт-Петербурга и Екатеринбурга), «Арзамас 1.2» (новый классификатор геозависимости запросов), «Арзамас+16» (независимые формулы для 16 регионов России), «Арзамас 1.5» (новая общая формула для геонезависимых запросов), «Арзамас 1.5 SP1» (улучшенная региональная формула для геозависимых запросов).
17 ноября 2009 год . «Снежинск» (запуск технологии машинного обучения MatrixNet, кратный рост числа факторов ранжирования, 19 локальных формул для крупнейших регионов России, сильнейшие изменения выдачи).
22 декабря 2009 год. 10 марта 2010 год . «Конаково» (неофициальное название, но далее будет именно Обнинск, свои формулы для 1250 городов по всей России), «Конаково 1.1» («Снежинск 1.1») - обновление формулы для геонезависимых запросов.
13 сентября 2010 год . «Обнинск» (перенастройка формулы, повышение производительности, новые факторы и ранжирование для геонезависимых запросов, доля которых в потоке составляет более 70%).
15 декабря 2010 год . «Краснодар» (технология «Спектр» и повышение разнообразия выдачи, разложение запроса пользователя на интенты), далее: повышение локализации выдачи по геозависимым запросам, независимые формулы для 1250 городов России.
17 августа 2011 год . «Рейкьявик» (учёт языковых предпочтений пользователей, первый шаг персонализации выдачи).
12 декабря 2012 год . «Калининград» (существенная персонализация выдачи: подсказки, учёт долгосрочных интересов пользователя, повышение релевантности для «любимых» сайтов).
30 мая 2013 год . «Дублин» (дальнейшая персонализация выдачи: учёт сиюминутных интересов пользователей, подстройка результатов выдачи под пользователя прямо во время поисковой сессии).
12 марта 2014 год . «Началово»*, «Без ссылок» (отмена учета ссылок / ряда ссылочных факторов в ранжировании для групп коммерческих запросов в Московском регионе).
5 июня 2014 год . «Одесса»*, «Острова» (новый «островной» дизайн выдачи и сервисов, внедрение интерактивных ответов, в дальнейшем эксперимент был признан неуспешным и завершен).
1 апреля 2015 год . «Амстердам»*, «Объектный ответ» (дополнительная карточка с общей информацией о предмете запроса справа от результатов выдачи, Яндекс классифицировал и хранил в базе десятки миллионов различных объектов поиска).
15 мая 2015 год . «Минусинск» (понижение в ранжировании сайтов с избыточным числом и долей SEO-ссылок в ссылочном профиле, массовое снятие SEO-ссылок, дальнейшее возвращение учёта ссылочных факторов в ранжировании по всем запросам в Московском регионе).
14 сентября 2015 год (± 3 месяца). «Киров»*, «Многорукие Бандиты Яндекса» (рандомизированная добавка к численному значению релевантности ряда документов с оценкой «Rel+», с целью сбора дополнительной поведенческой информации в Московском регионе, в дальнейшем - рандомизация была внедрена и в регионах России).
2 февраля 2016 год . «Владивосток» (учёт адаптированности сайта к просмотру с переносных устройств, повышение в результатах мобильной выдачи адаптированных проектов).
* - неофициальные названия алгоритмов, города подобраны на усмотрение автора с целью соблюдение очередности.

И завершающими на данный момент (мы же развиваемся) алгоритмами являются вышеописанные алгоритмы с эпичными и неординарными названиями «Палех» и «Баден-Баден».

Все фильтры Яндекса и их виды.

В Яндексе множество фильтров, которые могут примениться как к сайту в целом, так и на отдельные его страницы в частности. К сожалению, не всегда понятно, какой именно из фильтров из их множества и за какие нарушения наложен на сайт – сейчас любое малейшее несоответствие при использовании стандартных методов продвижения может быть распознан как «переспам». Итог: пессимизация.

Все фильтры Яндекса (в зависимости от их появления) можно разделить на 3 вида:

— Предфильтры: дисконтируют значение каких-либо факторов еще до того, как рассчитана релевантность сайта. Действие предфильтров можно заметить не сразу – обычно оно проявляется в «залипании» сайта на каких-то местах (сайт дошел до 2 страницы и не двигается дальше, несмотря на наращивание ссылочной массы, например).
— Постфильтры: обнуляют значение того или иного фактора уже после того, как рассчитана релевантность сайта. Не заметить этот тип фильтров сложно – именно они проявляются в резком падении позиций и трафика с Яндекса. Практически все фильтры за накрутку внутренних факторов можно отнести к постфильтрам.
– Фильтрация перед выдачей: это когда релевантность сайта рассчитана, но по каким-то причинам в выдачу он не допускается.
— Бан : Редко, но до сих пор встречается полное исключение сайта из выдачи за грубые нарушения поисковой лицензии.

Судя по всему Яндекс довольно требователен к качеству сайтов и при каждом подходящем случае напоминает нам о своей официальной позиции – развивай свой сайт, ориентируйся на «живого» пользователя и если оценка сайта от Яндекса будет «на отлично» — твой сайт не оставят без внимания. Оптимизируйте сайт так, чтобы оптимизация не вредила, а, наоборот, помогала юзерам ориентироваться на вашем сайте.

Сегодня мы анонсировали новый поисковый алгоритм «Палех». Он включает в себя все те улучшения, над которыми мы работали последнее время.

Например, поиск теперь впервые использует нейронные сети для того, чтобы находить документы не по словам, которые используются в запросе и в самом документе, а по смыслу запроса и заголовка.

Уже много десятилетий исследователи бьются над проблемой семантического поиска, в котором документы ранжируются, исходя из смыслового соответствия запросу. И теперь это становится реальностью.

В этом посте я постараюсь немного рассказать о том, как у нас это получилось и почему это не просто ещё один алгоритм машинного обучения, а важный шаг в будущее.

Искусственный интеллект или машинное обучение?

Почти все знают, что современные поисковые системы работают с помощью машинного обучения. Почему об использовании нейронных сетей для его задач надо говорить отдельно? И почему только сейчас, ведь хайп вокруг этой темы не стихает уже несколько лет? Попробую рассказать об истории вопроса.

Поиск в интернете - сложная система, которая появилась очень давно. Сначала это был просто поиск страничек, потом он превратился в решателя задач, и сейчас становится полноценным помощником. Чем больше интернет, и чем больше в нём людей, тем выше их требования, тем сложнее приходится становиться поиску.

Эпоха наивного поиска

Сначала был просто поиск слов - инвертированный индекс. Потом страниц стало слишком много, их стало нужно ранжировать. Начали учитываться разные усложнения - частота слов, tf-idf .

Эпоха ссылок

Потом страниц стало слишком много на любую тему, произошёл важный прорыв - начали учитывать ссылки, появился PageRank .

Эпоха машинного обучения

Интернет стал коммерчески важным, и появилось много жуликов, пытающихся обмануть простые алгоритмы, существовавшие в то время. Произошёл второй важный прорыв - поисковики начали использовать свои знания о поведении пользователей, чтобы понимать, какие страницы хорошие, а какие - нет.

Где-то на этом этапе человеческого разума перестало хватать на то, чтобы придумывать, как ранжировать документы. Произошёл следующий переход - поисковики стали активно использовать машинное обучение.

Один из лучших алгоритмов машинного обучения изобрели в Яндексе - Матрикснет. Можно сказать, что ранжированию помогает коллективный разум пользователей и «мудрость толпы ». Информация о сайтах и поведении людей преобразуется во множество факторов, каждый из которых используется Матрикснетом для построения формулы ранжирования. Фактически, формулу ранжирования пишет машина (получалось около 300 мегабайт).

Но у «классического» машинного обучения есть предел: оно работает только там, где очень много данных. Небольшой пример. Миллионы пользователей вводят запрос [вконтакте], чтобы найти один и тот же сайт. В данном случае их поведение является настолько сильным сигналом, что поиск не заставляет людей смотреть на выдачу, а подсказывает адрес сразу при вводе запроса.

Но люди сложнее, и хотят от поиска всё больше. Сейчас уже до 40% всех запросов уникальны, то есть не повторяются хотя бы дважды в течение всего периода наблюдений. Это значит, что у поиска нет данных о поведении пользователей в достаточном количестве, и Матрикснет лишается ценных факторов. Такие запросы в Яндексе называют «длинным хвостом », поскольку все вместе они составляют существенную долю обращений к нашему поиску.

Эпоха искусственного интеллекта

И тут время рассказать о последнем прорыве: несколько лет назад компьютеры становятся достаточно быстрыми, а данных становится достаточно много, чтобы использовать нейронные сети. Основанные на них технологии ещё называют машинным интеллектом или искусственным интеллектом - потому что нейронные сети построены по образу нейронов в нашем мозге и пытаются эмулировать работу некоторых его частей.

Машинный интеллект гораздо лучше старых методов справляется с задачами, которые могут делать люди: например, распознаванием речи или образов на изображениях. Но как это поможет поиску?

Как правило, низкочастотные и уникальные запросы довольно сложны для поиска – найти хороший ответ по ним заметно труднее. Как это сделать? У нас нет подсказок от пользователей (какой документ лучше, а какой - хуже), поэтому для решения поисковой задачи нужно научиться лучше понимать смысловое соответствие между двумя текстами: запросом и документом.

Легко сказать

Строго говоря, искусственные нейросети – это один из методов машинного обучения. Совсем недавно им была посвящена . Нейронные сети показывают впечатляющие результаты в области анализа естественной информации - звука и образов. Это происходит уже несколько лет. Но почему их до сих пор не так активно применяли в поиске?

Простой ответ - потому что говорить о смысле намного сложнее, чем об образе на картинке, или о том, как превратить звуки в расшифрованные слова. Тем не менее, в поиске смыслов искусственный интеллект действительно стал приходить из той области, где он уже давно король, - поиска по картинкам.

Несколько слов о том, как это работает в поиске по картинкам. Вы берёте изображение и с помощью нейронных сетей преобразуете его в вектор в N-мерном пространстве. Берете запрос (который может быть как в текстовом виде, так и в виде другой картинки) и делаете с ним то же самое. А потом сравниваете эти вектора. Чем ближе они друг к другу, тем больше картинка соответствует запросу.

Ок, если это работает в картинках, почему бы не применить эту же логику в web-поиске?

Дьявол в технологиях

Сформулируем задачу следующим образом. У нас на входе есть запрос пользователя и заголовок страницы. Нужно понять, насколько они соответствует друг другу по смыслу. Для этого необходимо представить текст запроса и текст заголовка в виде таких векторов, скалярное умножение которых было бы тем больше, чем релевантнее запросу документ с данным заголовком. Иначе говоря, мы хотим обучить нейронную сеть таким образом, чтобы для близких по смыслу текстов она генерировала похожие векторы, а для семантически несвязанных запросов и заголовков вектора должны различаться.

Сложность этой задачи заключается в подборе правильной архитектуры и метода обучения нейронной сети. Из научных публикаций известно довольно много подходов к решению проблемы. Вероятно, самым простым методом здесь является представление текстов в виде векторов с помощью алгоритма word2vec (к сожалению, практический опыт говорит о том, что для рассматриваемой задачи это довольно неудачное решение).

DSSM

В 2013 году исследователи из Microsoft Research описали свой подход, который получил название Deep Structured Semantic Model .

На вход модели подаются тексты запросов и заголовков. Для уменьшения размеров модели, над ними производится операция, которую авторы называют word hashing. К тексту добавляются маркеры начала и конца, после чего он разбивается на буквенные триграммы. Например, для запроса [палех] мы получим триграммы [па, але, лех, ех]. Поскольку количество разных триграмм ограничено, то мы можем представить текст запроса в виде вектора размером в несколько десятков тысяч элементов (размер нашего алфавита в 3 степени). Соответствующие триграммам запроса элементы вектора будут равны 1, остальные - 0. По сути, мы отмечаем таким образом вхождение триграмм из текста в словарь, состоящий из всех известных триграмм. Если сравнить такие вектора, то можно узнать только о наличии одинаковых триграмм в запросе и заголовке, что не представляет особого интереса. Поэтому теперь их надо преобразовать в другие вектора, которые уже будут иметь нужные нам свойства семантической близости.

После входного слоя, как и полагается в глубоких архитектурах, расположено несколько скрытых слоёв как для запроса, так и для заголовка. Последний слой размером в 128 элементов и служит вектором, который используется для сравнения. Выходом модели является результат скалярного умножения последних векторов заголовка и запроса (если быть совсем точным, то вычисляется косинус угла между векторами). Модель обучается таким образом, чтобы для положительны обучающих примеров выходное значение было большим, а для отрицательных - маленьким. Иначе говоря, сравнивая векторы последнего слоя, мы можем вычислить ошибку предсказания и модифицировать модель таким образом, чтобы ошибка уменьшилась.

Мы в Яндексе также активно исследуем модели на основе искусственных нейронных сетей, поэтому заинтересовались моделью DSSM. Дальше мы расскажем о своих экспериментах в этой области.

Теория и практика

Характерное свойство алгоритмов, описываемых в научной литературе, состоит в том, что они не всегда работают «из коробки». Дело в том, что «академический» исследователь и исследователь из индустрии находятся в существенно разных условиях. В качестве отправной точки (baseline), с которой автор научной публикации сравнивает своё решение, должен выступать какой-то общеизвестный алгоритм - так обеспечивается воспроизводимость результатов. Исследователи берут результаты ранее опубликованного подхода, и показывают, как их можно превзойти. Например, авторы оригинального DSSM сравнивают свою модель по метрике NDCG с алгоритмами BM25 и LSA . В случае же с прикладным исследователем, который занимается качеством поиска в реальной поисковой машине, отправной точкой служит не один конкретный алгоритм, а всё ранжирование в целом. Цель разработчика Яндекса состоит не в том, чтобы обогнать BM25, а в том, чтобы добиться улучшения на фоне всего множества ранее внедренных факторов и моделей. Таким образом, baseline для исследователя в Яндексе чрезвычайно высок, и многие алгоритмы, обладающие научной новизной и показывающие хорошие результаты при «академическом» подходе, оказываются бесполезны на практике, поскольку не позволяют реально улучшить качество поиска.

В случае с DSSM мы столкнулись с этой же проблемой. Как это часто бывает, в «боевых» условиях точная реализация модели из статьи показала довольно скромные результаты. Потребовался ряд существенных «доработок напильником», прежде чем мы смогли получить результаты, интересные с практической точки зрения. Здесь мы расскажем об основных модификациях оригинальной модели, которые позволили нам сделать её более мощной.

Большой входной слой

В оригинальной модели DSSM входной слой представляет собой множество буквенных триграмм. Его размер равен 30 000. У подхода на основе триграмм есть несколько преимуществ. Во-первых, их относительно мало, поэтому работа с ними не требует больших ресурсов. Во-вторых, их применение упрощает выявление опечаток и ошибок в словах. Однако, наши эксперименты показали, что представление текстов в виде «мешка» триграмм заметно снижает выразительную силу сети. Поэтому мы радикально увеличили размер входного слоя, включив в него, помимо буквенных триграмм, ещё около 2 миллионов слов и словосочетаний. Таким образом, мы представляем тексты запроса и заголовка в виде совместного «мешка» слов, словесных биграмм и буквенных триграмм.

Использование большого входного слоя приводит к увеличению размеров модели, длительности обучения и требует существенно больших вычислительных ресурсов.

Тяжело в обучении: как нейронная сеть боролась сама с собой и научилась на своих ошибках

Обучение исходного DSSM состоит в демонстрации сети большого количества положительных и отрицательных примеров. Эти примеры берутся из поисковой выдачи (судя по всему, для этого использовался поисковик Bing). Положительными примерами служат заголовки кликнутых документов выдачи, отрицательными - заголовки документов, по которым не было клика. У этого подхода есть определённые недостатки. Дело в том, что отсутствие клика далеко не всегда свидетельствует о том, что документ нерелевантен. Справедливо и обратное утверждение - наличие клика не гарантирует релевантности документа. По сути, обучаясь описанным в исходной статье образом, мы стремимся предсказывать аттрактивность заголовков при условии того, что они будут присутствовать в выдаче. Это, конечно, тоже неплохо, но имеет достаточно косвенное отношение к нашей главной цели - научиться понимать семантическую близость.

Во время своих экспериментов мы обнаружили, что результат можно заметно улучшить, если использовать другую стратегию выбора отрицательных примеров. Для достижения нашей цели хорошими отрицательными примерами являются такие документы, которые гарантированно нерелевантны запросу, но при этом помогают нейронной сети лучше понимать смыслы слов. Откуда их взять?

Первая попытка

Сначала в качестве отрицательного примера просто возьмём заголовок случайного документа. Например, для запроса [палехская роспись] случайным заголовком может быть «Правила дорожного движения 2016 РФ». Разумеется, полностью исключить то, что случайно выбранный из миллиардов документ будет релевантен запросу, нельзя, но вероятность этого настолько мала, что ей можно пренебречь. Таким образом мы можем очень легко получать большое количество отрицательных примеров. Казалось бы, теперь мы можем научить нашу сеть именно тому, чему хочется - отличать хорошие документы, которые интересуют пользователей, от документов, не имеющих к запросу никакого отношения. К сожалению, обученная на таких примерах модель оказалась довольно слабой. Нейронная сеть – штука умная, и всегда найдет способ упростить себе работу. В данном случае, она просто начала выискивать одинаковые слова в запросах и заголовках: есть - хорошая пара, нет - плохая. Но это мы и сами умеем делать. Для нас важно, чтобы сеть научилась различать неочевидные закономерности.

Ещё одна попытка

Следующий эксперимент состоял в том, чтобы добавлять в заголовки отрицательных примеров слова из запроса. Например, для запроса [палехская роспись] случайный заголовок выглядел как [Правила дорожного движения 2016 РФ роспись]. Нейронной сети пришлось чуть сложнее, но, тем не менее, она довольно быстро научилась хорошо отличать естественные пары от составленных вручную. Стало понятно, что такими методами мы успеха не добьемся.

Успех

Многие очевидные решения становятся очевидны только после их обнаружения. Так получилось и на этот раз: спустя некоторое время обнаружилось, что лучший способ генерации отрицательных примеров - это заставить сеть «воевать» против самой себя, учиться на собственных ошибках. Среди сотен случайных заголовков мы выбирали такой, который текущая нейросеть считала наилучшим. Но, так как этот заголовок всё равно случайный, с высокой вероятностью он не соответствует запросу. И именно такие заголовки мы стали использовать в качестве отрицательных примеров. Другими словами, можно показать сети лучшие из случайных заголовков, обучить её, найти новые лучшие случайные заголовки, снова показать сети и так далее. Раз за разом повторяя данную процедуру, мы видели, как заметно улучшается качество модели, и всё чаще лучшие из случайных пар становились похожи на настоящие положительные примеры. Проблема была решена.

Подобная схема обучения в научной литературе обычно называется hard negative mining. Также нельзя не отметить, что схожие по идее решения получили широкое распространение в научном сообществе для генерации реалистично выглядящих изображений, подобный класс моделей получил название Generative Adversarial Networks.

Разные цели

В качестве положительных примеров исследователи из Microsoft Research использовались клики по документам. Однако, как уже было сказано, это достаточно ненадежный сигнал о смысловом соответствии заголовка запросу. В конце концов, наша задача состоит не в том, чтобы поднять в поисковой выдаче самые посещаемые сайты, а в том, чтобы найти действительно полезную информацию. Поэтому мы пробовали в качестве цели обучения использовать другие характеристики поведения пользователя. Например, одна из моделей предсказывала, останется ли пользователь на сайте или уйдет. Другая – насколько долго он задержится на сайте. Как оказалось, можно заметно улучшить результаты, если оптимизировать такую целевую метрику, которая свидетельствует о том, что пользователь нашёл то, что ему было нужно.

Профит

Ок, что это нам дает на практике? Давайте сравним поведение нашей нейронной модели и простого текстового фактора, основанного на соответствии слов запроса и текста - BM25. Он пришёл к нам из тех времён, когда ранжирование было простым, и сейчас его удобно использовать за базовый уровень.

В качестве примера возьмем запрос [келлская книга] и посмотрим, какое значение принимают факторы на разных заголовках. Для контроля добавим в список заголовков явно нерелевантный результат.

Все факторы в Яндексе нормируются в интервал . Вполне ожидаемо, что BM25 имеет высокие значения для заголовков, которые содержат слова запроса. И вполне предсказуемо, что этот фактор получает нулевое значение на заголовках, не имеющих общих слов с запросом. Теперь обратите внимание на то, как ведет себя нейронная модель. Она одинаково хорошо распознаёт связь запроса как с русскоязычным заголовком релевантной страницы из Википедии, так и с заголовком статьи на английском языке! Кроме того, кажется, что модель «увидела» связь запроса с заголовком, в котором не упоминается келлская книга, но есть близкое по смыслу словосочетание («ирландские евангелия»). Значение же модели для нерелевантного заголовка существенно ниже.

Теперь давайте посмотрим, как будут себя вести наши факторы, если мы переформулируем запрос, не меняя его смысла: [евангелие из келлса].

Для BM25 переформулировка запроса превратилась в настоящую катастрофу - фактор стал нулевым на релевантных заголовках. А наша модель демонстрирует отличную устойчивость к переформулировке: релевантные заголовки по-прежнему имеют высокое значение фактора, а нерелевантный заголовок - низкое. Кажется, что именно такое поведение мы и ожидали от штуки, которая претендует на способность «понимать» семантику текста.

Ещё пример. Запрос [рассказ в котором раздавили бабочку].

Как видим, нейронная модель оказалась способна высоко оценить заголовок с правильным ответом, несмотря на полное отсутствие общих слов с запросом. Более того, хорошо видно, что заголовки, не отвечающие на запрос, но всё же связанные с ним по смыслу, получают достаточно высокое значение фактора. Как будто наша модель «прочитала» рассказ Брэдбери и «знает», что это именно о нём идёт речь в запросе!

А что дальше?

Мы находимся в самом начале большого и очень интересного пути. Судя по всему, нейронные сети имеют отличный потенциал для улучшения ранжирования. Уже понятны основные направления, которые нуждаются в активном развитии.

Например, очевидно, что заголовок содержит неполную информацию о документе, и хорошо бы научиться строить модель по полному тексту (как оказалось, это не совсем тривиальная задача). Далее, можно представить себе модели, имеющие существенно более сложную архитектуру, нежели DSSM - есть основания предполагать, что таким образом мы сможем лучше обрабатывать некоторые конструкции естественных языков. Свою долгосрочную цель мы видим в создании моделей, способных «понимать» семантическое соответствие запросов и документов на уровне, сравнимом с уровнем человека. На пути к этой цели будет много сложностей - тем интереснее будет его пройти. Мы обещаем рассказывать о своей работе в этой области. Cледите за следующими публикациями.

Коммерческие сайты теперь тщательней относятся к своей репутации, что не может не радовать, но многие все равно прибегали к грязным методам (искусственно завышали посещаемость и покупали отзывы). После выпуска алгоритма «Обнинск» более популярной стала закупка вечных ссылок и статей, обычная покупка ссылок уже так не влияла на ранжирование, как раньше, а в случае попадания источника бэклинка под санкции могла потянуть за собой цепную реакцию. Качественные СЕО-тексты — обязательный атрибут любого ресурса. Молодой сайт с уникальным и правильно оптимизированным контентом мог попасть в ТОП.

Ничего существенного в ранжировании сайтов сначала не изменилось. Единственное, что стало заметным — это появление вебресурсов с интерактивными блоками на первом месте и справа от поисковой выдачи. Если бы количество площадок, принимавших участие в бета-тестировании было значительным, они могли бы вытеснить обычные сайты за счет своей привлекательности и броскости для пользователей. Оптимизаторы задумались об улучшении видимости своего контента в поисковых результатах, добавляя больше фото, видео, рейтинги и отзывы. Лучше живется интернет-магазинам — корректно настроенные карточки товара могут быть отличным интерактивным «островком».

Минусинск

Алгоритм «Минусинск» — при определении SEO-ссылок как таковых, которые были куплены для искажения результатов ранжирования поиска, на сайт ложился фильтр, который существенно портил позиции сайта. Анонсирован «Минусинск» в апреле 2015, полностью вступил в свои права в мае этого же года. Именно с этим алгоритмом и связана знаменитая .

Особенности

Перед выходом «Минусинска» Яндекс в 2014 для тестирования отключил влияние SEO-ссылок по множеству коммерческих ключей в Москве и проанализировал результаты. Итог оказался предсказуемым — покупная ссылочная масса все еще используется, а для поисковой системы — это спам. Выпуск «Минусинска» знаменовался днем, когда владельцы сайтов должны были почистить свои ссылочные профили, а бюджет, который тратится на ссылочное продвижение, использовать для улучшения качества своего интернет-ресурса.

Результаты

«Авторитетные» сайты, которые добились ТОПа благодаря массовой закупке ссылок, вылетели из первых страниц, а некоторые получили санкции за нарушения правил. Качественные и молодые площадки, не наглеющие по бэклинкам, внезапно оказались в ТОП 10. «Попавшие под раздачу» вебсайты, нежелающие долго ждать, создавали новые площадки, перенося контент и ставя заглушку на старые, либо хитро шаманили с редиректом. Примерно через 3 месяца нашли дыру в алгоритме, позволяющую почти моментально снимать данный фильтр.

Массово начинает дорабатываться юзабилити и улучшаться контент. Ссылки закупаются с еще большей осторожностью, а контроль за бэклинками становится одной из функциональных обязанностей оптимизатора.

По данным на сегодня — при неумелой закупке ссылок — даже за 100 ссылок можно получить фильтр. Но если ссылочную массу правильно разбавлять, то смело можно покупать тысячи ссылок как и в старые добрые. То-есть, по сути — сильно выросли ссылочные бюджеты на это самое разбавление, в роли которого выступил крауд и упоминания.

Владивосток

Алгоритм «Владивосток» — внедрение в поиск технологии проверки сайта на полную совместимость с мобильными устройствами. Полный старт проекта произошел в феврале 2016 года.

Особенности

Яндекс сделал очередной шаг навстречу к мобильным пользователям. Специально для них был разработан алгоритм «Владивосток». Теперь для лучшего ранжирования в мобильном поиске сайт обязан соответствовать требованиям мобилопригодности. Чтобы опередить своих конкурентов в поисковой выдаче интернет-ресурс должен корректно отображаться на любом web-устройстве, включая планшеты и смартфоны. «Владивосток» проверяет отсутствие java и flash плагинов, адаптивность контента к расширению экрана (вместимость текста по ширине дисплея), удобство чтения текста и возможность комфортно нажимать на ссылки и кнопки.

Результаты

К запуску алгоритма «Владивосток» мобилопригодными оказались всего 18% сайтов — остальным пришлось быстренько избавляться от «тяжести» на страницах, которая не отображается или мешает корректно отображаться контенту на смартфонах и планшетах. Основным фактором, который влияет на понижение вебсайта в мобильной выдаче — это поведение мобильного пользователя. Во всяком случае, пока. Ведь идеально мобилопригодных сайтов не так уж много, поэтому свободные места в поиске занимают те, кто способен предоставить пользователю максимально комфортные условия, пусть даже не полностью. Из мобильного поиска неадаптированные к мобильным устройствам сайты не выбрасываются, а просто ранжируются ниже тех, кто достиг в улучшении качества предоставления услуг для смартпользователей лучших результатов. На данный момент самый популярный вид заказов макетов сайтов — адаптивные, а не мобильные, как можно было подумать. Прошедшие все требования алгоритма сайты получают максимальное количество мобильного трафика в своей нише.

Google: история создания и развития алгоритмов

Алгоритмы и фильтры Гугла и до сей поры не совсем поняты русскоязычным оптимизаторам. Для компании Google всегда важным моментом являлось скрытие подробностей по методам ранжирования, объясняя это тем, что «порядочным» сайтам боятся нечего, а «непорядочным» лучше не знать, что их ожидает. Поэтому про алгоритмы Гугла до сих слагают легенды и множество информации было получено только после того, как задавались вопросы поддержке, когда сайт проседал в поисковой выдаче. Мелких доработок у Google было столько, что и не перечесть, а на вопросы, что именно изменилось, зарубежная ПС просто отмалчивалась. Рассмотрим основные алгоритмы, которые влияли на позиции сайтов существенно.

Кофеин

Алгоритм «Кофеин» — на первой странице поиска может находиться сразу несколько страниц одного и того же сайта по бренду, появляется возможность пред просмотра. Запуск произошел в июне 2010 года.

Особенности

Выделение сайтов компаний, в случае поиска по бренду. Возле строки с выдачей появляется «лупа» для предосмотра. Ключевые слова по бренду дают положительную тенденцию роста на позициях интернет-ресурса в целом. Обновился индекс Page Rank, при этом PR повысился на известных и посещаемых площадках.

Результаты

Оптимизаторы стали больше уделять внимания брендированию вебсайтов, включая цветовые схемы, логотипы, названия. Ключевые слова на бренд по-особенному выделяли страницы сайта в поиске, а при переходе с такой фразы посетителя на главный page, его позиции в выдаче росли (если до этого ресурс был не лидером). СЕО-оптимизаторы стали закупать больше ссылок для повышения «цитированности». молодым и малоузнаваемым брендам практически невозможно было пробиться в ТОП выдачи.

Panda (Панда)

Алгоритм «Панда» — технология проверки сайта на качество и полезность контента, включая множество СЕО факторов. Сайты с «черным» SEO исключаются из поиска. Анонсирована «Panda» в январе 2012 года.

Особенности

«Панда» вышла в поиск и почистила его от мусора. Именно так можно сказать после того, как множество не релевантных ключевым запросам web-сайты исчезли из выдачи Google. Алгоритм обращает внимание на: переспам ключевыми словами и неравномерное их использование, уникальность контента, постоянство публикаций и обновления, активность пользователя и взаимодействие его с сайтом. Пролистывание посетителя страницы до конца со скоростью чтения считалось положительным фактором.

Результаты

После включения «Панды» огромное количество сайтов поддались санкциям с боку поисковой системы Google и поначалу все думали, что это связано с участием в ссылочных пирамидах и закупкой ссылочных масс. В итоге, СЕОоптимизаторы провели процесс тестирования алгоритма и проанализировали влияние. Вывод экспериментов заключался в том, что «Панда» все-таки проверяет качество сайта на ценность для посетителей. Интернет-ресурсы перестали копипастить и активно принялись за копирайтинг. Поведенческие факторы улучшались за счет преобразования структуры сайта в более удобные варианты, а перелинковка внутри статей с помощью особых выделений стала важной частью оптимизации. Популярность SEO как услуги стремительно возросла. Замечено, что сайты, не соответствующие правилам «Панды», исчезали из поиска очень быстро.

Page Layout (Пейдж Лайот)

Алгоритм «Пейдж Лайот» — технология по борьбе с поисковым спамом, подсчитывающая на страницах web-сайтов соотношение полезного контента к спамному. Запущен в январе 2012 и обновлялся до 2014 включительно.

Особенности

«Page Layout» был создан после многочисленных жалоб пользователей на недобросовестных владельцев сайтов, у которых на страницах подходящего контента было совсем мало или искомые данные оказывались труднодоступными, а иногда вообще отсутствовали. Алгоритм рассчитывал в процентном соотношении нахождение на странице по входящему запросу релевантного контента и спама. На несоответствующие требованиям площадки накладывались санкции и сайт выбрасывался из поиска. К несоблюдению правил размещения документов также относилось забитая рекламой шапка сайта, когда для просмотра текста требовалось перейти на второй экран.

Результаты

Слишком заспамленные рекламой сайты слетели со своих позиций, даже при том, что контент на страницах был оптимизирован под ключевые слова в меру. Нерелевантные запросам страницы были понижены в поисковой выдаче. Но площадок нагло не соблюдая правила и не беспокоясь о комфортности посетителей оказалось не так уже и много. За три обновления алгоритма приблизительное количество ресурсов, попавших под фильтр, оказалось не более 3%.

(Венеция)

Алгоритм «Венеция» — геопривязка сайта к определенному региону, учитывая при этом наличие названий городов на страницах сайта. Запущен в феврале 2012 года.

Особенности

«Венеция» требовала от вебмастеров наличие на их сайтах страницы «О нас», с указанием адреса местоположения, не обращая при этом внимания, что фактического расположения у компании могло и не быть. В контексте алгоритм искал названия городов, чтобы вывести отдельную страницу по указанному в нем региону. Начала использоваться разметка schema-creator.org, чтобы пояснить поисковому роботу свою географическую привязанность.

Результаты

Сайты выпали в поисковой выдаче по тем регионам, о которых они не упоминают на своих страницах, не учитывая геонезависимые запросы. Оптимизаторы активно включают геозависимые ключевые слова и пытаются создавать микроразметку. Контент на каждой странице персонализируется под каждый конкретный город или регион в целом. Активно стал использоваться локализированный линкбилдинг, чтобы повышать позиции по выбранному региону.

(Пингвин)

Алгоритм «Пингвин» — умная технология определения веса сайтов и качества обратных ссылок. Система редактирования накрученных показателей авторитетности интернет-ресурсов. Запущена в поиск в апреле 2012.

Особенности

«Пингвин» нацелен на войну с закупкой обратных ссылок, неестественным, то есть искусственным, набором авторитетности сайта. Алгоритм формирует свою базу значимых ресурсов, исходя от качества бэклинков. Побуждением на запуск «Пингвина» являлось появление ссылочных оптимизаторов, когда любая ссылка на вебресурс имела одинаковый вес и подымала такой сайт в поисковой выдаче. Кроме этого, в поиске начали ранжироваться наравне со стандартными интернет-ресурсами обычные профили пользователей социальных сетей, что еще больше популяризовало раскрутку обычных сайтов с помощью социальных сигналов. Одновременно с этими возможностями алгоритма система стала бороться с нерелевантными вставками поисковых запросов в keywords и в названия доменов.

Результаты

Пингвин «попустил» множество сайтов в поисковой выдаче за неестественный рост обратных ссылок и нерелевантность контента к запросам пользователей. Значимость каталогов и площадок по продаже ссылок быстро снижалось к минимуму, а авторитетных ресурсов (новостных сайтов, тематических и околотематических площадок) росло на глазах. Из-за введения алгоритма «Пингвин» у, практически, всех публичных сайтов был пересчитан PR. Популярность массовой закупки бэклинков резко упала. Сайты максимально начали подгонять ключевые фразы к контенту на страницах площадок. Началась «мания релевантности». Установка социальных кнопок на страницах в виде модулей имела массовый характер за счет быстрой индексации аккаунтов социальных сетей в поиске.

Pirate (Пират)

Алгоритм «Пират» — технология реагирования на жалобы пользователей и выявления фактов нарушения авторских прав. Старт системы произошел в августе 2012 года.

Особенности

«Пират» принимал жалобы авторов на нарушение их авторских прав владельцами сайтов. Кроме текстов и картинок, основной удар на себя приняли площадки с видео-контентом, которые размещали пиратские съемки фильмов из кинотеатров. Описания и рецензии к видео тоже подверглись фильттрованию — теперь не разрешалось копипастить под страхом наложения санкций. За большое количество жалоб на сайт за нарушения, такая площадка выкидывалась из поисковой выдачи.

Результаты

По результатам первого месяца работы «Пирата» от Google на практически всех сайтах, включая видехостинги и онлайн-кинотеатры, были заблокированы к просмотру миллионы видео-файлов, нарушающих права правообладателей. Вебсайты, имеющие только пиратский контент, оказались под санкцией и выпали из поиска. Массовая зачистка от «ворованного» контента продолжается до сих пор.

HummingBird (Колибри)

Алгоритм «Колибри» — внедрение технологии понимания пользователя, когда запросы не соответствуют точным вхождениям. Запущена система «определения точных желаний» в сентябре 2013 года.

Особенности

Теперь пользователь не изменял фразу, чтобы конкретней найти нужную информацию. Алгоритм «Колибри» давал возможность не искать по прямым точным вхождениям, а выдавал результаты из базы «расшифровки пожеланий». Например, пользователь вбивал в поисковую строку фразу «места для отдыха», а «Колибри» ранжировала в поиске сайты с данными о санаториях, отелях, СПА-центрах, бассейнах, клубах. То есть в алгоритме были сгруппирована стандартная база с человеческими фразами об их описании. Понимающая система изменила поисковую выдачу существенно.

Результаты

С помощью технологии «Колибри» сеооптимизаторы смогли расширить свое семантическое ядро и получить больше пользователей на сайт за счет морфологических ключей. Ранжирование площадок уточнилось, потому что теперь учитывались не только вхождения прямых ключевых фраз и релевантных тексту запросов, но и околотематические пожелания пользователей. Появилось понятие LSI-копирайтинг — написание текста, учитывающего латентное семантическое индексирование. То есть теперь статьи писались не только со вставкой ключевых слов, но и максимально включая синонимы и околотематические фразы.

(Голубь)

Алгоритм «Голубь» — система локализации пользователей и привязки поисковой выдачи к месту нахождения. Технология запущена в июле 2014 года.

Особенности

Месторасположение пользователя теперь играло ключевую роль для выдачи результатов. Органический поиск превратился в сплошную геолокацию. Привязка сайтов к Гугл-картам сыграла особую роль. Теперь при запросе пользователя, алгоритм сначала искал ближайшие по местоположению сайты или таргетированный контент, далее шел на удаление от посетителя. Органическая выдача видоизменилась существенно.

Результаты

Локальные сайты быстро возвысились в поиске и получили местный трафик. Интернет-площадки без геозависимости упали в позициях. Снова началась борьба за каждый город и количественно возросли ситуации, когда начали плодить одинаковые сайты с отрерайченным контентом и привязкой к разной местности. До получения точной информации о внедрении алгоритма «Голубь» в русскоязычном интернет-поиске, многие вебмастера думали, что попали под санкции «Пингвина».

(Дружелюбный к мобильным устройствам)

Алгоритм Mobile-Friendly — внедрение технологии проверки сайтов на адаптивность к мобильным устройствам. Система запущена в апреле 2015 года и успела «обозваться» в интернете как: «Мобильный Армагеддон» (mobilegeddon), «Мобильный Апокалипсис» (mobilepocalyse, mobocalypse, mopocalypse).

Особенности

Mobile-Friendly запустил новую эру для мобильных пользователей, рекомендуя оптимизаторам в срочном порядке обеспечить комфортное пребывание мобильных посетителей на их сайтах. Адаптивность площадок к мобильным устройствам стала одним из важнейших показателей заботы владельцев сайтов о своих посетителях. Неадаптивным веб-площадкам пришлось в кратчайшие сроки исправлять недоработки: избавляться от плагинов, не поддерживающихся на планшетах и смартфонах, корректировать размер текста под расширение разных экранов, убирать модули, мешающие пребыванию посетителей с маленьким экранчиком перемещаться по сайту. Кто-то просто верстал отдельную мобильную версию своего интернет-ресурса.

Результаты

Заранее готовые к такому повороту ресурсы получили особое выделение среди других интернет-площадок в поисковой выдаче, а трафик из разнообразных не декстопных устройств на такие вебсайты повысился более чем на 25%. Совсем неадаптивные сайты были понижены в мобильном поиске. Направленность на мобильность сыграла свою роль — на ресурсах свели к минимуму наличие тяжелых скриптов, рекламы и страницы, естественно, начали грузиться быстрее, учитывая, что большинство пользователей с планшетами/смартфонами используют мобильный интернет, который в разы медленнее, чем стандартный.

Резюме

Вот и все

Теперь вам известно, как по годам развивался поиск как для обычных пользователей, так и для «попавших по раздачу» сайтов. Каждый из вышеперечисленных алгоритмов поиска периодически модернизируется. Но это не значит, что оптимизаторам и вебмастерам стоит чего-то бояться (если конечно вы не используете черное СЕО), но держать ухо востро все же стоит, чтобы неожиданно не просесть в поиске из-за очередного нового фильтра.