Системы оценки качества и алгоритмические системы оценки: грядут ли серьезные изменения?

На протяжении десятилетий краудсорсинговые оценщики качества были основой алгоритмического процесса оценки поисковых систем. Тем не менее, на горизонте могут быть потенциальные кардинальные изменения в области исследований и производства.

Недавние новаторские исследования Bing (некоторые из которых уже предполагаемы к коммерческому внедрению) и резкий рост тесно связанных с ними исследований в области поиска информации, проводимых другими, указывают на то, что грядут большие потрясения.

Эти встряски могут иметь далеко идущие последствия как для армии оценщиков качества, так и, возможно, для частоты появления обновлений алгоритмов.

Важность оценки

Помимо сканирования, важным процессом оценки является индексирование, ранжирование и предоставление результатов поисковым системам.

Насколько хорошо текущий или предлагаемый набор результатов поиска или экспериментальный дизайн соответствуют общеизвестному субъективному понятию релевантности данному запросу в данный момент времени для потребностей конкретного пользователя поисковой системы в контекстной информации ?

Поскольку мы знаем, что релевантность и цель многих запросов постоянно меняются, а также меняется то, как пользователи предпочитают потреблять информацию, страницы результатов поиска также должны меняться, чтобы соответствовать как намерениям искателя, так и предпочтительному пользовательскому интерфейсу.

Некоторые изменения имеют предсказуемые, временные и периодические изменения намерений запроса. Например, в период, приближающийся к Черной пятнице, многие запросы, которые обычно считаются информационными, могут привести к радикальным изменениям коммерческих намерений. Аналогично, транспортный запрос, такой как [Ливерпуль, Манчестер], может перейти к спортивному запросу в дни местных матчей-дерби.

В таких случаях постоянно расширяющееся наследие исторических данных поддерживает высокую вероятность того, что пользователи считают более значимые результаты, хотя и временно. Эти уровни уверенности, вероятно, приводят к сезонным или другим предсказуемым периодическим результатам и временному изменению дизайна пользовательского интерфейса, что позволяет поисковым системам внести относительно простые корректировки.

Однако, когда дело доходит до более широких понятий развития «релевантности» и «качества», а также в целях экспериментальных изменений дизайна, поисковые системы должны знать, что предлагаемое изменение рейтинга после разработки поисковыми инженерами действительно лучше и эффективнее. более точно соответствует информационным потребностям, чем полученные настоящие результаты.

Оценка – это важный этап в эволюции результатов поиска, который жизненно важен для обеспечения уверенности в предлагаемых изменениях, а также получения существенных данных для любых корректировок (алгоритмической настройки) предлагаемых «систем», если это необходимо.

Оценка — это этап, когда люди «входят в цикл» (офлайн и онлайн), чтобы различными способами предоставить обратную связь перед внедрением в рабочую среду.

Это не означает, что оценка не является постоянной частью поиска продукции. Это. Тем не менее, постоянная оценка существующих результатов и активности пользователей, скорее всего, позволит оценить, насколько хорошо реализованное изменение продолжает работать в производстве по сравнению с приемлемым диапазоном показателей, основанных на релевантности (или удовлетворенности). Диапазон показателей, основанный на первоначальных оценках релевантности, представленных экспертами.

В статье 2022 года под названием «Толпа состоит из людей: наблюдения на основе крупномасштабной маркировки толпы» Томас и др., исследователи из Bing, намекают на постоянное использование таких диапазонов показателей в производственной среде. при ссылке на отслеживаемый компонент веб-поиска, «частично оцениваемый на основе оценок на основе RBP, рассчитываемых ежедневно по десяткам тысяч представленных судьями ярлыков». (RBP означает ранговую точность).

Человек в цикле (HITL)

Метки данных и маркировка

Важный момент, прежде чем мы продолжим. В этой статье я буду часто упоминать этикетки и маркировку, а разъяснение того, что подразумевается под этикетками и маркировкой, облегчит понимание остальной части этой статьи:

Прежде чем продолжить, я приведу вам пару примеров из реальной жизни, с которыми большинство людей будут знакомы, чтобы обеспечить более широкое понимание аудитории:

Вы когда-нибудь проверяли учетную запись Gmail и отмечали что-то как спам?

Вы когда-нибудь отмечали фильм на Netflix как «Не для меня», «Мне это нравится» или «Мне это нравится»?

Все эти отправленные вами действия создают метки данных, используемые поисковыми системами или системами поиска информации. Да, даже у Netflix есть огромная база в области поиска информации и отличный инструмент для исследовательской группы по поиску информации. (Обратите внимание, что Netflix — это одновременно и инструмент поиска информации с сильным подмножеством этого поля, называемым «рекомендательными системами».)

Отмечая «Не для меня» на фильме Netflix, вы предоставили метку данных. Вы стали разметчиком данных, чтобы помочь «системе» лучше понять, что вам нравится (а также что нравится людям, похожим на вас), а также помочь Netflix обучать и настраивать свои системы рекомендаций.

Метки данных окружают нас повсюду. Маркирует данные разметки, чтобы их можно было преобразовать в математические формы для измерения в масштабе.

Огромное количество этих меток и «маркировок» в области информационного поиска и машинного обучения используются в качестве обучающих данных для машинного обучения.

«Это изображение отмечено как кошка».

«Это изображение отмечено как собака… кошка… собака… собака… собака… кошка» и т. д.

Все ярлыки помогают машинам узнать, как выглядят собаки или кошки, и имеется достаточное количество примеров изображений, помеченных как кошки или собаки.

Маркировка не нова; оно существует уже много столетий с тех пор, как произошла первая классификация предметов. Метка присваивалась, когда что-то помечалось как находящееся в «подмножестве» или «наборе вещей».

К чему-либо «классифицированному» фактически прикреплена метка, и человек, пометивший элемент как принадлежащий к этой конкретной классификации, считается маркировщиком.

Но если вернуться в недавнее время, то, пожалуй, самым известным примером разметки данных является reCAPTCHA. Каждый раз, когда мы выбираем маленькие квадратики на сетке изображений, мы добавляем метки и сами являемся маркировщиками.

Мы, люди, «входим в цикл» и предоставляем обратную связь и данные.

Завершив это объяснение, давайте перейдем к различным способам получения меток данных и обратной связи, в частности, обратной связи о «релевантности» запросам для настройки алгоритмов или оценки экспериментального дизайна поисковых систем.

р>

Неявная и явная обратная связь по оценке

Хотя Google называет свои системы оценки в документах, предназначенных для нетехнической аудитории, «тщательным тестированием», оценка с участием человека при поиске информации широко осуществляется посредством неявной или явной обратной связи.

Неявная обратная связь

При неявной обратной связи пользователь не осознает, что оставляет отзыв. Многие эксперименты с поисковым трафиком в реальном времени (то есть тесты в реальных условиях) поисковые системы проводят на крошечных сегментах реальных пользователей (всего 0,1%), а последующий анализ данных о кликах, прокрутке пользователем, времени пребывания и пропуске результатов попадает в категорию Категория неявной обратной связи.

Помимо живых экспериментов, постоянное поведение реальных пользователей поисковых систем при нажатии, прокрутке и просмотре страниц также может представлять собой неявную обратную связь и, вероятно, учитываться в моделях кликов «Обучение ранжированию (LTR)».

Это, в свою очередь, приводит к обоснованию предлагаемых изменений алгоритмической релевантности, поскольку вневременные изменения в поведении поисковика и изменения в мире приводят к появлению невидимых запросов и новому значению запросов.

В SEO уже давно ведутся споры о том, следует ли изменять рейтинг непосредственно перед дальнейшей оценкой на основе данных о неявных кликах. Я не буду освещать это здесь, а лишь скажу, что существует значительная осведомленность об огромной предвзятости и шуме, которые сопровождают необработанные данные о кликах в области исследований по поиску информации, а также об огромных проблемах, связанных с их постоянным использованием в реальных средах. Таким образом, многие исследования посвящены предложенным моделям кликов для беспристрастного обучения ранжированию и обучения ранжированию с предвзятостью.

Несмотря на это, в целом при поиске информации ни для кого не секрет, насколько важны данные о кликах для целей оценки. Существует бесчисленное множество статей и даже книг по IR, написанных в соавторстве с членами исследовательской группы Google, например «Модели кликов для веб-поиска» (Чуклин и Де Рийке, 2022).

Google также открыто заявляет в своей статье о «тщательном тестировании»:

"Мы анализируем очень длинный список показателей, таких как то, на что люди нажимают, сколько запросов было выполнено, были ли запросы отменены, сколько времени потребовалось людям, чтобы нажать на результат и т. д. 

р>

И так цикл продолжается. Обнаружены необходимые изменения: от обучения до ранжирования, применения модели кликов, проектирования, оценки, обнаруженных необходимых изменений, применения модели кликов, разработки, оценки и т. д.

Явная обратная связь

В отличие от неявной обратной связи от ничего не подозревающих пользователей поисковых систем (в реальных экспериментах или при обычном использовании), явная обратная связь поступает от активно осведомленных участников или специалистов по маркировке релевантности.

Целью сбора релевантных данных является математическое обобщение и корректировка предлагаемых систем в целом.

В конечном итоге ведется поиск золотого стандарта маркировки релевантности, который считается близким к основной истине (т. е. реальности реального мира) намерения для сопоставления запросов.

Существуют различные способы определения золотого стандарта релевантной маркировки. Однако серебряный стандарт (менее точный, чем золотой, но более широко доступный) часто приобретается (и принимается) и, вероятно, используется для помощи в дальнейшей настройке.

Явная обратная связь принимает четыре основных формата. У каждого из них есть свои преимущества и недостатки, в основном связанные с качеством релевантной маркировки (по сравнению с золотым стандартом или достоверностью) и масштабируемостью подхода.

Реальные пользователи в сеансах обратной связи с группами обратной связи

Исследовательские группы пользователей поисковых систем и реальные пользователи, работающие в разных контекстах в разных странах, совместно проводят сеансы обратной связи с пользователями, чтобы предоставить метки релевантных данных для запросов и их намерений.

Этот формат, вероятно, соответствует золотому стандарту релевантности. Однако этот метод не масштабируем из-за того, что он отнимает много времени, а число участников никогда не может быть хоть сколько-нибудь репрезентативным для более широкой поисковой группы в целом.

Настоящие профильные эксперты/тематические эксперты/профессиональные аннотаторы

Настоящие эксперты в предметной области и профессиональные оценщики релевантности обеспечивают релевантность сопоставлений запросов, аннотированных к их намерениям при маркировке данных, включая множество нюансов.

Поскольку они являются авторами запроса к сопоставлению намерений, они знают точное намерение, и этот тип маркировки, вероятно, считается близким к золотому стандарту. Однако этот метод, аналогичный формату групп по исследованию обратной связи с пользователями, не масштабируется из-за нехватки меток релевантности и, опять же, трудоемкости этого процесса.

Этот метод более широко использовался до того, как в последнее время был введен более масштабируемый подход краудсорсинговых оценщиков человеческих качеств (в дальнейшем).

Поисковые системы просто спрашивают реальных пользователей, актуально ли что-то или полезно

Настоящих пользователей поисковых систем активно спрашивают, являются ли результаты поиска полезными (или релевантными) со стороны поисковых систем, и они сознательно предоставляют явную двоичную обратную связь в форме ответов «да» или «нет» с недавними изменениями дизайна «палец вверх», замеченными в дикой природе.

Оценщики человеческих качеств, полученные из краудсорсинга

Основным источником откровенной обратной связи является «толпа». Крупнейшие поисковые системы имеют огромное количество краудсорсинговых оценщиков качества персонала, прошедших определенную подготовку и справочники и нанятых через внешних подрядчиков, работающих удаленно по всему миру.

Только в Google насчитывается 16 000 таких оценщиков качества. Эти краудсорсинговые средства маркировки релевантности и программы, частью которых они являются, в каждой поисковой системе упоминаются по-разному.

Google называет своих участников «оценщиками качества» в программе «Quality Raters», а сторонний подрядчик называет программу Google по релевантности веб-поиска «Проектом Юкон».

Bing называет своих участников просто «судьями» в Системе релевантности человека (HRS), а сторонние подрядчики называют проект Bing просто «оценщиком веб-контента».

Несмотря на эти различия, цели участников в основном одинаковы. Роль краудсорсингового оценщика качества заключается в предоставлении синтетических меток релевантности, имитирующих пользователей поисковых систем по всему миру, в рамках явной алгоритмической обратной связи. Обратная связь часто принимает форму параллельного (парного) сравнения предлагаемых изменений с существующими системами или с другими предлагаемыми системными изменениями.

Поскольку большая часть этой работы считается оценкой в ​​автономном режиме, сравниваются не всегда результаты поиска в реальном времени, а также изображения результатов. И это не всегда попарное сравнение.

Это лишь некоторые из множества различных типов задач, которые специалисты по оценке качества выполняют для оценки и маркировки данных через сторонних подрядчиков. Судьи по релевантности, вероятно, будут постоянно следить за внедрением предложенных изменений и в производственный поиск. (Например, как упоминается в вышеупомянутом исследовании Bing.)

Каким бы ни был метод получения обратной связи, человеческая оценка релевантности (скрытая или явная) играет важную роль перед многочисленными обновлениями алгоритмов (например, только в 2022 году Google выпустила более 4700 изменений), включая теперь все более частые широкие основные обновления, которые в конечном итоге представляют собой пересмотренную общую оценку фундаментальной значимости.

Анонсы наших новых статей в Телеграме

Read More

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Капча загружается...