Как работает поисковый генеративный опыт и почему генерация с расширенным поиском — наше будущее
Поиск в том виде, в каком мы его знаем, безвозвратно изменился благодаря генеративному ИИ.
Быстрые улучшения в Google Search Generative Experience (SGE) и недавние заявления Сундара Пичаи о его будущем позволяют предположить, что он никуда не денется.
Резкое изменение в том, как информация рассматривается и отображается, ставит под угрозу эффективность поискового канала (как платного, так и обычного) и всех компаний, которые монетизируют свой контент. Это обсуждение природы этой угрозы.
Во время написания книги «Наука SEO» я продолжал углубляться в технологию поиска. Совпадение между генеративным ИИ и современным поиском информации представляет собой круг, а не диаграмму Венна.
Достижения в области обработки естественного языка (NLP), начавшиеся с улучшения поиска, дали нам модели большого языка (LLM) на основе преобразователей. LLM позволили нам экстраполировать контент в ответ на запросы на основе данных результатов поиска.
Давайте поговорим о том, как все это работает и как развиваются навыки SEO, чтобы это учитывать.
Что такое генерация с расширенным поиском?
Поколение с расширенным поиском (RAG) – это парадигма, в которой соответствующие документы или точки данных собираются на основе запроса или подсказки и добавляются в виде краткой подсказки для точной настройки ответа языковой модели.
Это механизм, с помощью которого языковая модель может быть «основана» на фактах или учиться на существующем контенте, чтобы производить более релевантный результат с меньшей вероятностью галлюцинаций.
Хотя рынок считает, что Microsoft представила эту инновацию с новым Bing, группа Facebook AI Research впервые опубликовала эту концепцию в мае 2020 года в статье «Поисковая генерация для наукоемких задач НЛП», представленной на конференции NeurIPS. Тем не менее, Neeva была первой, кто внедрил это в крупную общедоступную поисковую систему, предоставив ей впечатляющие и очень конкретные избранные фрагменты.
Эта парадигма меняет правила игры, поскольку, хотя студенты LLM и могут запоминать факты, они «заблокированы в информации» на основе данных своего обучения. Например, информация ChatGPT исторически была ограничена до сентября 2021 года.
Модель RAG позволяет учитывать новую информацию для улучшения результатов. Это то, что вы делаете, когда используете функцию поиска Bing или сканируете в реальном времени в плагине ChatGPT, таком как AIPRM.
Эта парадигма также является лучшим подходом к использованию LLM для создания более качественного контента. Я ожидаю, что больше людей будут следить за тем, что мы делаем в моем агентстве, когда они создают контент для своих клиентов, поскольку знание этого подхода становится все более распространенным.
Как работает RAG?
Представьте, что вы студент, который пишет исследовательскую работу. Вы уже прочитали множество книг и статей по своей теме, поэтому у вас есть контекст для широкого обсуждения предмета, но вам все равно нужно найти некоторую конкретную информацию для подтверждения своих аргументов.
Вы можете использовать RAG как научного сотрудника: вы можете дать ему подсказку, и он извлечет наиболее актуальную информацию из своей базы знаний. Затем вы можете использовать эту информацию для создания более конкретного, стилистически точного и менее скучного результата. LLM позволяют компьютерам возвращать общие ответы, основанные на вероятностях. RAG позволяет дать более точный ответ и указать его источники.
Реализация RAG состоит из трех компонентов:
Кодировщик ввода: этот компонент кодирует приглашение ввода в серию векторных вложений для последующих операций.
Нейронный ретривер. Этот компонент извлекает наиболее релевантные документы из внешней базы знаний на основе закодированного запроса на ввод. Когда документы индексируются, они разбиваются на части, поэтому в процессе поиска к подсказке добавляются только наиболее релевантные фрагменты документов и/или графики знаний. Другими словами, поисковая система выдает результаты, которые можно добавить в подсказку.
Генератор вывода: этот компонент генерирует окончательный выводимый текст с учетом закодированного приглашения ввода и полученных документов. Обычно это базовый LLM, такой как ChatGPT, Llama2 или Claude.
Чтобы сделать это менее абстрактным, подумайте о реализации Bing в ChatGPT. Когда вы взаимодействуете с этим инструментом, он принимает ваше приглашение, выполняет поиск для сбора документов, добавляет к приглашению наиболее релевантные фрагменты и выполняет его.
Все три компонента обычно реализуются с использованием предварительно обученных трансформеров — типа нейронной сети, которая доказала свою эффективность в задачах обработки естественного языка. Опять же, инновация Google Transformer сегодня питает целый новый мир НЛП/У/Г. Трудно придумать что-либо в этой области, на чем не было бы отпечатков пальцев команды Google Brain and Research.
Кодер ввода и генератор вывода точно настраиваются для выполнения конкретной задачи, например ответа на вопрос или обобщения. Neural Retriever обычно не имеет точной настройки, но его можно предварительно обучить на большом массиве текста и кода, чтобы улучшить его способность извлекать соответствующие документы.
RAG обычно выполняется с использованием документов в векторном индексе или графах знаний. Во многих случаях графы знаний (KG) являются более эффективной и действенной реализацией, поскольку они ограничивают добавляемые данные только фактами.
Совпадение между KG и LLM показывает симбиотические отношения, которые раскрывают потенциал обоих. Поскольку многие из этих инструментов используют KG, сейчас самое время подумать о том, чтобы использовать графики знаний как нечто большее, чем нечто большее, чем что-то, что мы просто предоставляем данные в Google для создания.
Подводные камни RAG
Преимущества RAG довольно очевидны; вы получаете лучший результат автоматически, расширяя знания, доступные языковой модели. Что, возможно, менее очевидно, так это то, что все еще может пойти не так и почему. Давайте углубимся:
Извлечение – решающий момент
Послушайте, если поисковая часть RAG не работает, у нас проблемы. Это все равно, что послать кого-то за изысканным чизстейком из Barclay Prime, а он вернется с овощным сэндвичем из Subway – а это не то, что вы просили.
Если вы возвращаете неправильные документы или пропускаете золото, результат будет немного… ну… тусклым. Это по-прежнему мусор на входе и мусор на выходе.
Все дело в этих данных
У этой парадигмы есть небольшая проблема с зависимостями – и все дело в данных. Если вы работаете с набором данных, который так же устарел, как MySpace, или просто не достигает цели, вы ограничиваете возможности этой системы.
Оповещение об эхокамере
Погрузитесь в эти найденные документы, и вы, возможно, увидите некоторое дежавю. Если есть совпадение, модель будет звучать как тот друг, который рассказывает одну и ту же историю на каждой вечеринке.
В ваших результатах появится некоторая избыточность, а поскольку SEO основан на подражательном контенте, вы можете получить плохо исследованный контент, определяющий ваши результаты.
Ограничение длины запроса
Подсказка не может быть длинной, и хотя вы можете ограничить размер фрагментов, это все равно может быть похоже на попытку вместить сцену для последнего мирового турне Бейонсе в Mini-Cooper. На сегодняшний день только Claude от Anthropic поддерживает контекстное окно на 100 000 токенов. Максимальное количество токенов GPT 3.5 Turbo составляет 16 000.
Выход за рамки сценария
Даже несмотря на все ваши титанические усилия по поиску информации, это не означает, что LLM будет придерживаться сценария. Он все еще может галлюцинировать и ошибаться.
Я подозреваю, что это некоторые причины, по которым Google не применил эту технологию раньше, но раз уж они наконец-то включились в игру, давайте поговорим об этом.
Анонсы наших новых статей в Телеграме