ChatGPT против Google Bard против Bing Chat против Клода: какое решение для генеративного искусственного интеллекта лучше?
В марте я опубликовал исследование генеративных платформ искусственного интеллекта, чтобы выяснить, какая из них лучше. С тех пор прошло десять месяцев, а ландшафт продолжает меняться.
ChatGPT OpenAI добавил возможность включать плагины.
Google Bard был усовершенствован Gemini.
Anthropic разработала собственное решение Claude.
Поэтому я решил повторить исследование, добавив больше тестовых запросов и изменив подход к оценке результатов.
Далее я привожу обновленный анализ того, какая платформа генеративного искусственного интеллекта является «лучшей», с разбивкой оценок по многочисленным категориям деятельности.
В этом исследовании протестировались следующие платформы:
Бард.
Bing Chat Balanced (обеспечивает «информативные и дружественные» результаты).
Bing Chat Creative (обеспечивает «творческие» результаты).
ChatGPT (на основе GPT-4).
Клод Про.
Я не включил SGE, поскольку он не всегда отображается в ответ на многие предполагаемые запросы Google.
Я также использовал графический интерфейс пользователя для всех инструментов. Это означало, что я не использовал GPT-4 Turbo — вариант, позволяющий внести некоторые улучшения в GPT-4, включая данные за апрель 2023 года. Это улучшение доступно только через API GPT-4.
Каждому генеративному ИИ был задан один и тот же набор из 44 разных вопросов по различным тематическим областям. Они были сформулированы в виде простых вопросов, а не тщательно продуманных подсказок, поэтому мои результаты скорее отражают то, как пользователи могут использовать эти инструменты.
TL;DR
Из протестированных инструментов по всем 44 запросам Bard/Gemini получил наилучшие общие оценки (хотя это не означает, что этот инструмент был явным победителем — подробнее об этом позже). Три запроса, которые отдали предпочтение Bard, были локальными поисковыми запросами, с которыми он справился очень хорошо, что привело к редкому идеальному результату 4 для двух из этих запросов.
Два протестированных мной решения Bing Chat существенно не оправдали моих ожиданий по местным запросам, поскольку они думали, что я нахожусь в Конкорде, штат Массачусетс, когда я был в Фалмуте, штат Массачусетс. (Эти два места находятся на расстоянии 90 миль друг от друга!) Bing также проиграл по некоторым показателям из-за того, что у него было чуть больше явных проблем с точностью, чем у Барда.
Положительным моментом для Bing является то, что это, безусловно, лучший инструмент для цитирования источников и дополнительных ресурсов для последующего чтения пользователем. ChatGPT и Claude обычно не пытаются этого сделать (из-за отсутствия текущей картины сети), а Bard делает это очень редко. Этот недостаток Барда — огромное разочарование.
Показания ChatGPT были снижены из-за сбоев в запросах, которые требовали:
Знание текущих событий.
Доступ к текущим веб-страницам.
Релевантность для локального поиска.
Установка плагина MixerBox WebSearchG сделала ChatGPT гораздо более конкурентоспособным в отношении текущих событий и чтения текущих веб-страниц. Результаты моих основных тестов были получены без этого плагина, но я провел с ним некоторые последующие тесты. О том, насколько улучшился ChatGPT, я расскажу ниже.
С использованным набором запросов Клод немного отставал от остальных. Однако не упускайте из виду эту платформу. Это достойный конкурент. Он хорошо обрабатывал многие запросы и очень хорошо создавал схемы статей.
Наш тест не выявил некоторых сильных сторон этой платформы, таких как загрузка файлов, принятие гораздо более крупных запросов и предоставление более подробных ответов (до 100 000 токенов — в 12 раз больше, чем ChatGPT). Есть классы, где Клод может стать для вас лучшей платформой.
Почему сложно дать быстрый ответ
Полное понимание сильных сторон каждого инструмента применительно к различным типам запросов необходимо для полной оценки, в зависимости от того, как вы хотите использовать эти инструменты.
Решения Bing Chat Balanced и Bing Chat Creative были конкурентоспособными во многих областях.
Аналогично, для запросов, которые не требуют текущего контекста или доступа к действующим веб-страницам, ChatGPT оказался подходящим и показал лучшие результаты в нескольких категориях в нашем тесте.
Категории протестированных запросов
Я попробовал относительно широкий спектр запросов. Вот некоторые из наиболее интересных классов:
Создание статьи (5 запросов)
Для этого класса запросов я оценивал, смогу ли я опубликовать его без изменений или сколько труда потребуется, чтобы подготовить его к публикации.
Я не нашел случаев, когда бы я опубликовал сгенерированную статью без изменений.
Биография (4 запроса)
Они были сосредоточены на получении биографии человека. Большинство из них также были запросами на устранение неоднозначности, поэтому они были довольно сложными.
Эти запросы были оценены на точность. Более длинные и подробные ответы для них не были обязательными.
Коммерческий (9 запросов)
Они варьировались от информационных до готовых к покупке. Для них я хотел увидеть качество информации, включая широту возможностей.
Устранение неоднозначности (5 запросов)
Пример: «Кто такой Дэнни Салливан?» ведь есть два известных человека с таким именем. Неспособность устранить неоднозначность привела к плохим оценкам.
Шутка (3 запроса)
Они были разработаны как оскорбительные по своей природе с целью проверить, насколько хорошо инструменты избегают предоставления мне того, о чем я просил.
Инструменты получали высшую оценку в 4 балла, если они отказывались рассказывать запрошенную шутку.
Медицинские (5 запросов)
Этот класс был протестирован, чтобы выяснить, подталкивают ли эти инструменты пользователя к рекомендациям врача, а также на точность и достоверность предоставляемой информации.
Описание статьи (5 запросов)
Целью этих работ было получить план статьи, который можно было бы предоставить автору для работы над созданием статьи.
Я не нашел случаев, когда бы я прошел по схеме без изменений.
Локальный (3 запроса)
Это были транзакционные запросы, идеальным ответом на которые было получение информации о ближайшем магазине, чтобы я мог что-нибудь купить.
Бард получил здесь очень высокие общие баллы, поскольку они правильно предоставили информацию о ближайших местах, карту, показывающую все места, и отдельные карты маршрутов к каждому указанному местоположению.
Анализ пробелов в контенте (6 запросов)
Эти запросы были направлены на анализ существующего URL-адреса и рекомендации по улучшению контента.
Я не указал контекст SEO, но инструменты, которые могут просматривать результаты поиска (Google и Bing), по умолчанию просматривают результаты с самым высоким рейтингом по запросу.
Высокие оценки были даны за полноту, а ошибочное определение чего-либо как пробела, когда он хорошо освещен в статье, приводило к минусовым баллам.
Система оценки
По всем рассмотренным ответам мы отслеживали следующие показатели:
Показатель 1: По теме
Измеряет, насколько близко содержание ответа соответствует цели запроса.
Оценка 1 здесь указывает на то, что выравнивание было верным, а оценка 4 указывает на то, что ответ не был связан с вопросом или что инструмент решил не отвечать на запрос.
По этому показателю только 1 балл считался сильным.
Показатель 2: Точность
Определяет, была ли информация, представленная в ответе, актуальной и правильной.
Оценка 1 присваивается, если все сказанное в сообщении соответствует запросу и соответствует действительности.
Пропуск ключевых моментов не приведет к снижению балла, поскольку этот балл ориентирован исключительно на представленную информацию.
Если ответ содержал значительные фактические ошибки или был совершенно не по теме, этому баллу будет присвоено минимально возможное значение — 4.
Единственным результатом, считающимся здесь сильным, также была оценка 1. В ответе нет места явным ошибкам (так называемым галлюцинациям).
Показатель 3: Полнота
Эта оценка предполагает, что пользователь ищет полный и исчерпывающий ответ, исходя из своего опыта.
Если бы ключевые моменты были опущены в ответе, это привело бы к более низкой оценке. Если бы в содержании были серьезные пробелы, результат был бы минимум 4 балла.
Для этого показателя мне требовалось, чтобы оценка 1 или 2 считалась сильной оценкой. Даже если вы упускаете пару незначительных моментов, которые могли бы высказать, ответ все равно можно считать полезным.
Показатель 4: Качество
Этот показатель измеряет, насколько хорошо запрос ответил намерениям пользователя и качество самого написания.
В конечном итоге я обнаружил, что все четыре инструмента пишут достаточно хорошо, но были проблемы с полнотой и галлюцинациями.
Нам требовался балл 1 или 2, чтобы этот показатель считался сильным.
Даже если текст не очень хорош, информация в ответах все равно может быть полезной (при условии, что у вас есть правильные процессы проверки).
Показатель 5: Ресурсы
Эта метрика оценивает использование ссылок на источники и дополнительное чтение.
Они повышают ценность сайтов, используемых в качестве источников, и помогают пользователям, предоставляя дополнительное чтение.
Первые четыре балла также были объединены в один общий показатель.
Причина не включения показателя «Ресурсы» в общий показатель заключается в том, что две модели (ChatGPT и Claude) не могут ссылаться на текущие ресурсы и не имеют текущих данных.
Использование совокупного показателя без учета ресурсов позволяет нам сопоставить эти две генеративные платформы искусственного интеллекта на равных с платформами, предоставляемыми поисковыми системами.
Тем не менее, предоставление доступа к дополнительным ресурсам и ссылкам на источники имеет важное значение для удобства пользователей.
Было бы глупо полагать, что один конкретный ответ на вопрос пользователя будет охватывать все аспекты того, что он ищет, если только вопрос не будет очень простым (например, сколько чайных ложек в столовой ложке).
Как отмечалось выше, реализация ссылок в Bing, возможно, делает это лучшее решение, которое я тестировал.
Сводная таблица оценок
На нашей первой диаграмме показан процент случаев, когда каждая платформа получала высокие оценки по теме, точности, полноте и качеству:
Исходные данные позволяют предположить, что Bard имеет преимущество перед конкурентами, но во многом это связано с несколькими конкретными классами запросов, по которым Bard существенно превосходит конкурентов.
Чтобы лучше это понять, мы рассмотрим оценки по категориям.
Оценки по категориям
Как мы уже подчеркивали выше, сильные и слабые стороны каждой платформы различаются в зависимости от категории запроса. По этой причине я также распределил баллы по категориям, как показано здесь:
В каждой категории (в каждой строке) я выделил победителя светло-зеленым цветом.
ChatGPT и Claude имеют естественные недостатки в областях, требующих доступа к веб-страницам или знания текущих событий.
Но даже по сравнению с двумя решениями Bing Бард показал себя намного лучше в следующих категориях:
Местный
Пробелы в контенте
Текущие события
Локальные запросы
В тесте было три локальных запроса. Это были:
Где ближайшая пиццерия?
Где купить роутер? (когда в той же теме не было задано других соответствующих вопросов).
Где купить роутер? (когда непосредственно предыдущий вопрос был о том, как использовать фрезерный станок, чтобы вырезать круглую столешницу – вопрос по деревообработке).
Когда я задавал вопрос о ближайшей пиццерии, я оказался в Фалмуте, и Bing Chat Balanced и Bing Chat Creative ответили, указав пиццерии в Конкорде — городе, который находится в 90 милях отсюда.
Вот ответ Bing Chat Creative:
Второй вопрос, на котором споткнулся Bing, касался второй версии «Где купить роутер?» вопрос.
Непосредственно перед этим вопросом я спросил, как использовать фрезерный станок, чтобы вырезать круглую столешницу.
Моя цель состояла в том, чтобы узнать, подскажет ли мне ответ, где я могу купить маршрутизаторы для деревообработки вместо интернет-маршрутизаторов. К сожалению, ни одно из решений Bing не уловило этот контекст.
Вот что для этого сбалансировано в Bing Chat:
Напротив, Бард справляется с этим запросом гораздо лучше:
Пробелы в контенте
Я попробовал шесть разных запросов, в которых просил инструменты выявить пробелы в существующем опубликованном контенте. Для этого потребовались инструменты для чтения и обработки страниц, изучения полученного HTML-кода и рассмотрения возможностей улучшения этих статей.
Похоже, что Bard справился с этой задачей лучше всех, за ним следуют Bing Chat Creative и Bing Chat Balanced. Как и в случае с протестированными локальными запросами, ChatGPT и Claude здесь не справились, поскольку требовался доступ к текущим веб-страницам.
Решения Bing, как правило, были менее комплексными, чем решения Bard, поэтому их оценки были немного ниже. Вы можете увидеть пример вывода Bing Chat Balanced здесь:
Я считаю, что большинство людей, вводящих этот запрос, имеют намерение обновить и улучшить содержание статьи, поэтому я искал здесь более полные ответы.
В этом Bard тоже не был идеален, но, похоже, он работал более комплексно, чем другие инструменты.
Я также настроен оптимистично, поскольку именно таким образом оптимизаторы могут использовать генеративные инструменты искусственного интеллекта для улучшения содержания сайта. Вам просто нужно понимать, что некоторые предложения могут быть не совсем верными.
Как всегда, привлеките эксперта в данной области и попросите его скорректировать рекомендации, прежде чем обновлять сам контент.
Текущие события
В набор тестов вошли три вопроса, связанных с текущими событиями. Они также не очень хорошо работали с ChatGPT и Claude, поскольку их наборы данных несколько устарели.
Bard набрал в этой категории средний балл 6,0, а Bing Chat Balanced оказался вполне конкурентоспособным со средним баллом 6,3.
Один из заданных вопросов гласил: «Дональду Трампу, бывшему президенту США, грозит осуждение по нескольким причинам. Как это повлияет на следующие президентские выборы?»
В ответах всех пяти инструментов были пробелы, но Бард справился лучше всех с общим баллом 6,0.
Два решения Bing немного отстают, получив оценку 8,0. Ответ Bing Chat Balanced был немного коротким, а ответ Bing Chat Creative содержал две фактические ошибки.
Анонсы наших новых статей в Телеграме