Десятки крупных брендов заблокировали GPTBot, новый веб-сканер OpenAI

Согласно новому анализу, по крайней мере 69 из 1000 самых популярных веб-сайтов в мире заблокировали GPTBot, новый веб-сканер OpenAI, представленный 7 августа.

По данным сервиса AI по контенту и плагиату Originality.ai, процент сайтов увеличивается примерно на 5 % в неделю.

Почему нас это волнует. Блокировать или не блокировать ChatGPT? Это был большой вопрос для многих SEO-специалистов. Очевидно, что несколько популярных веб-сайтов уже заблокировали GPTBot, предположительно потому, что они не хотят, чтобы OpenAI собирал их данные для обучения своих моделей – по крайней мере, не без компенсации. Кроме того, ChatGPT не цитирует и не ссылается на свои источники.

В цифрах. Согласно анализу, 15 самых популярных сайтов, блокирующих ChatGPT:

amazon.com

quora.com

nytimes.com

shutterstock.com

wikihow.com

cnn.com

foursquare.com

healthline.com

scribd.com

businessinsider.com

reuters.com

medicalnewstoday.com

goodhousekeeping.co

amazon.co.uk

tumblr.com

Но. Несмотря на то, что многие сайты блокируют GPTBot, они не блокируют CCbot, веб-сканер Common Crawl. Часть обучающих данных, используемых OpenAI, Google и другими, поступает из Common Crawl.

Есть несколько примечательных исключений, например газета New York Times, которая не хочет, чтобы ее контент использовался для обучения систем искусственного интеллекта. Другие популярные веб-сайты, блокирующие CCbot, включают Shutterstock.com, Reuters.com и Goodhousekeeping.com.

Ограничения. 241 файл robots.txt не был идентифицирован/проверен в рамках этого анализа. (Поэтому я написал «по крайней мере» в первом предложении.)

Анализ Originality.ai. Веб-сайты, которые заблокировали GPTBot OpenAI – исследование 1000 веб-сайтов

Копайте глубже. Следует ли заблокировать плагину веб-браузера ChatGPT доступ к вашему веб-сайту?

Анонсы наших новых статей в Телеграме

Read More

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Капча загружается...