Десятки крупных брендов заблокировали GPTBot, новый веб-сканер OpenAI
Согласно новому анализу, по крайней мере 69 из 1000 самых популярных веб-сайтов в мире заблокировали GPTBot, новый веб-сканер OpenAI, представленный 7 августа.
По данным сервиса AI по контенту и плагиату Originality.ai, процент сайтов увеличивается примерно на 5 % в неделю.
Почему нас это волнует. Блокировать или не блокировать ChatGPT? Это был большой вопрос для многих SEO-специалистов. Очевидно, что несколько популярных веб-сайтов уже заблокировали GPTBot, предположительно потому, что они не хотят, чтобы OpenAI собирал их данные для обучения своих моделей – по крайней мере, не без компенсации. Кроме того, ChatGPT не цитирует и не ссылается на свои источники.
В цифрах. Согласно анализу, 15 самых популярных сайтов, блокирующих ChatGPT:
amazon.com
quora.com
nytimes.com
shutterstock.com
wikihow.com
cnn.com
foursquare.com
healthline.com
scribd.com
businessinsider.com
reuters.com
medicalnewstoday.com
goodhousekeeping.co
amazon.co.uk
tumblr.com
Но. Несмотря на то, что многие сайты блокируют GPTBot, они не блокируют CCbot, веб-сканер Common Crawl. Часть обучающих данных, используемых OpenAI, Google и другими, поступает из Common Crawl.
Есть несколько примечательных исключений, например газета New York Times, которая не хочет, чтобы ее контент использовался для обучения систем искусственного интеллекта. Другие популярные веб-сайты, блокирующие CCbot, включают Shutterstock.com, Reuters.com и Goodhousekeeping.com.
Ограничения. 241 файл robots.txt не был идентифицирован/проверен в рамках этого анализа. (Поэтому я написал «по крайней мере» в первом предложении.)
Анализ Originality.ai. Веб-сайты, которые заблокировали GPTBot OpenAI – исследование 1000 веб-сайтов
Копайте глубже. Следует ли заблокировать плагину веб-браузера ChatGPT доступ к вашему веб-сайту?
Анонсы наших новых статей в Телеграме