26% из 100 лучших веб-сайтов сейчас блокируют GPTBot
Согласно обновленному анализу, по крайней мере 26 из 100 самых популярных веб-сайтов (и 242 из 1000 самых популярных) в настоящее время блокируют GPTBot, об этом сообщил веб-сканер OpenAI 7 августа.
Это на 250% больше, чем в прошлом месяце, когда только 69 из 1000 крупнейших веб-сайтов заблокировали GPTBot, согласно обновленному анализу сервиса AI-контента и плагиата Originality.ai.
Почему нас это волнует. Блокировать или не блокировать ChatGPT? Это был большой вопрос для многих оптимизаторов, поскольку ChatGPT не цитирует и не ссылается на свои источники. Мы разрешили поисковым системам сканировать наш контент, потому что в этом есть очевидная потенциальная выгода — мы получаем трафик через прямые ссылки/цитаты. Очевидно, что еще больше самых популярных веб-сайтов решили заблокировать GPTBot, предположительно потому, что они не хотят, чтобы OpenAI собирал их данные для обучения своих моделей – по крайней мере, без какой-либо компенсации.
12 популярных веб-сайтов теперь блокируют GPTBot. Среди новинок из топ-100 самых популярных сайтов за последний месяц, большинство из которых публикуют новости и информацию:
pinterest.com
действительно.com
theguardian.com
sciencedirect.com
usatoday.com
stackexchange.com
alamy.com
webmd.com
словарь.com
Washingtonpost.com
npr.org
cbsnews.com
Один большой разворот. Интересно, что Foursquare, который блокировал GPTBot в прошлом месяце, больше не блокирует.
А как насчет CCbot? Веб-сканер Common Crawl по-прежнему блокируется реже – всего 130 веб-сайтами. Напоминаем, что Common Crawl предоставляет часть обучающих данных, используемых OpenAI, Google и другими.
109 из 1000 крупнейших веб-сайтов блокируют как GPTBot, так и CCbot.
Ограничения. 67 файлов robots.txt из 1000 веб-сайтов не были идентифицированы/проверены в рамках этого анализа. (Поэтому я написал «по крайней мере» в первом предложении.)
Обновленный анализ Originality.ai. Веб-сайты, которые заблокировали GPTBot OpenAI – исследование 1000 веб-сайтов
Копайте глубже. Следует ли заблокировать плагину веб-браузера ChatGPT доступ к вашему веб-сайту?
Анонсы наших новых статей в Телеграме