Раскрываем масштабную утечку документации Google по поиску

Массовая утечка документации по внутреннему рейтингу Google Поиска вызвала шок в SEO-сообществе. Утечка, в результате которой было раскрыто более 14 000 потенциальных функций ранжирования, дает беспрецедентную возможность заглянуть под капот тщательно охраняемой системы поискового ранжирования Google.

Человек по имени Эрфан Азими поделился утечкой документации Google API с Рэндом Фишкиным из SparkToro, который, в свою очередь, пригласил Майкла Кинга из iPullRank, чтобы тот помог ему распространить эту историю.

Утечка файлов произошла из коммита документа Google API под названием «yoshi-code-bot /elixer-google-api», что означает, что это не был взлом или разоблачитель.

SEO-специалисты обычно занимают три лагеря:

Все, что Google говорит SEO-специалистам, правда, и мы должны следовать этим словам как нашему Священному Писанию (я называю этих людей «Чирлидерами Google»).

Google — лжец, и нельзя доверять ничему, что говорит Google. (Я считаю их черными SEO-специалистами.)

Google иногда говорит правду, но вам нужно все проверить, чтобы увидеть, сможете ли вы это найти. (Я отождествляю себя с этим лагерем и назову это «рационализмом Билла Славски», поскольку именно он убедил меня в этой точке зрения).

Я подозреваю, что после этой утечки многие люди сменят свой лагерь.

Вы можете найти все файлы здесь, но вы должны знать, что существует более 14 000 возможных сигналов/функций ранжирования, и вам понадобится целый день (или, в моем случае, ночь), чтобы разобраться во всем.

р>

Я прочитал всю статью и превратил ее в 40-страничный PDF-файл, который сейчас конвертирую в резюме для Search Engine Land.

Я высказываю свои мысли и мнения, а также делюсь названиями конкретных функций ранжирования, чтобы вы могли самостоятельно выполнять поиск в базе данных. Я призываю каждого сделать свои собственные выводы.

Ключевые моменты из утечки документа Google Поиска

Ближайшее начальное число изменило PageRank (теперь устарело). Алгоритм называется pageRank_NS и связан с пониманием документа.

Google упоминает семь различных типов PageRank, одним из которых является знаменитый ToolBarPageRank.

У Google есть специальный метод определения следующих бизнес-моделей: новости, YMYL, личные блоги (небольшие блоги), электронная коммерция и видеосайты. Неясно, почему Google специально фильтрует личные блоги.

Наиболее важными компонентами алгоритма Google являются navBoost, NSR и chardScores.

Google использует метрику авторитетности всего сайта и несколько сигналов авторитетности всего сайта, включая трафик из браузеров Chrome.

Google использует встраивания страниц, встраивания сайтов, фокус сайта и радиус сайта в своей функции оценки.

Google измеряет количество плохих кликов, хороших кликов, кликов, последних самых продолжительных кликов и показов по всему сайту.

Почему Google специально фильтрует личные блоги и небольшие сайты? Почему Google во многих случаях публично заявлял, что у них нет измерения авторитета домена или сайта?

Почему Google лгал об использовании данных о кликах? Почему у Google есть семь типов PageRank?

У меня нет ответов на эти вопросы, но это загадки, которые SEO-сообщество хотело бы понять.

Что выделяется: любимые открытия

У Google есть функция pageQuality (PQ). Одна из наиболее интересных частей этого измерения заключается в том, что Google использует LLM для оценки «усилий» на страницах статей. Это значение кажется полезным для Google при определении того, можно ли легко реплицировать страницу.

Вывод. Инструменты, изображения, видео, уникальная информация и глубина информации позволяют получить высокие оценки при расчете «затраченных усилий». По совпадению, эти вещи также удовлетворяют пользователей.

Границы тем и авторитет темы кажутся реальными

Тематический авторитет – это концепция, основанная на патентных исследованиях Google. Если вы читали патенты, то увидите, что многие идеи, которые SEO-специалисты почерпнули из патентов, подтверждаются этой утечкой.

В утечке алгоритма мы видим, что siteFocusScore, siteRadius, siteEmbeddings и pageEmbeddings используются для ранжирования.

Что это такое?

siteFocusScore обозначает, насколько сайт посвящен определенной теме.

siteRadius измеряет, насколько сильно встраивание страницы отличается от встраивания сайта. Проще говоря, Google создает тематический идентификатор вашего веб-сайта, и каждая страница оценивается по этому идентификатору.

siteEmbeddings – это сжатые внедрения сайта/страницы.

Источник: модуль данных встраивания тем em>

Почему это интересно?

Если вы знаете, как работают встраивания, вы можете оптимизировать свои страницы для доставки контента таким образом, чтобы он был лучше понятен Google.

Здесь прямо обозначена тематическая направленность. Мы не знаем, почему упоминается тематическая направленность, но мы знаем, что числовое значение присваивается веб-сайту на основе оценки темы сайта.

Отклонение от темы измеряется, а это означает, что концепция тематических границ и контекстуальных связей имеет некоторую потенциальную поддержку за пределами патентов.

Похоже, что тематическая идентичность и тематические измерения в целом находятся в центре внимания Google.

Помните, я говорил, что PageRank устарел? Я считаю, что ближайшее семя (NS) может применяться в сфере актуального авторитета.

NS фокусируется на локализованном подмножестве сети вокруг начальных узлов. Близость и актуальность являются ключевыми областями внимания. Его можно персонализировать в зависимости от интересов пользователей, гарантируя, что страницы в тематическом кластере будут считаться более релевантными без использования общей формулы PageRank для всего Интернета.

Другой способ решения этой проблемы – совместное применение NS и PQ (качества страницы).

Используя показатели PQ в качестве механизма определения начального значения, вы можете еще больше улучшить исходный алгоритм PageRank.

С другой стороны, мы могли бы применить это к lowQuality (еще одна оценка из документа). Если страница низкого качества ссылается на другие страницы, то низкое качество может испортить другие страницы из-за исходной ассоциации.

Сид не обязательно является качественным узлом. Это может быть некачественный узел.

Когда мы применяем site2Vec и знания siteEmbeddings, я думаю, что теория выдерживает критику.

Если мы расширим это за пределы одного веб-сайта, я думаю, что варианты Panda могут работать таким же образом. Все, что нужно сделать Google, — это начать с низкокачественного кластера и экстраполировать закономерности.

Что, если NS сможет работать вместе с OnsiteProminence (значение оценки из утечки)?

В этом сценарии ближайшее начальное число может определить, насколько тесно определенные страницы связаны со страницами с высоким трафиком.

Качество изображения

ImageQualityClickSignals указывает, что качество изображения измеряется по клику (полезность, презентация, привлекательность, вовлеченность). Эти сигналы считаются персональными данными Search CPS.

Понятия не имею, привлекательность или увлекательность — это слова, но это очень интересно!

Источник: модуль данных о качестве изображения.

Хост NSR

Я считаю, что NSR — это аббревиатура от «нормализованного рейтинга сайта».

NSR хоста — это рейтинг сайта, рассчитываемый для фрагментов сайта на уровне хоста (веб-сайта). Это значение кодирует nsr, site_pr и new_nsr. Важно отметить, что nsr_data_proto, похоже, является новейшей версией, но информации о ней мало.

По сути, фрагмент сайта занимает фрагменты вашего домена, и вы получаете рейтинг сайта, измеряя эти фрагменты. Это имеет смысл, поскольку мы уже знаем, что Google делает это постранично, абзацно и тематически.

Это похоже на систему разбиения на блоки, предназначенную для опроса случайных показателей качества, основанных на агрегатах. Это что-то вроде популярной викторины (грубая аналогия).

NavBoost

Я расскажу об этом подробнее, но это один из самых упоминаемых в утечке элементов рейтинга. NavBoost — это повторное ранжирование на основе журналов кликов о поведении пользователей. Google много раз это отрицал, но недавнее судебное дело заставило их признать, что они очень сильно полагаются на данные о кликах.

Самое интересное (что не должно вызывать удивления) то, что данные Chrome используются специально. Думаю, это распространяется и на устройства Android.

Было бы интереснее, если бы мы включили патент на показатель качества сайта. Ссылки имеют соотношение с кликами, и в документах по утечкам мы совершенно ясно видим, что темы, ссылки и клики имеют взаимосвязь.

Хотя я не могу здесь делать выводы, я знаю, что Google рассказал об алгоритме Panda и что говорится в патентах. Я также знаю, что в утечке упоминаются Panda, Baby Panda и Baby Panda V2.

Если бы мне пришлось угадывать, я бы сказал, что Google использует ссылающийся домен и соотношение кликов для определения понижения рейтинга.

HostAge

Ничего о возрасте веб-сайта не учитывается при рейтинге, но hostAge упоминается в отношении песочницы. Данные используются в Twiddler для изоляции свежего спама во время его обработки.

Я считаю это интересным открытием, поскольку многие SEO-специалисты спорят о песочнице и о важности возраста домена.

Что касается утечки, песочница предназначена для спама, и возраст домена не имеет значения.

ScaledIndyRank. Ранг Независимости. Больше ничего не упоминается, а ExptIndyRank3 считается экспериментальным. Если мне пришлось догадываться, это как-то связано с получением информации на уровне всего сайта (исходный контент).

Примечание. Важно помнить, что мы не знаем, в какой степени Google использует эти факторы оценки. Большая часть алгоритма является секретом. Мои мысли основаны на том, что я вижу в этой утечке и на том, что я прочитал, изучая три года патентов Google.

Как удалить память Google для старая версия документа

Возможно, это небольшое предположение, но логика верна. Согласно утечке, Google ведет учет каждой версии веб-страницы. Это означает, что у Google есть своего рода внутренний веб-архив (собственная версия Google Wayback Machine).

Нюанс в том, что Google использует только последние 20 версий документа. Если вы обновите страницу, дождетесь сканирования и повторите процесс 20 раз, вы эффективно удалите определенные версии страницы.

Это может быть полезная информация, учитывая, что исторические версии имеют разные веса и оценки.

Помните, что в документации есть две формы истории обновлений: существенные обновления и обновления. Неясно, требуются ли значительные обновления для такого рода дурачества с памятью версий.

Система ранжирования в поиске Google

Хотя это всего лишь предположение, но одной из самых интересных вещей, которые я обнаружил, был термин «вес» (буквальный размер).

Это указывает на то, что выделение слов жирным шрифтом или размер слов в целом каким-то образом влияют на оценку документа.

Механизмы хранения индекса

Флеш-накопители: используются для хранения самого важного и регулярно обновляемого контента.

Твердотельные накопители: используются для менее важного контента.

Стандартные жесткие диски: используются для нерегулярно обновляемого контента.

Интересно, что стандартный жесткий диск используется для нерегулярно обновляемого контента.

Анонсы наших новых статей в Телеграме

Новости SEO и электронной коммерции