Как ускорить принятие решений по SEO с помощью корреляционного анализа
Простое упоминание математики может вызвать навязчивые воспоминания о незавершенных экзаменах и сложных уравнениях. Но что, если я скажу вам, что математика, которую мы собираемся изучить, подтверждает многое из того, что вы уже интуитивно знаете о SEO?
Мы, SEO-специалисты, часто догадываемся, какие факторы влияют на рейтинг. Возможно, вы заметили, что страницы с большим количеством обратных ссылок имеют тенденцию иметь более высокий рейтинг или что сайты с более быстрой загрузкой показывают лучшие результаты в результатах поиска.
Сегодня мы рассмотрим математические инструменты, которые могут помочь нам подтвердить (а иногда и оспорить) эти догадки. К концу этой статьи вы увидите, как эти инструменты помогут вам отделить факты SEO от вымысла и повысят вашу уверенность в рекомендации стратегий.
Ценность прикладной математики в SEO
В исследовании 1985 года «Полезность аналогичных решений для решения алгебраических словесных задач» исследователи обнаружили, что учащимся часто сложно применять математические концепции к похожим задачам, не говоря уже о реальных ситуациях, когда эти концепции могут быть полезны.
Эта трудность возникает потому, что эти концепции обычно изучаются изолированно. Видя, как эти концепции применяются в конкретных контекстах реальной жизни, учащиеся могут начать осознавать больше возможностей для их практического использования.
Сегодня, изучая эти инструменты в контексте SEO, мы можем начать выявлять другие сценарии SEO, которые могут выиграть от применения математических концепций.
В моем агентстве мы применяем корреляционный анализ в нескольких важных областях:
Роль качества и количества ссылающихся доменов в конкретной отрасли.
Взаимосвязь между контентом и трафиком. Важно ли количество контента в отрасли?
Важность различных факторов ранжирования на конкретных страницах результатов поисковой выдачи. Насколько важно ссылаться на домены для достижения конкретного результата?
Перспективы и ограничения корреляционного анализа в SEO
Если мы уверены, что алгоритм Google обладает определенными функциями ранжирования, можем ли мы просто использовать корреляционный анализ результатов поиска, чтобы увидеть их влияние?
Как и на большинство вопросов по SEO, ответ «это зависит».
Определить роль факторов ранжирования и их важность для результатов поиска сложно, поскольку разные факторы ранжирования могут не соответствовать рейтингам линейным или последовательно увеличивающимся/убывающим образом.
Например, рассмотрим влияние скорости загрузки страницы на рейтинг. Веб-сайт может значительно улучшить рейтинг при сокращении времени загрузки с 10 секунд до трех секунд, но дальнейшее улучшение с трех секунд до одной секунды может привести к уменьшению отдачи.
В этом случае взаимосвязь между скоростью страницы и рейтингом не является линейной — существует порог, при котором влияние становится менее выраженным, что затрудняет точную оценку ее важности с помощью простых методов корреляции.
Прежде чем мы углубимся в анализ конкретных факторов ранжирования для поисковой выдачи, нам необходимо понять основы корреляции и понять, какой метод даст нам наилучшие результаты и для каких факторов ранжирования. Вы быстро поймете, что хотя мы и используем математику, но знание предметной области и наши ожидания относительно данных играют решающую роль в эффективном использовании математики.
Копайте глубже: как исследования в области обучения могут помочь вам понять передовые концепции SEO
Итак, что такое корреляция? Давайте рассмотрим две самые популярные стратегии.
Корреляция Пирсона в SEO
Корреляция Пирсона ищет прямолинейные связи между двумя факторами. В SEO это может быть полезно для факторов, которые имеют тенденцию постоянно увеличиваться или уменьшаться с ростом рейтинга.
Пример. Давайте посмотрим на взаимосвязь между длиной контента и рейтингом в поисковых системах по определенному ключевому слову.
Ранг 1:2000 слов.
Ранг 2:1800 слов.
Ранг 3: 1600 слов.
Ранг 4: 1400 слов.
Ранг 5: 1200 слов.
Запуск кода Python
импортировать numpy как np
из scipy.stats импортировать pearsonr
# Данные
ранги = [1, 2, 3, 4, 5]
word_counts = [2000, 1800, 1600, 1400, 1200]
# Рассчитать корреляцию Пирсона
корреляция, p_value = pearsonr(ранги, word_counts)
print(f"Коэффициент корреляции Пирсона: {корреляция}")
print(f"P-value: {p_value}")
В этом примере мы видим идеальную корреляцию Пирсона. По мере уменьшения длины контента позиции в рейтинге неуклонно растут (ухудшаются). Каждое падение на 200 слов соответствует падению на одну позицию в рейтинге.
(С математической точки зрения это будет идеальная отрицательная линейная корреляция со значением -1.)
Однако реальные данные SEO редко бывают такими идеальными. Если бы на странице, занимающей 3-е место, было 1750 слов вместо 1600, у нас все равно была бы сильная корреляция, но она не была бы идеальной.
Корреляция Пирсона в SEO наиболее полезна, когда мы ожидаем, что фактор будет иметь последовательную линейную связь с рейтингом.
Полезный совет по статистической значимости
Правило 30 для корреляции Пирсона предполагает, что для того, чтобы корреляция была статистически значимой, обычно необходим размер выборки не менее 30.
Это основано на центральной предельной теореме, которая гласит, что при достаточно большом размере выборки (n ≥ 30) выборочное распределение коэффициента корреляции будет примерно нормально распределено, что позволяет проводить более надежную и достоверную проверку значимости.
Корреляция Спирмена в SEO
Корреляция Спирмена часто более полезна в SEO, поскольку она проверяет, имеет ли один фактор тенденцию к увеличению по мере увеличения (или уменьшения) другого, даже если взаимосвязь не является совершенно устойчивой. Прелесть теории Спирмена в том, что это всего лишь корреляция Пирсона для ранжированных данных.
Пример. Давайте посмотрим на взаимосвязь между рейтингом домена Ahrefs (DR) страницы и ее рейтингом по определенному ключевому слову.
Ранг 1: DR 85
Ранг 2: DR 78
Ранг 3: DR 72
Ранг 4: DR 65
Ранг 5: DR 45
Теперь давайте преобразуем это в ранжированные данные:
Шаг 1. Проранжируйте значения DR (от самого высокого до самого низкого):
85 (1-й ранг)
78 (2-й ранг)
72 (3-й ранг)
65 (4-й ранг)
45 (5-й ранг)
Шаг 2. Сопоставьте рейтинг DR с рейтингом в поисковой выдаче:
Ранг 1 в поисковой выдаче: Ранг 1 DR
Ранг 2 в поисковой выдаче: Ранг DR 2
Ранг 3 в поисковой выдаче: Ранг DR 3
Ранг 4 в поисковой выдаче: Ранг DR 4
Ранг 5 в поисковой выдаче: Ранг DR 5
Запуск кода Python
из scipy.stats import spearmanr
# Данные
serp_ranks = [1, 2, 3, 4, 5]
dr_ranks = [1, 2, 3, 4, 5]
# Рассчитать корреляцию Спирмена
spearman_correlation, spearman_p_value = spearmanr(serp_ranks, dr_ranks)
print(f"Коэффициент корреляции Спирмена: {spearman_correlation}")
print(f"P-значение: {spearman_p_value}")
В этом случае мы получаем идеальную корреляцию Спирмена, хотя исходные данные не были идеально линейными. Корреляция Спирмена рассматривает взаимосвязь между этими рангами, а не исходные значения.
И вот почему это важно: даже если исходные значения DR сильно отличались (скажем, 1000, 500, 200, 100, 50), пока они сохраняли тот же порядок относительно рейтинга в поисковой выдаче, корреляция Спирмена будет будь таким же.
Этот подход помогает сгладить нелинейные зависимости и снизить влияние выбросов. В SEO, где многие факторы не имеют совершенно линейной связи с рейтингом, корреляция Спирмена часто дает нам более четкое представление об общих тенденциях.
(С технической точки зрения корреляция Спирмена рассматривает монотонные отношения между переменными с использованием ранжированных данных, а не необработанных значений.)
Используя этот метод ранжирования, корреляция Спирмена может выявить тенденции, которые Пирсон может упустить, что делает его ценным в нашем наборе инструментов для SEO-анализа.
Применение корреляции к факторам ранжирования SEO
С помощью корреляции мы можем начать продумывать базовую эвристику ранжирования для данного результата поиска. Например, давайте представим себе такую базовую формулу:
Рейтинг = w1 * (ссылающиеся домены) + w2 * (длина контента) + w3 * (скорость сайта) +… (см. нашу формулу, основанную на недавней утечке информации из Google).
Мы можем начать делать обоснованные предположения о весах (w1, w2, w3 и т. д.) этих факторов на основе корреляционного анализа.
Множество факторов ранжирования
Алгоритм Google невероятно сложен, в нем задействованы сотни факторов ранжирования. Как SEO-специалисты, мы часто пытаемся понять, какой из этих факторов является наиболее важным.
Со временем, опираясь на опыт, тестирование и официальные заявления Google, мы обычно составляем список из 10–20 факторов, которые, по нашему мнению, оказывают наибольшее влияние.
Этот список может включать такие элементы, как:
Качество и актуальность контента.
Профиль обратных ссылок (количество и качество).
Сигналы пользовательского опыта.
Скорость страницы.
Удобство для мобильных устройств.
Использование ключевых слов и оптимизация.
Свежесть контента.
SSL-безопасность.
Разметка схемы.
Хотя этот список не является исчерпывающим, он дает нам отправную точку для нашего корреляционного анализа.
Анонсы наших новых статей в Телеграме