Расчётные формулы и метрики для SEO-анализа вашего сайта

Расчётные формулы и метрики для SEO-анализа вашего сайта

Данное руководство подробно описывает формулы, используемые в нашем сервисе для анализа текстового контента. Понимание этих метрик поможет вам оптимизировать вашу страницу для поисковых систем, используя точные данные, а не предположения.

Наши расчёты основаны на сравнении показателей вашей страницы с медианными значениями, полученными от конкурентов. Это позволяет избежать искажений, вызванных экстремально высокими или низкими показателями у отдельных сайтов.


Основные метрики контента

Мы анализируем ключевые параметры текста, чтобы дать полную картину его структуры:

  • Всего символов: Общее количество символов в тексте, включая пробелы, знаки препинания и цифры.
  • Символов без пробелов: Этот показатель даёт более точное представление о длине полезного контента.
  • Всего слов: Количество слов в тексте.
  • Слов без стоп-слов: Число слов после исключения "незначимых" слов (союзы, предлоги и т.д.), что помогает сфокусироваться на смысловой нагрузке.
  • Уникальные слова: Количество разных слов, что указывает на разнообразие лексики.

Ключевые аналитические формулы

Водность текста (Wateriness)

Эта метрика определяет, насколько текст "разбавлен" стоп-словами. Оптимальное значение указывает на баланс между читабельностью и смысловой плотностью.

$$Водность\ (Ваш\ сайт) = \frac{Количество\ стоп-слов\ на\ вашей\ странице}{Общее\ количество\ слов\ на\ вашей\ странице} \times 100\%$$
$$Водность\ (Медиана\ конкурентов) = Медиана\ \left( \frac{Стоп-слова\ конкурентов}{Всего\ слов\ конкурентов} \times 100\% \right)$$

Соотношение текста к HTML (Text to HTML Ratio)

Этот показатель помогает понять, какую долю от общего размера страницы занимает полезный текстовый контент. Высокое значение — хороший сигнал для поисковых систем.

$$Соотношение = \frac{Длина\ текста\ без\ HTML\ тегов}{Длина\ HTML-кода\ страницы} \times 100\%$$

Процент повторений (Repetition Percentage)

Слишком высокий процент повторений может свидетельствовать о "переоптимизации" или спаме ключевыми словами, что может навредить SEO-позициям.

$$Процент\ повторений = \frac{Сумма\ частот\ слов\ - \ Количество\ уникальных\ слов}{Сумма\ частот\ слов} \times 100\%$$

Term Frequency (TF) — Частота слова

TF измеряет, как часто конкретное слово (терм) появляется в одном документе. Чем чаще слово встречается, тем выше его TF. Формула подсчёта:

$$TF = \frac{Количество\ вхождений\ слова\ в\ документе}{Общее\ количество\ слов\ в\ документе}$$

Например, если слово "анализ" встречается 5 раз в тексте из 1000 слов, его TF будет 5 / 1000 = 0.005.


Inverse Document Frequency (IDF) — Обратная частота документа

IDF отражает важность слова. Чем реже слово встречается в общей коллекции документов (вашей странице и страницах конкурентов), тем выше его IDF. Слова, которые встречаются почти на каждом сайте ("и", "в", "на"), имеют низкий IDF.

$$IDF = log \left( \frac{Общее\ количество\ документов}{Количество\ документов,\ содержащих\ слово} \right) + 1$$

В вашем коде используется модифицированная формула, которая добавляет 1 к логарифму, чтобы избежать нулевого значения, если слово встречается во всех документах.


TF-IDF — Итоговая взвешенная оценка

TF-IDF получается путём умножения двух метрик. Это значение показывает, насколько слово важно для конкретной страницы в рамках всей конкурентной ниши. Высокий TF-IDF говорит о том, что слово часто встречается на данной странице, но при этом является достаточно редким для всего пула конкурентов, что делает его ценным для SEO.

$$TF-IDF = TF \times IDF$$

Медиана TF-IDF конкурентов

Чтобы дать вам полезную рекомендацию, мы не просто сравниваем вашу страницу с одной из страниц конкурентов. Мы рассчитываем медиану TF-IDF для каждого слова по всей выборке конкурентов.

Как это работает:

  1. Для каждого слова, найденного у конкурентов, рассчитывается его TF-IDF на каждой странице конкурентов.
  2. Эти значения собираются в один список.
  3. Список сортируется, и находится его медианное значение — то, которое находится ровно посередине.

Это медианное значение становится эталоном. Затем, TF-IDF вашей страницы сравнивается с этим эталоном, что позволяет точно определить, какие слова нужно добавить, убрать или увеличить их частоту.

Такой подход обеспечивает точность рекомендаций, так как он игнорирует аномальные значения и даёт реальную картину частотности слов в вашей нише.