Данное руководство подробно описывает формулы, используемые в нашем сервисе для анализа текстового контента. Понимание этих метрик поможет вам оптимизировать вашу страницу для поисковых систем, используя точные данные, а не предположения.
Наши расчёты основаны на сравнении показателей вашей страницы с медианными значениями, полученными от конкурентов. Это позволяет избежать искажений, вызванных экстремально высокими или низкими показателями у отдельных сайтов.
Мы анализируем ключевые параметры текста, чтобы дать полную картину его структуры:
Эта метрика определяет, насколько текст "разбавлен" стоп-словами. Оптимальное значение указывает на баланс между читабельностью и смысловой плотностью.
Этот показатель помогает понять, какую долю от общего размера страницы занимает полезный текстовый контент. Высокое значение — хороший сигнал для поисковых систем.
Слишком высокий процент повторений может свидетельствовать о "переоптимизации" или спаме ключевыми словами, что может навредить SEO-позициям.
TF измеряет, как часто конкретное слово (терм) появляется в одном документе. Чем чаще слово встречается, тем выше его TF. Формула подсчёта:
Например, если слово "анализ" встречается 5 раз в тексте из 1000 слов, его TF будет 5 / 1000 = 0.005.
IDF отражает важность слова. Чем реже слово встречается в общей коллекции документов (вашей странице и страницах конкурентов), тем выше его IDF. Слова, которые встречаются почти на каждом сайте ("и", "в", "на"), имеют низкий IDF.
В вашем коде используется модифицированная формула, которая добавляет 1 к логарифму, чтобы избежать нулевого значения, если слово встречается во всех документах.
TF-IDF получается путём умножения двух метрик. Это значение показывает, насколько слово важно для конкретной страницы в рамках всей конкурентной ниши. Высокий TF-IDF говорит о том, что слово часто встречается на данной странице, но при этом является достаточно редким для всего пула конкурентов, что делает его ценным для SEO.
Чтобы дать вам полезную рекомендацию, мы не просто сравниваем вашу страницу с одной из страниц конкурентов. Мы рассчитываем медиану TF-IDF для каждого слова по всей выборке конкурентов.
Как это работает:
Это медианное значение становится эталоном. Затем, TF-IDF вашей страницы сравнивается с этим эталоном, что позволяет точно определить, какие слова нужно добавить, убрать или увеличить их частоту.
Такой подход обеспечивает точность рекомендаций, так как он игнорирует аномальные значения и даёт реальную картину частотности слов в вашей нише.