Анализ текстовой релевантности
- Исключение навигационных блоков, стоп-слов и других нерелевантных элементов
- Анализ одного или нескольких сайтов-конкурентов
- Работа без привязки к региону и поисковой системе
- Гибкая фильтрация данных по множеству параметров
- Анализ униграмм, биграмм и триграмм с поиском отсутствующих терминов
- Сравнение вашего сайта с конкурентами по различным SEO-параметрам
- Анализ структуры страницы
- Определение объёма релевантного текстового слоя
- Выявление уникальных ключевых терминов
- Подсчёт заголовков H2, H3 и H4
- Анализ количества смысловых блоков
- Определение блоков с ключевым ядром
- Поиск уникальных терминов ядра внутри блока
- Анализ концентрации ключевого ядра в каждом блоке
Анализ текстовой релевантности
Смотреть видео инструкцию
🧠 Шаг 2. Извлечение смысловых фрагментов
- смысловые куски (факты, аргументы, офферы)
- типовые элементы (выгоды, этапы работы, гарантии)
- коммерческие триггеры
❓ Часто задаваемые вопросы
Что такое анализ текстовой релевантности и как работает сервис?
Анализ текстовой релевантности — это оценка того, насколько содержание страницы соответствует устойчивой смысловой модели ниши.
Сервис сравнивает вашу страницу с конкурентами и выявляет, какие термины, смыслы и структуры являются стандартом рынка.
🧠 Как работает анализ
Система проходит несколько этапов:
- очищает HTML от мусора (скрипты, стили, навигация)
- выделяет текст и разбивает его на слова и фразы
- приводит слова к начальной форме (лемматизация)
- сравнивает частоты слов с конкурентами (TF-IDF)
- строит модель «нормы» для вашей ниши
📊 Что именно анализируется
- Охват темы — какие термины используются в нише
- Глубина — насколько подробно раскрыты ключевые слова
- Структура — как распределён контент по блокам
- Анкор-лист — какие слова используются в ссылках
📦 Пример
Допустим, анализируется тема «SEO продвижение сайта».
У конкурентов часто встречаются:
- «технический аудит»
- «сбор семантики»
- «внутренняя оптимизация»
- «линкбилдинг»
Если на вашей странице этих терминов нет — сервис покажет их как отсутствующие.
Если они есть, но используются слабо — попадут в рекомендации по глубине.
🎯 Что вы получаете
- список недостающих терминов
- рекомендации по усилению текста
- понимание структуры идеальной страницы
- сравнение с конкурентами
⚠ Важно понимать
Сервис анализирует не просто слова, а смысловые единицы и закономерности рынка.
Это не генератор текста, а инструмент для построения правильной модели страницы.
Проще говоря:
- конкуренты → формируют модель ниши
- ваша страница → сравнивается с этой моделью
- результат → список, что добавить и усилить
Как рассчитывается релевантность страницы?
Алгоритм строит сравнительную модель на основе нескольких конкурентов.
Учитывается:
- частота употребления терминов,
- их значимость внутри темы,
- стабильность использования у разных игроков рынка,
- и глубина раскрытия смыслов.
Итоговая релевантность — это баланс тематического охвата и степени проработки ключевых терминов.
Что означает «по охвату» и «по глубине»?
По охвату — это термины и смысловые элементы, которые присутствуют у большинства конкурентов, но отсутствуют на вашей странице.
По глубине — это степень раскрытия уже используемых терминов: насколько полно и интенсивно они представлены по сравнению с устойчивой моделью рынка.
Это позволяет не просто добавить слова, а выстроить более целостное и экспертное раскрытие темы.
Зачем нужен фильтр «Минимальное присутствие у конкурентов»?
Фильтр позволяет учитывать только те термины, которые встречаются у определённой доли конкурентов (например, у 50%, 75% или 100%).
Это помогает выделить устойчивое ядро ниши и исключить случайные слова, характерные только для отдельных сайтов.
Сколько конкурентов лучше использовать в анализе?
Количество конкурентов напрямую влияет на строгость формируемой семантической модели.
2 конкурента — модель более мягкая.
В словарь попадает больше терминов, включая вариативные
и менее устойчивые элементы.
4 конкурента — модель более строгая.
Учитываются только устойчивые термины,
повторяющиеся внутри конкурентного поля.
Чем больше конкурентов участвует в анализе, тем уже и «чище» становится тематическое ядро — остаются только структурно значимые элементы ниши.
Что выбрать?
- Если задача — выделить устойчивое ядро рынка, лучше использовать 4 конкурента.
- Если задача — собрать максимум идей, расширить вариативность формулировок и увидеть больше семантических направлений, подойдут 2 конкурента.
Почему при увеличении количества конкурентов семантика уменьшается?
При добавлении новых конкурентов модель становится более строгой.
Сервис формирует устойчивую смысловую модель ниши на основе пересечения терминов и структурных элементов. Чем больше сайтов участвует в анализе, тем выше требования к устойчивости слова.
Если термин встречается только у одного или двух конкурентов, он считается вариативным или ситуативным. При добавлении новых сайтов такие элементы естественным образом отсеиваются.
В результате:
- уменьшается количество случайных слов;
- сужается тематическое поле;
- формируется более чистое и устойчивое ядро ниши.
Проще говоря:
- 2 конкурента → модель мягкая, семантики больше;
- 4 конкурента → модель строгая, остаётся только устойчивое ядро.
Это нормальное поведение системы — она не «теряет» слова, а очищает модель от нестабильных элементов.
Почему при фильтре 50% количество ключей почти не меняется?
Фильтр «Минимальное присутствие у конкурентов» влияет на модель не линейно.
При значении 50% система оставляет только те слова, которые встречаются минимум у половины конкурентов. Однако в большинстве ниш ключевые термины и так повторяются у 2–3 сайтов.
Поэтому при переходе от «Без фильтра» к «50%» визуально количество ключей может не измениться — потому что значимая часть слов уже соответствует этому условию.
Существенные изменения становятся заметны при фильтре 75% или 100%, когда в модель попадают только устойчивые, повторяющиеся у большинства конкурентов элементы.
Проще говоря:
- 50% — мягкая фильтрация (удаляет только случайные слова)
- 75% — формирует ядро ниши
- 100% — оставляет только максимально устойчивые элементы
Это нормальное поведение модели и признак того, что в нише уже есть сформированная семантическая структура.
Нужно ли учитывать навигационное меню при анализе?
В 90% случаев меню лучше исключать из основного анализа.
🎯 В чём проблема навигации
Навигационные блоки (menu, header, footer):
- дублируются на всех страницах сайта
- часто повторяются дважды (desktop + mobile)
- содержат множество несвязанных разделов
- не отражают смысл конкретной анализируемой страницы
Например, при анализе страницы «SEO продвижение сайта» в меню могут присутствовать:
- Разработка сайтов
- Контекстная реклама
- SMM
- Таргетинг
- Блог
- Кейсы
Эти слова начинают влиять на:
- оценку тематического охвата
- глубину использования терминов
- распределение веса n-грамм
- формирование устойчивого ядра
Но они относятся к структуре сайта, а не к содержанию страницы.
🚨 Чем это искажает модель
Включённое меню может:
- размывать тематическое ядро
- создавать ложные устойчивые пересечения между конкурентами
- искусственно усиливать второстепенные направления
- снижать точность анализа глубины раскрытия темы
Особенно это критично для агентств и крупных сайтов с объёмной навигацией.
🟢 Когда меню учитывать имеет смысл
- при анализе архитектуры сайта
- при исследовании стратегии перелинковки
- при моделировании общей структуры бизнеса
Но для анализа одной посадочной страницы меню чаще является шумом.
🏆 Как работает сервис
Сервис позволяет исключить навигационные блоки из анализа.
По умолчанию рекомендуется анализировать именно контент страницы, так как сервис сравнивает страницу с устойчивой смысловой моделью рынка, сформированной на основе конкурентов.
Ключевая мысль:
Меню — это структура сайта.
Контент — это смысл страницы.
Сервис анализирует именно смысл.
Что означает блок «Структура страницы»?
Это количество значимых терминов рыночного ядра, которые реально используются на странице.
Метрика показывает, насколько полно страница охватывает тематику ниши.
Если показатель ниже рынка, это означает, что страница раскрывает меньше направлений и подтем.
Что делать:Добавить новые смысловые блоки: «Этапы SEO-продвижения», «Коммерческие факторы», «Поведенческие сигналы», «Продвижение в Яндексе и Google», «Локальное SEO», «Продвижение интернет-магазинов».
Что означают «Уникальные ключевые термины»?
Это количество разных терминов ядра, использованных на странице.
Метрика отражает ширину тематического покрытия — насколько разнообразно раскрывается ниша.
Что делать:Не повторять «продвижение сайтов» 50 раз. Добавлять вариации: «SEO-аудит», «сбор семантики», «кластеризация», «линкбилдинг», «техническая оптимизация», «краулинговый бюджет», «CTR в поиске».
Что показывает количество H2?
Это количество основных смысловых разделов страницы.
Что делать:Добавить 3–5 крупных разделов: «Сроки продвижения», «Стоимость SEO», «Гарантии и KPI», «Частые ошибки в SEO».
Что означает количество H3?
Это уровень детализации внутри основных разделов.
Что делать:В разделе «Этапы продвижения» добавить H3: «Анализ конкурентов», «Технический аудит», «Контент-стратегия», «Внешняя оптимизация».
Насколько важны H4?
H4 отражают микро-детализацию контента.
Что делать:Использовать H4 для конкретики: «Оптимизация мета-тегов», «Настройка robots.txt», «Оптимизация скорости загрузки».
Что означает показатель «H3 на один H2»?
Это коэффициент глубины раскрытия разделов.
Что делать:Если H2 есть, но внутри почти нет подразделов — раздел нужно детализировать, а не оставлять поверхностным.
Что показывает «Количество смысловых блоков»?
Это число логических сегментов страницы.
Что делать:Добавлять отдельные блоки: «Преимущества работы с нами», «Кейсы продвижения», «FAQ по SEO», «Частые ошибки клиентов».
Что означает «Блоков с ключевым ядром»?
Это количество блоков, которые действительно содержат тематическое ядро ниши.
Что делать:Убедиться, что каждый раздел несёт SEO-смысл, а не является декоративным. Например, вместо абстрактного «О компании» сделать блок «Опыт продвижения сайтов в конкурентных нишах».
Что значит «Уникальные термины ядра в блоке»?
Это показатель насыщенности каждого смыслового блока.
Что делать:В разделе «Продвижение сайтов» добавить подаспекты: «SEO для услуг», «SEO для e-commerce», «Продвижение по трафику», «Продвижение по лидам».
Что показывает «Концентрация ядра в одном блоке»?
Это распределение ключевых терминов по структуре страницы.
Метрика отвечает на вопрос: страница построена вокруг одного сильного раздела или равномерно раскрывает тему.
Что делать:Если всё ядро сосредоточено в первом блоке — распределить смысл по другим разделам. Например, вынести «Стоимость продвижения» и «Этапы SEO» в отдельные полноценные H2.
Как использовать эти метрики для улучшения страницы?
Метрики помогают понять, где страница уступает рынку: в ширине раскрытия, глубине проработки или архитектуре структуры.
Что делать:Улучшать страницу через: расширение тематического охвата, усиление детализации, добавление новых смысловых блоков, а не через механическое увеличение объёма текста.
Почему в таблице нет словоформ одного и того же слова?
В анализе используется лемматизация — приведение слов к начальной форме. Это означает, что «уборка», «уборки», «уборке», «уборку» считаются одним термином — «уборка».
Это необходимо для корректного расчёта TF-IDF и IDF. Если учитывать словоформы отдельно, частота одного и того же смысла дробится, статистика искажается, а тематическое ядро размывается.
Без лемматизации система воспринимала бы «уборка» и «уборки» как разные слова, хотя по смыслу это один и тот же термин.
Сервис использует морфологический анализ, приводя каждое слово к нормальной форме. Это позволяет анализировать именно смысловые единицы, а не поверхностные словоформы.
В результате формируется чистая и устойчивая модель ниши, а показатели релевантности рассчитываются корректно.
Что делает опция «Игнорировать скрытые блоки»?
Опция позволяет исключить из анализа текст, который скрыт на странице: вкладки (tabs), аккордеоны, выпадающие блоки, а также элементы со стилями display:none, visibility:hidden и аналогичными.
Такой контент технически присутствует в HTML, но пользователь его не видит сразу при загрузке страницы.
🎯 Зачем это нужно
Поисковые системы учитывают скрытый текст слабее, чем основной видимый контент.
Если не исключать скрытые блоки:
- искусственно увеличивается объём текста страницы
- размывается тематическое ядро
- искажается TF-IDF и структура смыслов
🧠 Как система определяет скрытый текст
Сервис проверяет не только сам элемент, но и всю цепочку родителей. Если хотя бы один из родителей скрыт — весь вложенный текст считается скрытым.
📦 Пример 1 — блок учитывается
<div>
<p>Продвижение сайтов под ключ</p>
</div>
👉 Текст учитывается, так как блок видимый.
🚫 Пример 2 — блок игнорируется
<div style="display:none">
<p>Скрытый SEO текст</p>
</div>
👉 Весь текст внутри полностью исключается при включённой опции.
🔗 Пример 3 — вложенность (важно)
<div class="tabs hidden">
<div>
<p>Контент внутри таба</p>
</div>
</div>
👉 Даже если у вложенного блока нет стиля скрытия, он всё равно игнорируется, потому что родитель скрыт.
🔘 Пример 4 — кнопка «Показать ещё»
<button>Показать ещё</button>
<div style="display:none">
<p>Дополнительный текст</p>
</div>
👉 Несмотря на наличие кнопки, текст считается скрытым, потому что изначально он не отображается на странице.
Сервис анализирует HTML в исходном состоянии, без выполнения JavaScript.
⚠ Важный момент
Даже если пользователь может открыть блок (клик, таб, аккордеон), для анализа он всё равно считается скрытым, если при загрузке страницы он не виден.
🎯 Что происходит при включении опции
- скрытый текст не участвует в TF-IDF
- анализ строится только на видимой части страницы
- при этом считается доля скрытого контента (hidden ratio)
📊 Почему это важно
Скрытый контент:
- влияет на SEO слабее
- может искусственно раздувать текст страницы
- искажает реальную структуру контента
При этом система всё равно:
- учитывает общий объём скрытого контента
- показывает предупреждение, если его слишком много
📊 Когда стоит включать
- при анализе посадочных страниц (лендингов)
- когда много FAQ, табов или аккордеонов
- если нужно получить максимально «чистую» модель текста
⚠ Когда можно оставить выключенным
- если анализируется весь HTML как есть
- если важно учитывать весь текст, включая скрытые блоки
Проще говоря:
- включено → анализ только видимого контента
- выключено → анализ всего HTML, включая скрытые блоки