23
САНКЦИИ ЗА ТЕКСТЫ Мини-гайд от Алексея Чекушина

Гайд по текстовому антиспаму

  • Upload
    -

  • View
    1.641

  • Download
    0

Embed Size (px)

Citation preview

САНКЦИИ ЗА ТЕКСТЫ

Мини-гайд от Алексея Чекушина

Что будет рассмотрено?

- Основные фильтры и логика их применения.

- Методы распознавания спама/некачественных текстов поисковыми системами.

- Как распознать наложенные санкции поиска.

- Как избежать наложения санкций.

Основные фильтры

■ Доменный спам-фильтр от Яндекса.

■ АГС от Яндекса.

■ «Панда» от Гугла.

■ Фильтрация дублей.

■ Документные фильтры от обеих ПС.

Что такое некачественный текст?■ Создан для накрутки текстовых факторов ранжирования.

■ Является сгенерированным

■ Или просто «некачественным»

■ Содержит

Методы выделения спама

«Статистические»

Вычисление метрик текста и сравнение их с неким «эталоном»

«Лингвистические»

Разбор текста согласно законам языка, выявление неестественных языковых конструкций.

Статистические

■ Основа метода – сравнение статистических метрик текста с «эталоном»

■ Примеры статистических метрик:

- Средняя длина/диспесия длины слов/предложений.

- Доля/дисперсия по предложениям частей речи.

- N-граммные вероятности.

- Закон ципфа

И.т.д.

Важно! Ни одна из метрик не может быть использована отдельно.

Лингвистические

Основная метрика – выявление неестественных лингвистических конструкций.

Такие конструкции порождаются ошибками шаблонизации

«купить телевизор» – ок.

«купить стиральная машина» – не ок.

И попытками впихнуть неестественные вхождения

«телефоны самсунг цена»

Санкции

■ Понижение в ранжировании документа.

■ Понижение в ранжировании хоста целиком.

■ «Карантин»

(предназначен для отбивания охоты искать порог спама)

Документные санкции

Основные признаки:

- Понижение позиций по всем запросам (иногда включая цитатный поиск).

- Документ становится не релевант

Важно не путать санкцию с выпадением из «окна» хороших для ранжирования значений.

Хостовые санкции

Google Panda

За что накладывается:

- Некачественные/спамные тексты на сайте.

- Дубликаты с других доменов или внутри сайта.

Особенности:

- Пенальти на весь хост.

- Возможно как резкое, так и плавное снижение позиций/трафика.

Как определить:

- “Panguin Tool”

- Падение не связано со ссылками или индексацией.

Хостовое пенальти от Яндекса

За что накладывается:

- Некачественные/спамные тексты на сайте.

Особенности:

- Пенальти на весь хост, даже если спам-текстов несколько.

- «Карантин» - от 1го месяца.

Как определить:

- Единомоментная (в 1 апдейт) просадка трафика (в 2 и более раза)

(а также проседание по всем позициям, за исключением витальных. Чем больше конкурентность запроса – тем больше проседание.

- Платон подтверждает.

АГС

■ Фильтр создан преимущественно для «отстрела» ссылочных доноров.

■ Однако, содержит текстовые метрики.

■ Сайт может попасть под «АГС» за тексты даже не имея платных внешних ссылок.

■ Основной текстовый критерий – «качество».

Как не попасть?

■ Отсутствие дубликатов. Как внутри домена, так и вне его.

■ Отсутствие дубликатов

Проверка на дубликаты

Основной метод – проверка по шинглам.

+ Хорошие результаты по обнаружению заимствованных фрагментов.

- Необходимость делать много запросов.

- Невозможность удалить предлоги.

Согласованность текста

Генерацию шаблонов выполняем с использованием числа и падежа вхождения

(Осторожно при использовании автоматических склоняторов. Бывают баги).

Тексты проверяем на согласованность силами любого текстового редактора (например – Microsoft Word)

АнтиводаОсновной метод – выделение «водных» частей речи и проверка по словарям «водных» слов.

+ Быстро

+ Позволяет выделять совсем плохие тексты

- Не анализирует тематичность.

-

- Выделение по частям речи имеют ограничения

(например, наречия обычно бывают «водными», но «недорого» - не вода).

Частотный словарь по топ-10?

+ Достаточно просто.

+ Возможность выловить некоторые тематические слова.

- Выловим также всю воду в топе, ибо:

Не факт, что основой формирования топа стали тексты.

Ситуации, когда «спам-фильтр отвернулся»

Пример текста из топа

Антивода 2.0Языковые модели для пословной оценки тематичности слов текста.

+ Гораздо более качественно

+ Оценивается каждое (!) слово.

+ Оценка не абстрактна, а в привязке к запросу.

- Мы ограничены качеством текстов в коллекции по теме.

- Проверка требует несколько запросов на каждое слово.

- Качество оценки падает на однословных и 4+ словных запросах.

«Акварель»Гибридная униграммная языковая модель.

(Три запроса на каждое слово).

Доступна на Just-Magic.org

Промо-код на лимитиы «Акварели» aquafox (действует только сегодня)

Вот и сказочке конец… А кто слушал…

Может задать вопрос!