Как определить уникален текст или нет?

Использование шинглов при оценке уникальности контента

Как создать контент с нуля?

Как создать контент с нуля и защитить его от копирования обсуждалось многократно. Если мы ведем речь о продвигаемом ресурсе, то уникальному тексту альтернатив нет и вряд ли будет, однако это не исключает написание рерайтов. Так, например, если на сайте повествуется о товаре не собственного производства, то, как ни крути, все равно придется брать информацию в глобальной сети как минимум на сайте разработчика, то есть у официального производителя. В данном случае текст будет носить название «белый рерайт». Но и в белом рерайте есть свои подводные камни. Зачастую можно встретить статьи, описывающие тот или иной товар, например, iPad2, автор которых живо и красочно рассказывает о новинке, которую ни разу в руках не держал, однако и это не привлекает внимание посетителей. Скажем иначе: лучше сделать глубокий рерайт статьи, взятой непосредственно на сайте производителя Apple, нежели довольствоваться «водой» с многочисленными прилагательными от болтливого автора. Оригинальный текст далеко не всегда берется из головы, но все же он должен отвечать форме настолько, чтобы поисковые системы приняли его за уникальный контент.

Итак, кратко можно сказать следующее:

  • Чтобы ресурс успешно продвигался поисковыми системами, он должен быть открыт индексации, то есть содержать только уникальный контент;
  • Если речь идет о сайтах, цель которых – конверсия посетителя в покупателя, то его контент должен быть представлен авторской статьей или качественным и глубоким рерайтом;
  • Качественные сайты, занимающиеся продажей ссылок, также должны содержать уникальный контент, но сама уникализация может происходить в более грубой форме для обеспечения большего объема текста за небольшие деньги.

Разработка продающего сайта – это отдельная большая тема, по которой можно написать не только статью, но и целую книгу. Если рассматривать продающий сайт через призму уникализации и рерайтинга, то все упирается в поисковые системы и алгоритмы их работы. Каким образом поисковик определяет заимствованный текст? Какие модели и алгоритмы используется им? Зная ответы на поставленные вопросы, вы сможете при создании сайта сэкономить значительные финансовые средства и немало сил. Всем известно, что установить движок сайта и доработать дизайн можно за пару-тройку дней, а вот составить и залить уникальный контент на 500-2500 страниц – задача посложнее.

Он-лайн заказ

Нужна помощь?
Оставьте заявку и расскажите о проблеме!

Если вам требуется улучшение продающих качеств, создание или продвижение сайта, то свяжитесь с нами через форму он-лайн заявки, по телефону - (903) 787-4781 или по е-мейл - .

Поиск дубликатов поисковыми системами

На первый взгляд кажется, все очевидно: все тексты, размещенные в глобальной сети, проходят индексацию. Следовательно, поисковик сравнивает их между собой и обнаруживает плагиаты. Однако чтобы провести такое сравнение, к примеру, в Яндексе, необходимо число 10 727 736 489 возвести в квадрат – столько операций должен проделать поисковик. Очевидно также, что сравнение полных текстов не даст грамотного результата, так как вебмастера могли бы использовать простые приемы, такие как перестановка слов, букв или абзацев, изменение частей текста, постановка знаков препинания, и тогда система показала бы отсутствие совпадений. Чтобы результат был более правдоподобным и честным, необходимо было бы разбивать каждый текст на небольшие фрагменты, например, по 3-6 предложений, но тогда количество операций возросло бы в разы. Сегодня не существует настолько мощного компьютера, который бы справился с этой задачей.

Однако это вовсе не тупик, как кажется на первый взгляд. Проблема сравнения текстов была частично решена посредством сочетания лингвистических и математических методов. Конечно, процедура осталась по-прежнему ресурсоемкой, но с ней вполне справятся современные компьютеры.

Шинглы

Shingle в переводе означает гонт. Гонтом называют дощечки, являющимися кровельным материалом, оснащенным выступами и пазами, позволяющими создавать единый лист. В мире компьютерных технологий под гонтом понимается алгоритм, позволяющий находить в глобальной сети дубликаты посредством вычисления и сопоставления итоговых сумм выборки словосочетаний, длина которых равна примерно 3-10 единицам. Принцип работы достаточно прост:

  • Сначала текст канонизируется, иначе говоря, подбираются исходные словоформы, при этом стоп-слова типа союзов, предлогов, знаков препинания, частиц и пр. выбрасываются. Для примера можно привести следующее предложение: «в лесу родилась елочка, в лесу она росла». После канонизации предложение обретет следующий вид: «лес рождение елочка лес рост». Чисто теоретически имеет место быть и более грубая канонизация, то есть когда к каждому слову система подбирает высокочастотный синоним. В этом случае предложение может выглядеть примерно так: «Лес рождение елочка рост». Естественно, такой метод является мощным оружием в борьбе с ручными рерайтами и синонимайзерами против шинглов, призванных лишь заменять слова синонимами, не меняя при этом их порядок в тексте.
  • На втором этапе система разбивает канонизированный текст на небольшие фразы, длина которых варьирует в пределах 3-10 слов. При этом разбивка может осуществляться не только стык в стык, например, «лес рождение елочка» и «лес рост», а внахлест, то есть «лес рождение елочка» и «елочка лес рост». Шаг сдвига может быть абсолютно различным. Естественно, модернизация канонизированного текста приводит к рождению новых шинглов. Вывод: чтобы провести разбивку на шинглы, нужно определить неочевидные точки отсчета. Так, например, поисковая система Яндекс устанавливает точки отсчета от «ю» до «ю», иначе говоря, от двухбуквия, итоговая сумма численных значений букв которого кратна пятидесяти, и так до следующего подобного. Если говорить о разбивке текста внахлест, то он может содержать повреждения, являющиеся попытками уникализации, однако не все шинглы будут разрушены, а только лишь те, которые затронуты непосредственно самими повреждениями.
  • Контрольная сумма вычисляется для каждого отдельного шингла. Данный метод не столь важен. На его месте может быть такая хэш-функция, как cyclic redundancy code или другая. Важно одно – чтобы последовательность слов и словосочетаний превратилось в цифровую последовательность, с которой компьютер работает значительно легче;
  • На следующем этапе формируется выборка контрольных сумм шинглов. Естественно, сравнение текстов сразу по всем шинглам – это очень ресурсоемкая процедура, нежели сравнение по выбранным значениям контрольных сумм. Принцип формирования данной выборки приблизительно следующий: создается список, из которого выбирается только 85 математический функций. Каждая из них описывает параметр, интересный с точки зрения data mining (вложенность, пересечение и пр.). Все имеющиеся шинглы пропускаются через выбранные 85 выражений. На выходе получается значение, которое присваивается соответствующему шинглу. Каждая функция из 85 выбранных имеет свой шингл с минимальным значением контрольной суммы. В конечном счете документ, подвергающийся аналитике, получает сигнатуру, состоящую из восьмидесяти пяти значений контрольных сумм. При проведении сравнительной характеристики с прочими документами, над которыми проводилась такая же операция, в ход идут шинглы, выбранные по совпадающим выражениям. К примеру, если в ходе отбора шинглов использовалось 27 одинаковых функций, то дальнейшее сравнение пойдет именно по этим 27 контрольным суммам.
  • В случае, если сравнительный анализ выдал высокий процент совпадений контрольных сумм, то текст является дубликатом (с очень большим процентом совпадений четкий дубликат, с небольшим – нечеткий).

Напоследок скажем, что системы поиска работают лишь по этому принципу, но их собственный алгоритм намного сложнее, а последовательность действий на практике может кардинально отличаться.

Естественный и уникальный контент

Шинглы являются далеко не единственным способом анализа контента на естественность и уникальность. На практике может применяться статистический анализ частотности слов, предполагающий применение распределения Ципфа с целью обнаружения аномалий, а также наложение рамок абзацеподобных последовательностей слов (иначе длинных шинглов), дабы найти совпадения в текстах, подвергшихся ручной переработке (рерайтингу) с разрушением шинглов.

Проблема поиска и распознавания текстовых дублей поисковыми системами в целом решена, это глубокий рерайт. Но оптимальным вариантом является создание изначально оригинального текста, что позволит снизить риск наложения санкций со стороны поисковых систем. Зачем мы рассказывали вам про шинглы? Каждый копирайтер и рерайтер, а также вебмастер должны знать основные принципы поиска и определения текстовых дубликатов, дабы сэкономить собственные усилия при создании качественного контента для сайта-донора.

Есть вопросы?
Пишите, звоните!

Заявка на продвижение или техподдержку сайта

Остались неясности?

Выясните прямо сейчас!

Экспресс-вопрос
- экспресс-ответ

+7(903)787-4781

E-mail:

«Гонка Идей» - на связи!

Аналитика – это важно!

Очень часто результатом работы по улучшению продающих качеств сайта является уровень посещаемости или позиции по определенным фразам.
Но этого явно недостаточно!
Посетителей может быть много, но покупателей мало. Оценка качества трафика и повышение конверсии сайта – наш «конек». Мы покажем:

  • какими путями приходят к вам и что делают на страницах проекта
  • сколько из них позвонили и сделали заказ, написали письмо или оставили заявку
  • какие источники клиентов для вас ценны и чем.
  • какие рекламные кампании были удачными, а какие – нет и почему

Ждем ваших заявок!

Пишите! Звоните! Стучите!

+7 903 787-4781

E-mail:
«Гонка Идей» - на связи!