SEO Articles

Duplicate ContentВряд ли существует сайт, на котором нет дублированного контента. Эта проблема является одной из наиболее острых как для поисковых машин, стремящихся поддерживать качество и релевантность результатов поиска, так и для вебмастеров, старающихся избежать санкций поисковиков. Тема дублированного контента была одной из наиболее обсуждаемых на ноябрьской PubCon, и ей была посвящена целиком одна из сессий.

Для многих из нас дублированный контент – это прежде всего риск санкций со стороны поисковых машин. Санкции эти представляют собой не просто понижение в рейтинге выдачи, но нечто гораздо более серьезное – перенос страниц в дополнительные (supplementary) результаты, в которых средний веб-пользователь их врядли обнаружит. При этом решение, которое принимает Google, выбирая какой URL из дубликатов показывать в выдаче, не всегда можно назвать логичным. В этом треде [1] форума WebmasterWorld, например, обсуждается случай, когда оригинальная авторитетная страница исчезла из результатов вместе со своими дубликатами. Учитывая, что подобные случаи нередки и могут произойти с каждым, легко понять, почему эта проблема привлекает к себе такое внимание.

Типы дублированного контента

Дублированный контент это не просто «копи-пэйст», и его определение выходит за рамки контента, «позаимствованного» с сайта конкурентов или RSS. Кроме этих классических случаев существует ряд аспектов, также относящихся к дублированному контенту.

Циклическая навигация

Jake Baille из компании TrueLocal, введший это понятие в оборот, туманно определяет циклическую навигацию (circular navigation) как “having multiple paths across website” (наличие множественных путей на сайте) [2]. Очевидно, он имеет ввиду возможность получать в рамках одного сайта идентичный контент по разным URL. Примером тому может быть статья, доступная по следующим ссылкам:

- www.example.com/articles/1/ ,
- www.mysite.com/article1/
- www.mysite.com/articles.php?id=1

Другой часто встречающийся пример множественных URL – это форумы. Каждый тред может быть доступен по ссылке типа: www.myforum.com/index.php/topic.1201.html, и в треде каждый пост также может быть получен по URL вроде www.myforum.com/index.php/topic.1201.msg.01.html . В глазах поисковика это все разные страницы, имеющий один и тот же контент. Какое может быть решение? Редизайн с использованием унифицированных ссылок, 301 редирект или добавление исключений в robots.txt.

301 редирект также решает подобную проблему с внешними ссылками. Если на одну и ту же вашу страницы ссылаются извне, используя разные URL, то необходимо выбрать стандартную ссылку и сделать на нее 301 редирект, примерно так, как описано в этом туториале [3]

Версии для печати

Создание печатных версий страниц - обычная практика, особенно для новостных сайтов. Тем не менее версии для печати представляют сосбой классический пример дублированного контента. К счастью, здесь проблему решить способно простое добавление тэга ‘noindex’.

Страницы с описанием продуктов

Страницы продуктов составляют значтельную часть содержимого онлайновых магазинов. Как правило, они создаются автоматически из базы данных с использованием единого шаблона. Часто два разных продукта имеют одно описание, и их страницы отличаются лишь несколькими словами или цифрами. Разумеется, в этом случае они будут отфильтрованы поисковиком. К сожалению, я не нашел легкого решения этой проблемы. Есть две альтернативы, которые «обе хуже». Либо вы закрываете доступ ко всем одинаковым страницам кроме одной и теряете трафик, либо, засучив рукава, добавляете нечто уникальное в каждую из них, например, отзывы клиентов. Последний вариант может быть фактически невозможным, если у вас более сотни типов продуктов в базе.

Как работают фильтры поисковиков?

В data mining существует ряд алгоритмов, способных определять степень схожести текстов. Считается[2], что Yahoo использует алгоритм w-shingling [4]. Каждый документ имеет собственный уникальный отпечаток, выражаемый смежными блоками текста, т.н. shinglings. Этот алгоритм опеределяет смежные блоки в первом тексте и затем сверяет их с аналогичными во втором образце. Величина пересечения и совпадения блоков опеределяет степень схожести двух образцов. Другой подобный алгоритм - «расстояние Левенштейна» [5] .

Логично ожидать от поисковиков способности опеределять источник контента и назначать ему высший ранг. Простейшим способом было бы сравнение даты индексирования, подразумевая, что оригинал появляется раньше. Однако, с распространением RSS копии имеют шанс быть проиндексированными раньше, чем оригинал, так что этот подход уже не является корректным.

Что касается права оригинала занимать более высокую позицию в выдаче – к сожалению, это не всегда так. Автор этой [6] статьи рассказывает о своем опыте распространения одного текста в рамках article marketing. Согласно Google текст изначально появился в 19000 копиях, но по прошествии времени Google, Yahoo и MSN убрали из своих индексов большинство дубликатов, оставив лишь несколько десятков результатов.

В тесте по запросу на заголовок текста поисковики показали следующие результаты. Фильтр MSN не только смог определить источник, но и поставил его выше других результатов. Yahoo также нашел оригинал, но его позиция несколько раз менялась, оставаясь в десятке, очевидно, отражая влияние других факторов, по которым Yahoo сортирует результаты.

К удивлению автора теста, Google вообще исключил источник из очищенного списка результатов! Похоже Google счел нужным показать только те страницы, которые его алгоритм считает релевантными и авторитетными вне зависимости от того, копия ли это или оригинал. Я уже упоминал выше подобный случай [1] . Обе истории имели место в конце 2005 – начале 2006 и свидетельств о том, что положение изменилось, я пока не нашел.

Источники

  1. Duplicate Content Observation‘. WebmasterWorld.com
  2. Duplicate Content Issues‘. SERoundtable.com.2006.02.28
  3. 301 Redirect — a How-To‘ BeyondInk.com
  4. W-Shingling‘. Wikipedia
  5. Levenshtein Distance‘. Wikipedia
  6. Duplicate Content Penalties Problems with Googles Filter‘ by J.S.Cassidy, published at SEOChat.com
  7. Duplicate Content Filter: What it is and how it works‘. WebConfs.com
  8. CopyScape.com — discovers copied and similar pages.
Digg!

Did you like it? Was it useful? Bookmark or share this post:

16 Responses to “Дублированный контент - это касается всех”

  1. Links: О дублированном контенте - Блог Сергея Третьяка Says:

    […] Дублированный контент - это касается всех — статья Олега Ищенко на его блоге «Маркетинг в Интернете» рассказывает о проблеме дублированного контента, и способах её решения. Приводятся ссылки на источники. Комментарии RSS 2.0 | Trackback URI […]

  2. lusever Says:

    Интересно, а что делать с доменными именами?

  3. Оптимизатор контента Says:

    Решение простое - используйте синонимы, другие обороты речи, другие падежи, добавляйте свои мысли и примеры, свой личный взгляд и отношение к теме, тогда ни один робот ничего не сможет найти. Это уже не тупой копи-пэйст, а творческая переработка и по сути производство ценного уникального контента.

  4. тук Says:

    по сути, здесь говорится о рерайтинге, а это куда отнести к дублированию или созданию “ценного и уникального”

  5. Seo Красавчег Says:

    Однозначно, дублированный контент – это большой риск…
    Как говорил катц “контент - сила”, я бы добавил еще слово уникальный.. спасибо - толковая статья получилась!

  6. Лихой Says:

    А проблема-то действительно актуальная

  7. Алекс Золото Says:

    тук, сейчас в инете найти что-нибудь уникальное и недублированное практически невозможно. Поэтому, контент, по-моему надо набирать в обычной библиотеке.

  8. Seodromer Says:

    Мда, дублирование контента действительно серьезная проблема, думается что и немало уже хороших мысле из обсуждений вышло по этому поводу.

  9. antyanesko Says:

    Копирывать, вставить.. бесит)))

  10. Softman Says:

    Побороть эту проблему не реально, это было есть и будет!

  11. Сергей Says:

    Качественные программы и услуги: 1с бухгалтерия версии: 1с 7.7 и 1с 8.1

  12. СЕО Заработок Says:

    А новых постов на блоге когда ожидать?;)

  13. Анастасия Says:

    Уверена, качественные проекты будут уделять внимание наполнению уникальным контентом. Сейчас появилось много предложений по недорогому написанию статей для быстрого наполнения сайта. Хуже то, что воров контента меньше не становится, а бороться с ними пока не ясно как…

  14. Андрюха Says:

    Любопытная статья, кстати автору хочу предложить установить от яндекс.денег фишку на сайт “Дай рубль”. Я бы дал, так сказать на поддержание. ;)

  15. ppcumaxtwth Says:

    Что-то гугл нифига не индексирует, а?

  16. Dude Says:

    Помню, на своём первом блоге быстро улетел в “сопли” гугла. Не знал тогда ещё об особенностях Вордпреса - архивы по дате, по автору, по тегу, по категории ну и т.д. =)
    Мораль - проверяйте свои ресурсы на индексацию и пользуйтесь роботсом, ноиндексом и прочим.

Leave a Reply

количество читателей онлайн и всего
 View My Public Stats on MyBlogLog.com