SEO Articles
Дублированный контент - это касается всех
November 28th, 2006
Вряд ли существует сайт, на котором нет дублированного контента. Эта проблема является одной из наиболее острых как для поисковых машин, стремящихся поддерживать качество и релевантность результатов поиска, так и для вебмастеров, старающихся избежать санкций поисковиков. Тема дублированного контента была одной из наиболее обсуждаемых на ноябрьской PubCon, и ей была посвящена целиком одна из сессий.
Для многих из нас дублированный контент – это прежде всего риск санкций со стороны поисковых машин. Санкции эти представляют собой не просто понижение в рейтинге выдачи, но нечто гораздо более серьезное – перенос страниц в дополнительные (supplementary) результаты, в которых средний веб-пользователь их врядли обнаружит. При этом решение, которое принимает Google, выбирая какой URL из дубликатов показывать в выдаче, не всегда можно назвать логичным. В этом треде [1] форума WebmasterWorld, например, обсуждается случай, когда оригинальная авторитетная страница исчезла из результатов вместе со своими дубликатами. Учитывая, что подобные случаи нередки и могут произойти с каждым, легко понять, почему эта проблема привлекает к себе такое внимание.
Типы дублированного контента
Дублированный контент это не просто «копи-пэйст», и его определение выходит за рамки контента, «позаимствованного» с сайта конкурентов или RSS. Кроме этих классических случаев существует ряд аспектов, также относящихся к дублированному контенту.
Циклическая навигация
Jake Baille из компании TrueLocal, введший это понятие в оборот, туманно определяет циклическую навигацию (circular navigation) как “having multiple paths across website” (наличие множественных путей на сайте) [2]. Очевидно, он имеет ввиду возможность получать в рамках одного сайта идентичный контент по разным URL. Примером тому может быть статья, доступная по следующим ссылкам:
- www.example.com/articles/1/ ,
- www.mysite.com/article1/
- www.mysite.com/articles.php?id=1
Другой часто встречающийся пример множественных URL – это форумы. Каждый тред может быть доступен по ссылке типа: www.myforum.com/index.php/topic.1201.html, и в треде каждый пост также может быть получен по URL вроде www.myforum.com/index.php/topic.1201.msg.01.html . В глазах поисковика это все разные страницы, имеющий один и тот же контент. Какое может быть решение? Редизайн с использованием унифицированных ссылок, 301 редирект или добавление исключений в robots.txt.
301 редирект также решает подобную проблему с внешними ссылками. Если на одну и ту же вашу страницы ссылаются извне, используя разные URL, то необходимо выбрать стандартную ссылку и сделать на нее 301 редирект, примерно так, как описано в этом туториале [3]
Версии для печати
Создание печатных версий страниц - обычная практика, особенно для новостных сайтов. Тем не менее версии для печати представляют сосбой классический пример дублированного контента. К счастью, здесь проблему решить способно простое добавление тэга ‘noindex’.
Страницы с описанием продуктов
Страницы продуктов составляют значтельную часть содержимого онлайновых магазинов. Как правило, они создаются автоматически из базы данных с использованием единого шаблона. Часто два разных продукта имеют одно описание, и их страницы отличаются лишь несколькими словами или цифрами. Разумеется, в этом случае они будут отфильтрованы поисковиком. К сожалению, я не нашел легкого решения этой проблемы. Есть две альтернативы, которые «обе хуже». Либо вы закрываете доступ ко всем одинаковым страницам кроме одной и теряете трафик, либо, засучив рукава, добавляете нечто уникальное в каждую из них, например, отзывы клиентов. Последний вариант может быть фактически невозможным, если у вас более сотни типов продуктов в базе.
Как работают фильтры поисковиков?
В data mining существует ряд алгоритмов, способных определять степень схожести текстов. Считается[2], что Yahoo использует алгоритм w-shingling [4]. Каждый документ имеет собственный уникальный отпечаток, выражаемый смежными блоками текста, т.н. shinglings. Этот алгоритм опеределяет смежные блоки в первом тексте и затем сверяет их с аналогичными во втором образце. Величина пересечения и совпадения блоков опеределяет степень схожести двух образцов. Другой подобный алгоритм - «расстояние Левенштейна» [5] .
Логично ожидать от поисковиков способности опеределять источник контента и назначать ему высший ранг. Простейшим способом было бы сравнение даты индексирования, подразумевая, что оригинал появляется раньше. Однако, с распространением RSS копии имеют шанс быть проиндексированными раньше, чем оригинал, так что этот подход уже не является корректным.
Что касается права оригинала занимать более высокую позицию в выдаче – к сожалению, это не всегда так. Автор этой [6] статьи рассказывает о своем опыте распространения одного текста в рамках article marketing. Согласно Google текст изначально появился в 19000 копиях, но по прошествии времени Google, Yahoo и MSN убрали из своих индексов большинство дубликатов, оставив лишь несколько десятков результатов.
В тесте по запросу на заголовок текста поисковики показали следующие результаты. Фильтр MSN не только смог определить источник, но и поставил его выше других результатов. Yahoo также нашел оригинал, но его позиция несколько раз менялась, оставаясь в десятке, очевидно, отражая влияние других факторов, по которым Yahoo сортирует результаты.
К удивлению автора теста, Google вообще исключил источник из очищенного списка результатов! Похоже Google счел нужным показать только те страницы, которые его алгоритм считает релевантными и авторитетными вне зависимости от того, копия ли это или оригинал. Я уже упоминал выше подобный случай [1] . Обе истории имели место в конце 2005 – начале 2006 и свидетельств о том, что положение изменилось, я пока не нашел.
Источники
- ‘Duplicate Content Observation‘. WebmasterWorld.com
- ‘Duplicate Content Issues‘. SERoundtable.com.2006.02.28
- ‘301 Redirect — a How-To‘ BeyondInk.com
- ‘W-Shingling‘. Wikipedia
- ‘Levenshtein Distance‘. Wikipedia
- ‘Duplicate Content Penalties Problems with Googles Filter‘ by J.S.Cassidy, published at SEOChat.com
- ‘Duplicate Content Filter: What it is and how it works‘. WebConfs.com
- CopyScape.com — discovers copied and similar pages.




Digg This!
Technorati
Del.icio.us
Furl
Blinklist
Ma.gnolia
Yahoo! My Web

November 28th, 2006 at 12:57 pm
[…] Дублированный контент - это касается всех — статья Олега Ищенко на его блоге «Маркетинг в Интернете» рассказывает о проблеме дублированного контента, и способах её решения. Приводятся ссылки на источники. Комментарии RSS 2.0 | Trackback URI […]
January 27th, 2007 at 8:51 am
Интересно, а что делать с доменными именами?
February 20th, 2007 at 4:31 pm
Решение простое - используйте синонимы, другие обороты речи, другие падежи, добавляйте свои мысли и примеры, свой личный взгляд и отношение к теме, тогда ни один робот ничего не сможет найти. Это уже не тупой копи-пэйст, а творческая переработка и по сути производство ценного уникального контента.
May 7th, 2007 at 5:03 am
по сути, здесь говорится о рерайтинге, а это куда отнести к дублированию или созданию “ценного и уникального”
May 17th, 2007 at 12:03 pm
Однозначно, дублированный контент – это большой риск…
Как говорил катц “контент - сила”, я бы добавил еще слово уникальный.. спасибо - толковая статья получилась!
October 23rd, 2007 at 1:20 am
А проблема-то действительно актуальная
November 1st, 2007 at 7:26 am
тук, сейчас в инете найти что-нибудь уникальное и недублированное практически невозможно. Поэтому, контент, по-моему надо набирать в обычной библиотеке.
November 29th, 2007 at 5:03 am
Мда, дублирование контента действительно серьезная проблема, думается что и немало уже хороших мысле из обсуждений вышло по этому поводу.
March 12th, 2008 at 8:02 am
Копирывать, вставить.. бесит)))
March 19th, 2008 at 5:44 am
Побороть эту проблему не реально, это было есть и будет!
March 29th, 2008 at 4:35 am
Качественные программы и услуги: 1с бухгалтерия версии: 1с 7.7 и 1с 8.1
April 6th, 2008 at 3:45 pm
А новых постов на блоге когда ожидать?;)
April 7th, 2008 at 1:58 am
Уверена, качественные проекты будут уделять внимание наполнению уникальным контентом. Сейчас появилось много предложений по недорогому написанию статей для быстрого наполнения сайта. Хуже то, что воров контента меньше не становится, а бороться с ними пока не ясно как…
July 31st, 2008 at 10:51 am
Любопытная статья, кстати автору хочу предложить установить от яндекс.денег фишку на сайт “Дай рубль”. Я бы дал, так сказать на поддержание.
August 26th, 2008 at 2:51 pm
Что-то гугл нифига не индексирует, а?
November 19th, 2008 at 2:53 pm
Помню, на своём первом блоге быстро улетел в “сопли” гугла. Не знал тогда ещё об особенностях Вордпреса - архивы по дате, по автору, по тегу, по категории ну и т.д. =)
Мораль - проверяйте свои ресурсы на индексацию и пользуйтесь роботсом, ноиндексом и прочим.