SEO Researcher News

Duplicate ContentВряд ли существует сайт, на котором нет дублированного контента. Эта проблема является одной из наиболее острых как для поисковых машин, стремящихся поддерживать качество и релевантность результатов поиска, так и для вебмастеров, старающихся избежать санкций поисковиков. Тема дублированного контента была одной из наиболее обсуждаемых на ноябрьской PubCon, и ей была посвящена целиком одна из сессий.

Для многих из нас дублированный контент – это прежде всего риск санкций со стороны поисковых машин. Санкции эти представляют собой не просто понижение в рейтинге выдачи, но нечто гораздо более серьезное – перенос страниц в дополнительные (supplementary) результаты, в которых средний веб-пользователь их врядли обнаружит. При этом решение, которое принимает Google, выбирая какой URL из дубликатов показывать в выдаче, не всегда можно назвать логичным. В этом треде [1] форума WebmasterWorld, например, обсуждается случай, когда оригинальная авторитетная страница исчезла из результатов вместе со своими дубликатами. Учитывая, что подобные случаи нередки и могут произойти с каждым, легко понять, почему эта проблема привлекает к себе такое внимание. Interested? Read on!

Eye-tracking studyКаково распределение кликов на страницах выдачи поисковиков? Насколько больше внимания и кликов получит второй результат в выдаче по сравнению с первым? Как частно пользователи кликают результаты внизу страницы? Взаимодействие пользователей со списком результов поиска является одной из наиболее часто обсуждаемых тем в SEO коммьюнити и также представляет собой важную область исследования для инженеров-поисковиков. Пролить свет на эту тему помогают исследования движений глаз пользователя во время взаимодействия со страницей результатов поиска - так называемые ‘eye-tracking studies’. Interested? Read on!

Недавний апдейт PageRank-a в очередной раз породил массу дискуссий среди вебмастеров и SEO специалистов. Многие отмечают, что рост трафика на вебсайты не отвечает возросшему PageRank-у страниц. На SEO форумах обсуждается вопрос доверия к значениям, которые показывает Google toolbar. Пытаясь прояснить эти вопросы, я скомпилировал ответы на следующие пять мифов о PageRank-e. Interested? Read on!

Авторы, пишущие для вебсайтов, как правило, различают рекламный текст и собственно контент, так как они выполняют разные функции. Задача контента – проинформировать читателя о каком-либо предмете. Контентом могут быть энциклопедические или аналитические статьи, обзоры, уроки, а также изображения и аудио-видео материалы (нетекстовой контент). Целью же рекламного текста или объявления является мотивирование читателя на какое-либо действие – совершение покупки, подписка на новости, занесение страницы в закладки и т.д. Иными словами, если контент информирует, то рекламный текст мотивирует. Interested? Read on!

Мэтт Каттс (Matt Cutts) работает программистом в Google с 2000 г, автор семейного фильтра SafeSearch, известен благодаря своему блогу, в котором он раскрывает некоторые секреты крупнейшего поисковика в мире. Представляю вашему вниманию транскрипт одного из видеоклипов, в котором Мэтт отвечает на вопросы читателей его блога. Interested? Read on!

Контекстная реклама в поисковиках.

Сразу оговорюсь - это перевод моей английской статьи, не отражающий реальности контекстной рекламы и продвижения сайтов в Рунете.

Многие интернет маркетологи и оптимизаторы рассматривают контекстную рекламу в поисковиках как эффективный способ получения целевого трафика для онлайн магазинов. На первый взгляд система платной контекстной рекламы проста: как на аукционе вы делаете ставки на ключевое слово, и наибольшая ставка обеспечивает вам высшую позицию в выдаче (по крайней мере так действует система Overture). Пользователи видят ваш листинг на странице с верхней десяткой результатов поисковика и кликают на него. Interested? Read on!

Алгоритм PageRank

Алгоритм PageRank представляет собой расширенную версию InDegree, с тем отличием, что ссылкам назначается различный вес, т.е. ссылки с высокачественных (высокоавторитетных) страниц ценятся больше. Таким образом, важно не только количество, но и качество входящих ссылок. Interested? Read on!

Алгоритм InDegree

InDegree - это простейший алгоритм, использующий ссылочную популярность страницы в качестве параметра сортировки. Популярность страницы измеряется количеством входящих ссылок подобно индексу цитирования научных работ. В конце 90х годов многие поисковые машины использовали этот алгоритм для ранжирования результатов. Однако, с ростом интернета и развитием веб маркетинга InDegree потерял свою эффективность, так как возросшие требования к качеству результатов поиска потребовали учитывать ссылки не просто с любой страницы, но только со страниц релевантных запросу. В противном случае, алгоритмом было легко манипулировать, используя так называемые link farms - страницы, состоящие из множества ссылок на раскручиваемые страницы, созданные с единственной целью искусственно повысить их популярность.

По алгоритму InDegree популярность ai страницы i рассчитывается по следующей формуле:

ai = |B(i)|,

гдеB(i) - множество страниц, ссылающихся на страницуi, и |B(i)|, соответственно, количество элементов в множестве.

Источники

Алгоритм HITS

Этот алгоритм впервые описал Джон Клейнберг (Jon Kleinberg) в своей статье “Авторитетные источники в гипертекстовой среде” (“Authoritative Sources in a Hyperlinked Environment” (1998)). В алгоритме HITS (Hyperlink Induced Topic Distillation) authority-страницы и хабы взаимно определяют вес друг друга. Значимость authority-страницы рассчитывается как сумма весов хабов, указывающих на нее, а вес хаба, в свою очередь, - как сумма значений авторитетности authority-страниц, ссылки на которые он содержит.

В алгоритме используются следующие обозначения. S - множество страниц, для которых рассчитываются веса хабов и authority, n – количество страниц в множестве. H - подмножество S, содержащее страницы в роли хабов, и A - подмножество S со страницами в роли authority. Поскольку любая страница может одновременно играть и роль хаба, и роль authority, множества A и H перекрываются. Для каждой страницы j в роли хаба F(j) является количеством исходящих ссылок. Для каждой страницы i в роли authority B(i) - количество входящих ссылок. Вектор значений authority с размерностью n обозначается буквой a, а вектор значений хабов - h. Таким образом расчет весов хабов и authority принимает следующий вид:

HITS Algorithm calculation of weights

Процесс расчета производится итеративно.Изначально все веса имеют значение 1. Алгоритм начинается с перерасчета весов по формуле, указанной выше, после чего векторы нормализуются. Эта итерация повторяется до тех пор пока векторы a и h не сойдутся.

Алгоритм HITS, к сожалению, не лишен недостатков. К примеру, сама идея взаимного влияния хабов и authority-страниц создает следующую ситуацию. Представим себе хаб, который ссылается на несколько authority-страниц (хаб B на рисунке ниже), и несколько хабов, указывающих на одну authority-страницу (A). Если количество authority-страниц, на которые указывает В, больше, чем количество хабов, ссылающихся на А, то алгоритм HITS распределит весь вес авторитетности между authority-страницами в правой части рисунка, и назначит authority-странице А вес практически равный нулю.

HITS Algorithm faults

Причиной этого явления является то, что хаб В уже на первой итерации получит большой вес от многочисленных authority-страниц и немедленно распределит его обратно между страницами, ссылки на которые он содержит. В тоже самое время хабы слева получат малый вес (вес одной лишь страницы А, поделенный между всеми ими) и в ответ назначат А также низкий вес, хотя очевидно, что страница А должна быть намного авторитетнее страниц справа.

Источники

Релевантность и авторитетность

Любой пользователь, делая запрос в поисковой машине, естественно ожидает получить наиболее релевантные результаты. Например, если некто делает поиск по фразе “отпуск на Бали”, он будет весьма разочарован, получив в ответ ссылку на личный блог Васи Пупкина с фотографиям его поездки на Бали. Очевидно, что целью поиска был крупный туроператор с приемлемыми ценами. Таким образом, пользователю важно получить не просто релевантные, но и авторитетные результаты. И чем больше страниц появляется каждый день в интернете, тем сильнее сдвиг в алгоритмах поисковых машин в сторону авторитетности.

По сравнению с недавним прошлым сейчас позиции страниц в поисковиках рассчитываются по-иному. Все меньший вес получают в алгоритмах плотность ключевых слов или структура страницы. Отныне релеватность страницы определяется контекстом, в котором существет страница. Контекст - это набор страниц, связанных входящими или исходящими ссылками с данной страницей. Если эта страница об отпуске на Бали, то от нее ожидается связь с другими страницами о Бали и отпусках. Содержимое страницы, плотность ключевых слов имеют второстепенное значение и используются для регулирования результатов в случае, когда имеется ссылка на нерелевантные страницы, например, на сайты рейтингов или статистики.

Ссылочные алгоритмы сортировки (Link Analysis Ranking Algorithms)

Почему же контент страницы недостаточен для определения релевантности? В первую очередь - из-за проблемы избытка результатов поиска, когда количество страниц, считающихся релевантыми на основе только их содержимого, слишком велико для просмотра пользователем. В этом случае, поиск авторитетных страниц способен резко сократить количество результатов и повысить их качество. Однако, авторитетность страницы еще более расплывчатое понятие, чем релевантность. Авторитетность должна выражать важность и вес данного веб-документа. И тут сама природа сети -среды, связанной гипертекстовыми ссылками,- предлагает эффективный способ расчета авторитетности - использование ссылок, как параметра, отражающего “общественное признание” веб-страниц.

Эта идея появилась еще на заре интернета и Джон Клейнберг (Jon Kleinberg) был одним из первых, кто разработал работоспособный подход, описанный в его эпохальной работе “Authoritative Sources in a Hyperlinked Environment” (1998). Он предложил идею, согдасно которой каждая страница выступает одновременно в роли хаба (“hub”) и авторитета (“authority”). Авторитет (далее authority-страница) это страница с большим количеством входящих ссылок (высокой степенью in-degree). Authoritiy-страницы, возвращенные поисковиком как релевантные некоему запросу, должны демнострировать перекрытие множеств страниц, ссылающихся на них. Страницы, которые содержат ссылки на релевантные источники, называются хабами (hubs). Хабы опеределяют релевантность authority-страниц некой теме и позволяют отсекать нерелевантные страницы, несмотря на то, что они обладают высокой степенью in-degree.

Hubs and Authorities in an interlinked environment

Ссылочные алгоритмы сортировки используют графы, подобные изображенному на рисунке. Узлы графа представляют собой страницы, ребра - гипертекстовые ссылки. Эти графы - простые, т.е. две и более ссылки между страницами считаются одним ребром, ссылки страницы на саму себя не считаются вовсе. Ребрам графа может назначаться различный вес, в зависимости от того, какие параметры кроме ссылок поисковики считают важными при опеределении авторитетности, например, возраст домена.

Смотрите другие мои посты, в которых я более подробно описываю ссылочные алгоритмы сортировки.

Источники

количество читателей онлайн и всего
 View My Public Stats on MyBlogLog.com