SEO Articles

Duplicate ContentВряд ли существует сайт, на котором нет дублированного контента. Эта проблема является одной из наиболее острых как для поисковых машин, стремящихся поддерживать качество и релевантность результатов поиска, так и для вебмастеров, старающихся избежать санкций поисковиков. Тема дублированного контента была одной из наиболее обсуждаемых на ноябрьской PubCon, и ей была посвящена целиком одна из сессий.

Для многих из нас дублированный контент – это прежде всего риск санкций со стороны поисковых машин. Санкции эти представляют собой не просто понижение в рейтинге выдачи, но нечто гораздо более серьезное – перенос страниц в дополнительные (supplementary) результаты, в которых средний веб-пользователь их врядли обнаружит. При этом решение, которое принимает Google, выбирая какой URL из дубликатов показывать в выдаче, не всегда можно назвать логичным. В этом треде [1] форума WebmasterWorld, например, обсуждается случай, когда оригинальная авторитетная страница исчезла из результатов вместе со своими дубликатами. Учитывая, что подобные случаи нередки и могут произойти с каждым, легко понять, почему эта проблема привлекает к себе такое внимание. Interested? Read on!

Eye-tracking studyКаково распределение кликов на страницах выдачи поисковиков? Насколько больше внимания и кликов получит второй результат в выдаче по сравнению с первым? Как частно пользователи кликают результаты внизу страницы? Взаимодействие пользователей со списком результов поиска является одной из наиболее часто обсуждаемых тем в SEO коммьюнити и также представляет собой важную область исследования для инженеров-поисковиков. Пролить свет на эту тему помогают исследования движений глаз пользователя во время взаимодействия со страницей результатов поиска - так называемые ‘eye-tracking studies’. Interested? Read on!

Недавний апдейт PageRank-a в очередной раз породил массу дискуссий среди вебмастеров и SEO специалистов. Многие отмечают, что рост трафика на вебсайты не отвечает возросшему PageRank-у страниц. На SEO форумах обсуждается вопрос доверия к значениям, которые показывает Google toolbar. Пытаясь прояснить эти вопросы, я скомпилировал ответы на следующие пять мифов о PageRank-e. Interested? Read on!

Алгоритм PageRank

Алгоритм PageRank представляет собой расширенную версию InDegree, с тем отличием, что ссылкам назначается различный вес, т.е. ссылки с высокачественных (высокоавторитетных) страниц ценятся больше. Таким образом, важно не только количество, но и качество входящих ссылок. Interested? Read on!

Алгоритм InDegree

InDegree - это простейший алгоритм, использующий ссылочную популярность страницы в качестве параметра сортировки. Популярность страницы измеряется количеством входящих ссылок подобно индексу цитирования научных работ. В конце 90х годов многие поисковые машины использовали этот алгоритм для ранжирования результатов. Однако, с ростом интернета и развитием веб маркетинга InDegree потерял свою эффективность, так как возросшие требования к качеству результатов поиска потребовали учитывать ссылки не просто с любой страницы, но только со страниц релевантных запросу. В противном случае, алгоритмом было легко манипулировать, используя так называемые link farms - страницы, состоящие из множества ссылок на раскручиваемые страницы, созданные с единственной целью искусственно повысить их популярность.

По алгоритму InDegree популярность ai страницы i рассчитывается по следующей формуле:

ai = |B(i)|,

гдеB(i) - множество страниц, ссылающихся на страницуi, и |B(i)|, соответственно, количество элементов в множестве.

Источники

Алгоритм HITS

Этот алгоритм впервые описал Джон Клейнберг (Jon Kleinberg) в своей статье “Авторитетные источники в гипертекстовой среде” (“Authoritative Sources in a Hyperlinked Environment” (1998)). В алгоритме HITS (Hyperlink Induced Topic Distillation) authority-страницы и хабы взаимно определяют вес друг друга. Значимость authority-страницы рассчитывается как сумма весов хабов, указывающих на нее, а вес хаба, в свою очередь, - как сумма значений авторитетности authority-страниц, ссылки на которые он содержит.

В алгоритме используются следующие обозначения. S - множество страниц, для которых рассчитываются веса хабов и authority, n – количество страниц в множестве. H - подмножество S, содержащее страницы в роли хабов, и A - подмножество S со страницами в роли authority. Поскольку любая страница может одновременно играть и роль хаба, и роль authority, множества A и H перекрываются. Для каждой страницы j в роли хаба F(j) является количеством исходящих ссылок. Для каждой страницы i в роли authority B(i) - количество входящих ссылок. Вектор значений authority с размерностью n обозначается буквой a, а вектор значений хабов - h. Таким образом расчет весов хабов и authority принимает следующий вид:

HITS Algorithm calculation of weights

Процесс расчета производится итеративно.Изначально все веса имеют значение 1. Алгоритм начинается с перерасчета весов по формуле, указанной выше, после чего векторы нормализуются. Эта итерация повторяется до тех пор пока векторы a и h не сойдутся.

Алгоритм HITS, к сожалению, не лишен недостатков. К примеру, сама идея взаимного влияния хабов и authority-страниц создает следующую ситуацию. Представим себе хаб, который ссылается на несколько authority-страниц (хаб B на рисунке ниже), и несколько хабов, указывающих на одну authority-страницу (A). Если количество authority-страниц, на которые указывает В, больше, чем количество хабов, ссылающихся на А, то алгоритм HITS распределит весь вес авторитетности между authority-страницами в правой части рисунка, и назначит authority-странице А вес практически равный нулю.

HITS Algorithm faults

Причиной этого явления является то, что хаб В уже на первой итерации получит большой вес от многочисленных authority-страниц и немедленно распределит его обратно между страницами, ссылки на которые он содержит. В тоже самое время хабы слева получат малый вес (вес одной лишь страницы А, поделенный между всеми ими) и в ответ назначат А также низкий вес, хотя очевидно, что страница А должна быть намного авторитетнее страниц справа.

Источники

Релевантность и авторитетность

Любой пользователь, делая запрос в поисковой машине, естественно ожидает получить наиболее релевантные результаты. Например, если некто делает поиск по фразе “отпуск на Бали”, он будет весьма разочарован, получив в ответ ссылку на личный блог Васи Пупкина с фотографиям его поездки на Бали. Очевидно, что целью поиска был крупный туроператор с приемлемыми ценами. Таким образом, пользователю важно получить не просто релевантные, но и авторитетные результаты. И чем больше страниц появляется каждый день в интернете, тем сильнее сдвиг в алгоритмах поисковых машин в сторону авторитетности.

По сравнению с недавним прошлым сейчас позиции страниц в поисковиках рассчитываются по-иному. Все меньший вес получают в алгоритмах плотность ключевых слов или структура страницы. Отныне релеватность страницы определяется контекстом, в котором существет страница. Контекст - это набор страниц, связанных входящими или исходящими ссылками с данной страницей. Если эта страница об отпуске на Бали, то от нее ожидается связь с другими страницами о Бали и отпусках. Содержимое страницы, плотность ключевых слов имеют второстепенное значение и используются для регулирования результатов в случае, когда имеется ссылка на нерелевантные страницы, например, на сайты рейтингов или статистики.

Ссылочные алгоритмы сортировки (Link Analysis Ranking Algorithms)

Почему же контент страницы недостаточен для определения релевантности? В первую очередь - из-за проблемы избытка результатов поиска, когда количество страниц, считающихся релевантыми на основе только их содержимого, слишком велико для просмотра пользователем. В этом случае, поиск авторитетных страниц способен резко сократить количество результатов и повысить их качество. Однако, авторитетность страницы еще более расплывчатое понятие, чем релевантность. Авторитетность должна выражать важность и вес данного веб-документа. И тут сама природа сети -среды, связанной гипертекстовыми ссылками,- предлагает эффективный способ расчета авторитетности - использование ссылок, как параметра, отражающего “общественное признание” веб-страниц.

Эта идея появилась еще на заре интернета и Джон Клейнберг (Jon Kleinberg) был одним из первых, кто разработал работоспособный подход, описанный в его эпохальной работе “Authoritative Sources in a Hyperlinked Environment” (1998). Он предложил идею, согдасно которой каждая страница выступает одновременно в роли хаба (“hub”) и авторитета (“authority”). Авторитет (далее authority-страница) это страница с большим количеством входящих ссылок (высокой степенью in-degree). Authoritiy-страницы, возвращенные поисковиком как релевантные некоему запросу, должны демнострировать перекрытие множеств страниц, ссылающихся на них. Страницы, которые содержат ссылки на релевантные источники, называются хабами (hubs). Хабы опеределяют релевантность authority-страниц некой теме и позволяют отсекать нерелевантные страницы, несмотря на то, что они обладают высокой степенью in-degree.

Hubs and Authorities in an interlinked environment

Ссылочные алгоритмы сортировки используют графы, подобные изображенному на рисунке. Узлы графа представляют собой страницы, ребра - гипертекстовые ссылки. Эти графы - простые, т.е. две и более ссылки между страницами считаются одним ребром, ссылки страницы на саму себя не считаются вовсе. Ребрам графа может назначаться различный вес, в зависимости от того, какие параметры кроме ссылок поисковики считают важными при опеределении авторитетности, например, возраст домена.

Смотрите другие мои посты, в которых я более подробно описываю ссылочные алгоритмы сортировки.

Источники

Сложно преувеличить влияние поисковых машин, особенно Google, на популярность веб страниц.Если пользователь вводит в поисковик слово или фразу и не может найти нужных ему результатов на первых трех страницах, то довольно часто он сдается и прекращает поиск или модифицирует свой запрос. То есть, если страница не выдается в 30ке результатов, то она фактически не существует для пользователей.

На заре интернета ситуация была намного проще. Несколько десятков страниц, найденных по запросу, было сравнительно легко отранжировать, рассчитывая релевантность по плотности ключевых слов в мета-тэгах или в тексте страницы. Но с ростом интернета появилась проблема чрезмерного количества документов в результатах, и поисковики теперь должны отсортировывать сотни тысяч страниц. И в довершении всего, значительно осложнилось определение релевантности и качества страниц.

Для расчета релевантности и авторитетности страниц поисковые машины используют ряд алгоритмов, основанных на ссылочной популярности страниц. В простейшем случае под ссылочной популярностью страницы понимается количество ссылок, указывающих на нее с других страниц. Соответственно, чем больше входящих ссылок, тем популярнее страница. Однако, в реальности алгоритмы используют более сложные процедуры для расчета популярности. Например, поисковые машины способны определять искуственно “накрученную” популярность и эффективно бороться с попытками манипулировать результатами поиска. В алгоритмы вводятся новые параметры, которые находятся вне контроля вебмастеров и оптимизаторов. Так, Google дает больший вес сайтам с большим возрастом, считая, что сайт с долгой историей заслуживает большего доверия.

Богачи богатеют

Но за всем этим прячется серьезная проблема: возможно ли, что новые сайты дискриминируются поисковиками в результате применения алгоритмов, основанных на ссылочной популяности? Если новый сайт не имеет входящих ссылок, то он никогда не попадет в верхние страницы результатов поиска. А если сайт не будет выдаваться поисковиками, то никто не сможет обнаружить его и ссылаться на него в дальнейшем. Замкнутый круг. И наоборот: более популярные сайты становятся еще более популярными - богачи богатеют.

Так каково на самом деле влияние поисковых алгоритмов на популярность сайта? Есть ли какие либо закономерности в росте популярности? Попытка ответить на эти вопросы была сделана в Interested? Read on!

Алгоритм Authority Threshold (AT(k))

Алгоритм AT(k) Algorithm применяется для расчета влияния хабов. Идеей этого алгоритма является использование только k наибольших значений авторитетности вместо расчета среднего показателя среди всех authority-страниц на которые ссылается хаб. Число k называется authority threshold - порог авторитетности. Вариантом алгоритма AT является алгоритм MAX, в котором k=1, т.е. хаб хорош ровно настолько, насколько велика авторитетность самой популярной authority-страницы, на которую он ссылается

В общем алгоритм AT(k) использует фактически такую же формулу как и алгоритм HITS. Разница состоит лишь в том, что при расчете веса хаба учитываются только k authority-страниц с наибольшими значениями авторитетности.only, т.е.. Fk(i) есть подмножество исходящих ссылокF(i). Если количество элементов (кардинальность) |F(i)| равна или меньше k то алгоритм AT(k) полностью повторяет процедуру алгоритма HITS.

количество читателей онлайн и всего
 View My Public Stats on MyBlogLog.com