SEO Researcher News
Дублированный контент - это касается всех
November 28th, 2006
Вряд ли существует сайт, на котором нет дублированного контента. Эта проблема является одной из наиболее острых как для поисковых машин, стремящихся поддерживать качество и релевантность результатов поиска, так и для вебмастеров, старающихся избежать санкций поисковиков. Тема дублированного контента была одной из наиболее обсуждаемых на ноябрьской PubCon, и ей была посвящена целиком одна из сессий.
Для многих из нас дублированный контент – это прежде всего риск санкций со стороны поисковых машин. Санкции эти представляют собой не просто понижение в рейтинге выдачи, но нечто гораздо более серьезное – перенос страниц в дополнительные (supplementary) результаты, в которых средний веб-пользователь их врядли обнаружит. При этом решение, которое принимает Google, выбирая какой URL из дубликатов показывать в выдаче, не всегда можно назвать логичным. В этом треде [1] форума WebmasterWorld, например, обсуждается случай, когда оригинальная авторитетная страница исчезла из результатов вместе со своими дубликатами. Учитывая, что подобные случаи нередки и могут произойти с каждым, легко понять, почему эта проблема привлекает к себе такое внимание. Interested? Read on!
Распределение кликов на страницах результатов поиска Google
October 27th, 2006
Каково распределение кликов на страницах выдачи поисковиков? Насколько больше внимания и кликов получит второй результат в выдаче по сравнению с первым? Как частно пользователи кликают результаты внизу страницы? Взаимодействие пользователей со списком результов поиска является одной из наиболее часто обсуждаемых тем в SEO коммьюнити и также представляет собой важную область исследования для инженеров-поисковиков. Пролить свет на эту тему помогают исследования движений глаз пользователя во время взаимодействия со страницей результатов поиска - так называемые ‘eye-tracking studies’. Interested? Read on!
Пять мифов о PageRank
October 6th, 2006Недавний апдейт PageRank-a в очередной раз породил массу дискуссий среди вебмастеров и SEO специалистов. Многие отмечают, что рост трафика на вебсайты не отвечает возросшему PageRank-у страниц. На SEO форумах обсуждается вопрос доверия к значениям, которые показывает Google toolbar. Пытаясь прояснить эти вопросы, я скомпилировал ответы на следующие пять мифов о PageRank-e. Interested? Read on!
Интернет копирайтинг. Реклама и контент - а есть ли разница?
October 4th, 2006Авторы, пишущие для вебсайтов, как правило, различают рекламный текст и собственно контент, так как они выполняют разные функции. Задача контента – проинформировать читателя о каком-либо предмете. Контентом могут быть энциклопедические или аналитические статьи, обзоры, уроки, а также изображения и аудио-видео материалы (нетекстовой контент). Целью же рекламного текста или объявления является мотивирование читателя на какое-либо действие – совершение покупки, подписка на новости, занесение страницы в закладки и т.д. Иными словами, если контент информирует, то рекламный текст мотивирует. Interested? Read on!
Мэтт Каттс: что нужно, чтобы преуспеть в Google
September 21st, 2006Мэтт Каттс (Matt Cutts) работает программистом в Google с 2000 г, автор семейного фильтра SafeSearch, известен благодаря своему блогу, в котором он раскрывает некоторые секреты крупнейшего поисковика в мире. Представляю вашему вниманию транскрипт одного из видеоклипов, в котором Мэтт отвечает на вопросы читателей его блога. Interested? Read on!
Платная контекстная реклама и продвижение в натуральной выдаче
September 13th, 2006Контекстная реклама в поисковиках.
Сразу оговорюсь - это перевод моей английской статьи, не отражающий реальности контекстной рекламы и продвижения сайтов в Рунете.
Многие интернет маркетологи и оптимизаторы рассматривают контекстную рекламу в поисковиках как эффективный способ получения целевого трафика для онлайн магазинов. На первый взгляд система платной контекстной рекламы проста: как на аукционе вы делаете ставки на ключевое слово, и наибольшая ставка обеспечивает вам высшую позицию в выдаче (по крайней мере так действует система Overture). Пользователи видят ваш листинг на странице с верхней десяткой результатов поисковика и кликают на него. Interested? Read on!
Ссылочные алгоритмы сортировки - PageRank
August 21st, 2006Алгоритм PageRank
Алгоритм PageRank представляет собой расширенную версию InDegree, с тем отличием, что ссылкам назначается различный вес, т.е. ссылки с высокачественных (высокоавторитетных) страниц ценятся больше. Таким образом, важно не только количество, но и качество входящих ссылок. Interested? Read on!
Ссылочные алгоритмы сортировки - InDegree
August 21st, 2006Алгоритм InDegree
InDegree - это простейший алгоритм, использующий ссылочную популярность страницы в качестве параметра сортировки. Популярность страницы измеряется количеством входящих ссылок подобно индексу цитирования научных работ. В конце 90х годов многие поисковые машины использовали этот алгоритм для ранжирования результатов. Однако, с ростом интернета и развитием веб маркетинга InDegree потерял свою эффективность, так как возросшие требования к качеству результатов поиска потребовали учитывать ссылки не просто с любой страницы, но только со страниц релевантных запросу. В противном случае, алгоритмом было легко манипулировать, используя так называемые link farms - страницы, состоящие из множества ссылок на раскручиваемые страницы, созданные с единственной целью искусственно повысить их популярность.
По алгоритму InDegree популярность ai страницы i рассчитывается по следующей формуле:
ai = |B(i)|,
гдеB(i) - множество страниц, ссылающихся на страницуi, и |B(i)|, соответственно, количество элементов в множестве.
Источники
- Borodin, A, Roberts, G.O., Rosenthal, J.S. and Tsaparas, P. ‘Finding authorities and hubs from link structures on the World Wide Web’. In Proceedings of the 10 th International World Wide Web Conference, Hong Kong, May 2001. Available at http://citeseer.ist.psu.edu/borodin01finding.html
Алгоритмы сортировки поисковиков - HITS
August 20th, 2006Алгоритм HITS
Этот алгоритм впервые описал Джон Клейнберг (Jon Kleinberg) в своей статье “Авторитетные источники в гипертекстовой среде” (“Authoritative Sources in a Hyperlinked Environment” (1998)). В алгоритме HITS (Hyperlink Induced Topic Distillation) authority-страницы и хабы взаимно определяют вес друг друга. Значимость authority-страницы рассчитывается как сумма весов хабов, указывающих на нее, а вес хаба, в свою очередь, - как сумма значений авторитетности authority-страниц, ссылки на которые он содержит.
В алгоритме используются следующие обозначения. S - множество страниц, для которых рассчитываются веса хабов и authority, n – количество страниц в множестве. H - подмножество S, содержащее страницы в роли хабов, и A - подмножество S со страницами в роли authority. Поскольку любая страница может одновременно играть и роль хаба, и роль authority, множества A и H перекрываются. Для каждой страницы j в роли хаба F(j) является количеством исходящих ссылок. Для каждой страницы i в роли authority B(i) - количество входящих ссылок. Вектор значений authority с размерностью n обозначается буквой a, а вектор значений хабов - h. Таким образом расчет весов хабов и authority принимает следующий вид:

Процесс расчета производится итеративно.Изначально все веса имеют значение 1. Алгоритм начинается с перерасчета весов по формуле, указанной выше, после чего векторы нормализуются. Эта итерация повторяется до тех пор пока векторы a и h не сойдутся.
Алгоритм HITS, к сожалению, не лишен недостатков. К примеру, сама идея взаимного влияния хабов и authority-страниц создает следующую ситуацию. Представим себе хаб, который ссылается на несколько authority-страниц (хаб B на рисунке ниже), и несколько хабов, указывающих на одну authority-страницу (A). Если количество authority-страниц, на которые указывает В, больше, чем количество хабов, ссылающихся на А, то алгоритм HITS распределит весь вес авторитетности между authority-страницами в правой части рисунка, и назначит authority-странице А вес практически равный нулю.

Причиной этого явления является то, что хаб В уже на первой итерации получит большой вес от многочисленных authority-страниц и немедленно распределит его обратно между страницами, ссылки на которые он содержит. В тоже самое время хабы слева получат малый вес (вес одной лишь страницы А, поделенный между всеми ими) и в ответ назначат А также низкий вес, хотя очевидно, что страница А должна быть намного авторитетнее страниц справа.
Источники
- Kleinberg, J. May 1997, ‘Authoritative sources in a hyperlinked environment’. Technical Report RJ 10076, IBM,. Available at http://citeseer.ist.psu.edu/article/kleinberg98authoritative.html
Гипертекстовые ссылки и поисковые алгоритмы
August 20th, 2006Релевантность и авторитетность
Любой пользователь, делая запрос в поисковой машине, естественно ожидает получить наиболее релевантные результаты. Например, если некто делает поиск по фразе “отпуск на Бали”, он будет весьма разочарован, получив в ответ ссылку на личный блог Васи Пупкина с фотографиям его поездки на Бали. Очевидно, что целью поиска был крупный туроператор с приемлемыми ценами. Таким образом, пользователю важно получить не просто релевантные, но и авторитетные результаты. И чем больше страниц появляется каждый день в интернете, тем сильнее сдвиг в алгоритмах поисковых машин в сторону авторитетности.
По сравнению с недавним прошлым сейчас позиции страниц в поисковиках рассчитываются по-иному. Все меньший вес получают в алгоритмах плотность ключевых слов или структура страницы. Отныне релеватность страницы определяется контекстом, в котором существет страница. Контекст - это набор страниц, связанных входящими или исходящими ссылками с данной страницей. Если эта страница об отпуске на Бали, то от нее ожидается связь с другими страницами о Бали и отпусках. Содержимое страницы, плотность ключевых слов имеют второстепенное значение и используются для регулирования результатов в случае, когда имеется ссылка на нерелевантные страницы, например, на сайты рейтингов или статистики.
Ссылочные алгоритмы сортировки (Link Analysis Ranking Algorithms)
Почему же контент страницы недостаточен для определения релевантности? В первую очередь - из-за проблемы избытка результатов поиска, когда количество страниц, считающихся релевантыми на основе только их содержимого, слишком велико для просмотра пользователем. В этом случае, поиск авторитетных страниц способен резко сократить количество результатов и повысить их качество. Однако, авторитетность страницы еще более расплывчатое понятие, чем релевантность. Авторитетность должна выражать важность и вес данного веб-документа. И тут сама природа сети -среды, связанной гипертекстовыми ссылками,- предлагает эффективный способ расчета авторитетности - использование ссылок, как параметра, отражающего “общественное признание” веб-страниц.
Эта идея появилась еще на заре интернета и Джон Клейнберг (Jon Kleinberg) был одним из первых, кто разработал работоспособный подход, описанный в его эпохальной работе “Authoritative Sources in a Hyperlinked Environment” (1998). Он предложил идею, согдасно которой каждая страница выступает одновременно в роли хаба (“hub”) и авторитета (“authority”). Авторитет (далее authority-страница) это страница с большим количеством входящих ссылок (высокой степенью in-degree). Authoritiy-страницы, возвращенные поисковиком как релевантные некоему запросу, должны демнострировать перекрытие множеств страниц, ссылающихся на них. Страницы, которые содержат ссылки на релевантные источники, называются хабами (hubs). Хабы опеределяют релевантность authority-страниц некой теме и позволяют отсекать нерелевантные страницы, несмотря на то, что они обладают высокой степенью in-degree.

Ссылочные алгоритмы сортировки используют графы, подобные изображенному на рисунке. Узлы графа представляют собой страницы, ребра - гипертекстовые ссылки. Эти графы - простые, т.е. две и более ссылки между страницами считаются одним ребром, ссылки страницы на саму себя не считаются вовсе. Ребрам графа может назначаться различный вес, в зависимости от того, какие параметры кроме ссылок поисковики считают важными при опеределении авторитетности, например, возраст домена.
Смотрите другие мои посты, в которых я более подробно описываю ссылочные алгоритмы сортировки.
Источники
- Kleinberg, J. May 1997, ‘Authoritative sources in a hyperlinked environment’. Technical Report RJ 10076, IBM,. Available at http://citeseer.ist.psu.edu/article/kleinberg98authoritative.html
- Borodin, A, Roberts, G.O., Rosenthal, J.S. and Tsaparas, P. ‘Finding authorities and hubs from link structures on the World Wide Web’. In Proceedings of the 10 th International World Wide Web Conference, Hong Kong, May 2001. Available at http://citeseer.ist.psu.edu/borodin01finding.html



