SEO Researcher News
Проблема в алгоритмах ссылочной популярности
August 20th, 2006Сложно преувеличить влияние поисковых машин, особенно Google, на популярность веб страниц.Если пользователь вводит в поисковик слово или фразу и не может найти нужных ему результатов на первых трех страницах, то довольно часто он сдается и прекращает поиск или модифицирует свой запрос. То есть, если страница не выдается в 30ке результатов, то она фактически не существует для пользователей.
На заре интернета ситуация была намного проще. Несколько десятков страниц, найденных по запросу, было сравнительно легко отранжировать, рассчитывая релевантность по плотности ключевых слов в мета-тэгах или в тексте страницы. Но с ростом интернета появилась проблема чрезмерного количества документов в результатах, и поисковики теперь должны отсортировывать сотни тысяч страниц. И в довершении всего, значительно осложнилось определение релевантности и качества страниц.
Для расчета релевантности и авторитетности страниц поисковые машины используют ряд алгоритмов, основанных на ссылочной популярности страниц. В простейшем случае под ссылочной популярностью страницы понимается количество ссылок, указывающих на нее с других страниц. Соответственно, чем больше входящих ссылок, тем популярнее страница. Однако, в реальности алгоритмы используют более сложные процедуры для расчета популярности. Например, поисковые машины способны определять искуственно “накрученную” популярность и эффективно бороться с попытками манипулировать результатами поиска. В алгоритмы вводятся новые параметры, которые находятся вне контроля вебмастеров и оптимизаторов. Так, Google дает больший вес сайтам с большим возрастом, считая, что сайт с долгой историей заслуживает большего доверия.
Богачи богатеют
Но за всем этим прячется серьезная проблема: возможно ли, что новые сайты дискриминируются поисковиками в результате применения алгоритмов, основанных на ссылочной популяности? Если новый сайт не имеет входящих ссылок, то он никогда не попадет в верхние страницы результатов поиска. А если сайт не будет выдаваться поисковиками, то никто не сможет обнаружить его и ссылаться на него в дальнейшем. Замкнутый круг. И наоборот: более популярные сайты становятся еще более популярными - богачи богатеют.
Так каково на самом деле влияние поисковых алгоритмов на популярность сайта? Есть ли какие либо закономерности в росте популярности? Попытка ответить на эти вопросы была сделана в Interested? Read on!
Алгоритм Порог Авторитетности (Authority Threshold)
August 20th, 2006Алгоритм Authority Threshold (AT(k))
Алгоритм AT(k) Algorithm применяется для расчета влияния хабов. Идеей этого алгоритма является использование только k наибольших значений авторитетности вместо расчета среднего показателя среди всех authority-страниц на которые ссылается хаб. Число k называется authority threshold - порог авторитетности. Вариантом алгоритма AT является алгоритм MAX, в котором k=1, т.е. хаб хорош ровно настолько, насколько велика авторитетность самой популярной authority-страницы, на которую он ссылается
В общем алгоритм AT(k) использует фактически такую же формулу как и алгоритм HITS. Разница состоит лишь в том, что при расчете веса хаба учитываются только k authority-страниц с наибольшими значениями авторитетности.only, т.е.. Fk(i) есть подмножество исходящих ссылокF(i). Если количество элементов (кардинальность) |F(i)| равна или меньше k то алгоритм AT(k) полностью повторяет процедуру алгоритма HITS.
Параметры, учитываемые поисковиками
August 9th, 2006Существует немало статей и постов, приводящих списки параметров, которые учитываются поисковыми машинами пр распределении мест в результатах поиска. Я постараюсь не просто перечислить эти факторы, но и дать им более или менее расширенное описание. Порядок перечисления параметров произвольный и не отражает их веса в расчете позиций в выдаче.
Возраст домена
С недавнего времени Google уделяет особое внимание этому параметру и назначает высшие позиции сайтам, которые имеют более долгую историю. Введение этого параметра, очевидно, имеет целью отсеивание сайтов-однодневок, возникающих каждый день тысячами и относительно недолго живущих. По аналогии с реальным миром подразумевается, что бизнесы, которые работают уже на протяжении многих лет, заслуживают большего доверия, чем только что открывшиеся предприятия. Возраст домена – это не просто время, прошедшее со дня регистрации. В этот композитный фактор включается также и срок, на который зарегистрирован домен. Многие сайты (в том числе поголовно – сайты-однодневки) в целях экономии регистрируют имя на минимальный срок и при необходимости ежегодно возобновляют регистрацию. Соответственно от сайта с серьезными намерениями, планирующего работать много лет, ожидается и долгосрочная регистрация. Таким образом, рекомендуется регистрировать домен на максимально возможное время, как минимум на 2 года.
Критерий возраста также может быть применен и к другим параметрам, которые я рассмотрю ниже, в том числе, возраст контента, возраст входящих ссылок и т.д.
Более подробное обсуждение фактора возраста домена можно найти здесь (англ.)
Выделенный IP адрес
Возможные преимущества выделенного IP над общим (shared) IP уже неоднократно обсуждались на многих форумах и конференциях. Одним из свидетельств этих преимуществ считается тот факт, что многие сайты в верхних позициях поисковиков обладают выделенными IP адресами. Однако, однозначной связи между наличием выделенного адреса и позицией в выдаче нет, так как очевидно, что сайты в верних позициях часто принадлежат крупным компаниям или раскученным интернет-бизнесам, которые могут позволить себе и собственный веб-сервер, не говоря уже о выделенном адресе. Что же касается сайтов, использующих общие адреса, то они подверженны риску оказаться в «сером» окружении вебсайтов, применяющих сомнительные методы раскрутки, что однажды может закончится баном общего IP адреса со стороны поисковиков.
Итак, вкратце, можно сказать, что обладание собственным IP адресом, несмотря на добавочные 2-6 доллара в месяц, может принести определенные выгоды, при условии, что поисковики положительно рассматривают (или в будущем станут положительно рассматривать) этот фактор, а также позволяет избежать поискового бана, вызванного действиями соседей по общему IP.
Одну из дискуссий на эту тему на Webmasterworld можно прочитать здесь .
Возраст контента
Подобно возрасту домена этот параметр также имеет значительный вес в современных алгоритмах. Одной из областей его применения является опеределение идентичного контента или плагиата. Проблема копирования контента имеет долгую историю и не теряет своей остроты, не смотря на возросшие возможности поисковиков по выявлению плагиата. Использование возраста контента, как параметра в поисковом алгоритме, позволяет решать проблему того, что страницы, содержащие скопированный контент, но обладающие высоким PR, могут показываться выше страниц с оригинальной публикацией. В этом случае простое определение даты публикации способно исправить несправедливость.
Обновление контента
В описании патента Google указано, что поисковый алгоритм Google определяет насколько «свежим» или «устаревшим» является контент на странице, и пытается выявить разницу между естественной и чрезмерной частотой обновления. Поисковый алгоритм Google различает страницы, от которых ожидается регулярная и частая смена контента (заглавные страницы новостных сайтов или блогов), и страницы, которые должны обновляться редко или вообще оставаться неизменными (статьи, описания продуктов и т.д.). В определении «свежести» страницы участвуют следующие параметры:
- Частота обновления – с какой регулярностью меняется контент
- Глубина (степень) обновления – доля обновленного содержания: незначительная, средняя, полная, чрезмерная
- Изменение в плотности и расположении (близости к началу страницы или блока) ключевых слов
- Изменение в количестве ссылок на страницу
- Изменение в тексте входящих ссылок
- Изменение соотношения исходящих ссылок, указывающих на низкокачественные или сомнительные ресурсы, к количеству исходящих ссылок на авторитетные страницы
Реально распределение веса на каждый фактор остается секретом, но тем не менее отслеживание результатов поиска позволяет делать любопытные наблюдения. Например страница с давно необновляемым сожерданием рассматривается как «свежая», если имеют место изменения в количествеи тексте входящих ссылок. Подробное обсуждение этих факторов можно найти здесь.
Возраст входящих ссылок и авторитетность ссылающихся страниц
Опять можно видеть применение критерия возраста: чем старше, тем лучше. Авторитетность ссылающихся страниц вообще является важнейшим фактором в алгоритмах определения популярности страниц. Подробнее об этих алгоритмах можно прочитать в моих постах на эту тему.



