SEO Articles
Проблема в алгоритмах ссылочной популярности
August 20th, 2006Сложно преувеличить влияние поисковых машин, особенно Google, на популярность веб страниц.Если пользователь вводит в поисковик слово или фразу и не может найти нужных ему результатов на первых трех страницах, то довольно часто он сдается и прекращает поиск или модифицирует свой запрос. То есть, если страница не выдается в 30ке результатов, то она фактически не существует для пользователей.
На заре интернета ситуация была намного проще. Несколько десятков страниц, найденных по запросу, было сравнительно легко отранжировать, рассчитывая релевантность по плотности ключевых слов в мета-тэгах или в тексте страницы. Но с ростом интернета появилась проблема чрезмерного количества документов в результатах, и поисковики теперь должны отсортировывать сотни тысяч страниц. И в довершении всего, значительно осложнилось определение релевантности и качества страниц.
Для расчета релевантности и авторитетности страниц поисковые машины используют ряд алгоритмов, основанных на ссылочной популярности страниц. В простейшем случае под ссылочной популярностью страницы понимается количество ссылок, указывающих на нее с других страниц. Соответственно, чем больше входящих ссылок, тем популярнее страница. Однако, в реальности алгоритмы используют более сложные процедуры для расчета популярности. Например, поисковые машины способны определять искуственно “накрученную” популярность и эффективно бороться с попытками манипулировать результатами поиска. В алгоритмы вводятся новые параметры, которые находятся вне контроля вебмастеров и оптимизаторов. Так, Google дает больший вес сайтам с большим возрастом, считая, что сайт с долгой историей заслуживает большего доверия.
Богачи богатеют
Но за всем этим прячется серьезная проблема: возможно ли, что новые сайты дискриминируются поисковиками в результате применения алгоритмов, основанных на ссылочной популяности? Если новый сайт не имеет входящих ссылок, то он никогда не попадет в верхние страницы результатов поиска. А если сайт не будет выдаваться поисковиками, то никто не сможет обнаружить его и ссылаться на него в дальнейшем. Замкнутый круг. И наоборот: более популярные сайты становятся еще более популярными - богачи богатеют.
Так каково на самом деле влияние поисковых алгоритмов на популярность сайта? Есть ли какие либо закономерности в росте популярности? Попытка ответить на эти вопросы была сделана в исследовании, проделанном Junghoo Cho и Sourashis Roy из Калифорнийского университета г. Лос Анджелес..
Результаты исследования показали, что закономерность “богачи богатеют” действительно существует. Чтобы доказать это, ученые с разницей в семь месяцев дважды скачали определенный сегмент интернета размером в пять миллионов страниц. Для всех страниц в каждой выборке был рассчитан PageRank и количесвто входящих ссылок. Затем, в соответствии со значениями полулярности, страницы были разделены на десять групп.

Рис. 1 Абсолютное увеличение количества входящих ссылок. Источник: J.Cho and S.Roy (2004)
Группы указаны на оси X, как процент от общего количества страниц в выборке: 90-100% самые популярные страницы, 80%-90% - вторые по популярности, и т.д. Разница в количестве входящих ссылок между двумя выборками отложена на оси Y.
Оказывается, что нижние 6 групп практически не изменили количество входящих ссылок, в то время как добавившиеся входящие ссылки у первых двух групп вместе составили 70% всего количества новых ссылок.

Fig. 2 Абсолютное увеличение значений PageRank. Источник: J.Cho and S.Roy (2004)
Еще более любопытную картину показывает изменение значений PageRank. Если у верхних групп они возрасли, то менее популярные группы потеряли часть своего PageRank-а.
Таким образом, показано, что при использовании алгоритмов, основанных на популярности, таких как, например, PageRank, более популярные страницы имеют тенденцию наращивать популярность, а менее популярные - терять ее.
Закономерности развития популярности: с поисковыми машинами и без них
Представим себе гипотетическую сеть, в которой не существует поисковых машин и пользователи случайно переходят с ссылки на ссылку (модель “случайный пользователь”). Каковы в таком случае шансы у новой и еще непопулярной страницы увеличить свою популярность по сравнению с ситуацией, в которой поисковые машины существуют?
В модели “случайный пользователь” популярность страницы определяется долей пользователей, которым понравилась страница от общего числа пользователей. Например, если 100000 из 1000000 положительно оценивают страницу, то ее популярность P(t) равна 0,1. Другое определение популярности использует количество пльзователей V(t), посетивших страницу за интервал времени t. V(t) пропорционально P(t):
V(t) = rP(t),
Используя приведенные выше определения, J.Cho и S.Roy вывели функцию развития популярности, график которой имеет S-образную форму. В соответствии с этой функцией популярность страницы проходит через три фазы - начальную, расширения и зрелости (infancy, expansion and maturity).

Рис. 3 Развитие популярности в модели “случайный пользователь”. Источник: J.Cho and S.Roy (2004)
Эта закономерность может быть подтверждена на примере. Популярность самого поисковика Google имеет похожую форму. Google.com - этой редкий пример сайта, чья популярность в наименьшей степени определяется поисковыми машинами, таким образом создавая условия модели “случайный пользователь”. По данным компании Nielsen Net-Ratings , развитие популярности Google с 1998 выглядит следующим образом:

Рис. 4. Развитие популярности Google. Источник: J.Cho and S.Roy (2004)
Однако, для большинства страниц в интернете популярность в значительной мере определяется поисковиками. Используя данные выборок, J.Cho и S.Roy опеределили, что в модели с поисковыми системами пропорция междуV(t) иP(t) выглядит по-другому:
V(t) = rR(t)9/4
Теперь ответим на вопрос, сколько трафика получит более популярная страница по сравнению с менее популярной в обеих моделях? Пусть популярность одной страницыP1(t) равна 0,9 а другой– P2(t)= 0,1. Тогда, основываясь на вышеприведенных отношениях между популярностью и количеством посещений, получим:
- ‘Случайный пользователь’:

- ‘Поисковые машины’:

Разница огромна - ведь во втором случае на трафик влияет не только собственно популярность страницы, но и ее позиция в результатах поисковиков. А вероятность перехода пользователя на страницу на первых позициях в выдаче намного выше, чем вероятность клика на ссылки, расположенные ниже.
Снова, как и в модели “случайный пользователь”, J.Cho и S.Roy вывели функцию развития популярности в модели с поисковыми машинами:

Рис. 5. Развитие популярности в модели с поисковыми машинами.Источник: J.Cho and S.Roy (2004)
Увеличенный сегмент в правой части графика также имеет S-образную форму и проходит через те же три фазы:

Рис. 6. Увеличенный сегмент графика функции в модели с поисковыми машинами. Источник: J.Cho and S.Roy (2004)
Обратите внимание, что в модели “случайный пользователь” требуется всего 25 единиц времени для достижения фазы зрелости, в то время как в модели с поисковыми машинами этот переход занимает 1650 единиц – в 66 раз больше. Другой важный момент - крайне короткая фаза расширения в модели с поисковыми машинами. Популярность растет практически мгновенно, стоит только странице появиться в первых позициях в выдаче поисковиков - страница получает больше трафика, соответственно больше новых ссылок, которые увеличивают ее популярность и поднимают выше в в выдаче, что вызавает еще больше трафика и так далее.
Заключение
Общая ситуация наводит на грустные размышления. Из-за применения алгоритмов ссылочной популярности большинство новых сайтов и страниц, имеющих качественный контент, но низкую начальную популярность, почти никогда не появятся в первых страницах выдачи поисковиков. И если только не будут приняты специальные меры для получения новых ссылок (различные методы интернет-маркетинга, в т.ч. вирусный маркетинг), пользователи так и не увидят эти страницы
Ссылки
- J. Cho and S. Roy. Impact of Search Engines on Page Popularity. In Proc. WWW, 2004. Retrieved from http://oak.cs.ucla.edu/~cho/papers/cho-bias.pdf on 06.25.06
- Sergey Brin and Lawrence Page. The anatomy of a large-scale hypertextual Web search engine. In Ashman and Thistlewaite [2], pages 107–117. Brisbane, Australia. Retrieved from http://citeseer.ifi.unizh.ch/brin98anatomy.html on 06.24.06




Digg This!
Technorati
Del.icio.us
Furl
Blinklist
Ma.gnolia
Yahoo! My Web

March 3rd, 2007 at 7:41 am
“Из-за применения алгоритмов ссылочной популярности большинство новых сайтов и страниц, имеющих качественный контент, но низкую начальную популярность, почти никогда не появятся в первых страницах выдачи поисковиков. И если только не будут приняты специальные меры для получения новых ссылок (различные методы интернет-маркетинга, в т.ч. вирусный маркетинг), пользователи так и не увидят эти страницы”
Вместо всей статьи можно было только вывод оставить
Кроме того, если учесть что уникального контента мало - иной выход сложно предложить. На качественную работу будут ссылаться все равно…