SEO Articles
Ссылочные алгоритмы сортировки - PageRank
August 21st, 2006Алгоритм PageRank
Алгоритм PageRank представляет собой расширенную версию InDegree, с тем отличием, что ссылкам назначается различный вес, т.е. ссылки с высокачественных (высокоавторитетных) страниц ценятся больше. Таким образом, важно не только количество, но и качество входящих ссылок.
Для опеределения авторитетности веб-страниц PageRank симулирует поведение случайного пользователя, начиная вебсерфинг со случайной страницы и путешествуя по сети далее по ссылкам. Начальная страница обычно выбирается из равномерного распределения. Процесс случайного перехода происходит следующим образом: на начальной странице случайно выбирается исходящая ссылка, и пользователь переходит по ней с вероятностью1-d. Число d отражает вероятность того, что пользователь наберет в адресной строке броузера случайный адрес и перейдет по нему, т.е. не воспользуется исходящими ссылками. Параметр d называется “dumping factor”, и его значение может варьироваться, хотя обычно его принимают равным 0,85.
Для расчета значения PageRank для некой страницы используется следующая формула:

Алгоритм рассматривает множество страниц M(pi), связанных друг с другом ссылками, с количеством элементов N. PR(pj) является значением PageRank страницы pj , принадлежащей этому множеству, а L(pj) -числом исходящих ссылок с данной страницы. Каждая страница во множестве M(pi),, ссылающаяся на pi , сообщает ей долю собственного PageRank-а, размер которой зависит от общего числа исходящих ссылок на данной странице.
Входящие ссылки во множестве M(pi) могут быть представлены в виде матрицы смежностей (adjacency matrix):
,
где l(p1,p2) равно 1 при наличии ссылки между страницами p1 и p2 , или нулю в противном случае. Значения PageRanks для всех страниц множества M(pi) образуют вектор R, представляюший собой доминантный собственный вектор (eigenvector) матрицы смежностей:

Таким образом, формула для расчета PageRank может быть выражена и так:

Значения PageRank рассчитываются заранее (т.е. не во время поиска, а регулярно с определенным интервалом) и не зависят от поисковых запросов. Если необходимо отсортировать результаты на определенное слово или фразу, то значения PageRank используются совместно с факторами ранжирования, напрямую зависящими от запроса (к примеру, плотность и распределение ключевых слов на странице). Использование заранее рассчитанных значений PageRank-а значительно ускоряет сортировку результатов.
Источники
- Borodin, A, Roberts, G.O., Rosenthal, J.S. and Tsaparas, P. ‘Finding authorities and hubs from link structures on the World Wide Web’. In Proceedings of the 10 th International World Wide Web Conference, Hong Kong, May 2001. Available at http://citeseer.ist.psu.edu/borodin01finding.html
- Wikipedia: PageRank




Digg This!
Technorati
Del.icio.us
Furl
Blinklist
Ma.gnolia
Yahoo! My Web

Leave a Reply