Разбираем по полочкам алгоритм HITS
Что лежит в основе работы любой поисковой системы? Правильно, алгоритмы ранжирования. Именно благодаря им одни сайты пускают пузыри далеко за ТОП-50, а другие – почивают на лаврах первых позиций. Несмотря на то, что с особенностями PageRank знакомы многие из нас, существуют менее известные, но весьма любопытные алгоритмы. Например, HITS, о котором мы сегодня и поговорим.
История создания HITS
Как вы помните, на сегодняшний день существует два подхода к ссылочному ранжированиию:
- Глобальный анализ (не зависит от запроса) – PageRank.
- Локальный анализ (зависит от запроса) – HITS.
Альтернативный подход к ранжированию еще в 1999 году предложил некий Джон Клейнберг. Он вошел в историю как Hyperlink Induced Topic Search, более известный как HITS. Джону пришла в голову гениальная мысль: а ведь авторитетные страницы далеко не всегда ссылаются на другие авторитетные pages. Наоборот, существует особый тип страниц, которые содержат ссылки на полезные веб-сайты и выполняют функцию посредников (или hubs).
Клейнбергом была разработана двухуровневая система ранжирования, которая базируется на четырех принципах:
- Авторитетность страниц определяется «на лету» для каждого поискового запроса.
- По сравнению с PageRank, обрабатывается намного меньше страниц.
- Во время расчета показателей страничек-посредников учитываются исключительно показатели тех страниц, на которые они ссылаются. То есть, хороший «посредник» всегда будет ссылаться на авторитетных «авторов».
- Во время расчета показателей страницы-автора учитываются показатели страничек посредников, которые на нее ссылаются.
Как работает HITS?
После поискового запроса идет передача наиболее релевантных страниц. Отобранные страницы попадают в корневой набор. С увеличением корневого набора формируется базовый набор. Более наглядно это видно на рисунке ниже:
HITS против PageRank
В HITS алгоритм всегда зависит от запроса пользователей. Во внимание берутся не только входящие (автор), но и исходящие ссылки. В PageRank такое понятие, как посредник («хаб») отсутствует вовсе. К тому же, калькуляции показателей в HITS осуществляются только после формирования корневого набора.
Вот почему PageRank выдает результаты намного быстрее, что, конечно же, плюс в его пользу. Вообще, если бы существовал некий «идеальный мир» SEO, то алгоритм HITS непременно занял бы там почетное место. К сожалению, он пока проигрывает PageRank по одной простой причине. В HITS не было и нет эффективных методов борьбы со спамом.
Алгоритм HITS всегда выполняется под запрос, все коэффициенты рассчитываются в режиме онлайн. В данном случае почти невозможно реализовать хотя бы элементарные механизмы распознавания спамной перелинковки, покупных ссылок и прочее. Так что несмотря на интересные принципы ранжирования, алгоритм HITS сложно назвать актуальным ввиду непростых законов мира SEO.