Разбираем по полочкам алгоритм HITS

Разбираем по полочкам алгоритм HITS изображение поста

Что лежит в основе работы любой поисковой системы? Правильно, алгоритмы ранжирования. Именно благодаря им одни сайты пускают пузыри далеко за ТОП-50, а другие – почивают на лаврах первых позиций. Несмотря на то, что с особенностями PageRank знакомы многие из нас, существуют менее известные, но весьма любопытные алгоритмы. Например, HITS, о котором мы сегодня и поговорим.

История создания HITS

Как вы помните, на сегодняшний день существует два подхода к ссылочному ранжированиию:

  • Глобальный анализ (не зависит от запроса) – PageRank.
  • Локальный анализ (зависит от запроса) – HITS.

Альтернативный подход к ранжированию еще в 1999 году предложил некий Джон Клейнберг. Он вошел в историю как Hyperlink Induced Topic Search, более известный как HITS. Джону пришла в голову гениальная мысль: а ведь авторитетные страницы далеко не всегда ссылаются на другие авторитетные pages. Наоборот, существует особый тип страниц, которые содержат ссылки на полезные веб-сайты и выполняют функцию посредников (или hubs).

Hyperlink Induced Topic Search

Клейнбергом была разработана двухуровневая система ранжирования, которая базируется на четырех принципах:

  1. Авторитетность страниц определяется «на лету» для каждого поискового запроса.
  2. По сравнению с PageRank, обрабатывается намного меньше страниц.
  3. Во время расчета показателей страничек-посредников учитываются исключительно показатели тех страниц, на которые они ссылаются. То есть, хороший «посредник» всегда будет ссылаться на авторитетных «авторов».
  4. Во время расчета показателей страницы-автора учитываются показатели страничек посредников, которые на нее ссылаются.

Как работает HITS?

После поискового запроса идет передача наиболее релевантных страниц. Отобранные страницы попадают в корневой набор. С увеличением корневого набора формируется базовый набор. Более наглядно это видно на рисунке ниже:

HITS

HITS против PageRank

В HITS алгоритм всегда зависит от запроса пользователей. Во внимание берутся не только входящие (автор), но и исходящие ссылки. В PageRank такое понятие, как посредник («хаб») отсутствует вовсе. К тому же, калькуляции показателей в HITS осуществляются только после формирования корневого набора.

Вот почему PageRank выдает результаты намного быстрее, что, конечно же, плюс в его пользу. Вообще, если бы существовал некий «идеальный мир» SEO, то алгоритм HITS непременно занял бы там почетное место. К сожалению, он пока проигрывает PageRank по одной простой причине. В HITS не было и нет эффективных методов борьбы со спамом.

Алгоритм HITS всегда выполняется под запрос, все коэффициенты рассчитываются в режиме онлайн. В данном случае почти невозможно реализовать хотя бы элементарные механизмы распознавания спамной перелинковки, покупных ссылок и прочее. Так что несмотря на интересные принципы ранжирования, алгоритм HITS сложно назвать актуальным ввиду непростых законов мира SEO.

Комментарии