Оценка качества поисковых систем через подмену результатов

Качество поиска Гугл, Яндекс, Рамблер, Майл и Бинг.

качество поиска tmr качество поиска c1t1

качество поиска p1cl качество поиска otk

качество поиска acp качество поиска cacp

качество поиска c0 качество поиска cacpc0

Оценка качества поиска на основе данных LiveInternet.Ru

Search Quality (LiveInternet Data) Search Quality (LiveInternet Data)

Методология сравнения качества поисковиков

Основная идея состоит в сборе нескольких параметров, описывающих поведение пользователей. Эти параметры имеют причинно-следственные связи с качеством поиска, сложностью запросов и удовлетворенностью пользователей поисковых систем. Например, c течением времени сложность запросов может увеличиваться, а удовлетворенность снижаться.

c0. Если пользователи, после выдачи результатов никуда не кликают, то это не очень хорошо. Чем больше доля таких запросов, тем хуже качество поисковика.

c1. Если пользователи, после выдачи результатов кликают на результаты ровно один раз и удовлетворяются, то это хорошо. Чем больше доля таких запросов, тем лучше качество поиска.

dl. Среднее число просмотренных сайтов на каждый запрос. Для основной части запросов - чем меньше, тем лучше. При условии, что число просмотренных сайтов больше нуля, то есть нулевые клики не учитываются.

tm или tmr. Среднее геометрическое число секунд, потраченное на анализ каждой ссылки в результатах выдачи. Чем больше, тем лучше.

aql. Средняя длина запроса. Чем больше - тем выше сложность и лучше качество.

rt. Итоговый рейтинг удовлетворенности качеством поиска (log(c1)-log(c0)-log(dl)+log(tm/60)).

so. Погрешность оценок.

Также могут использоваться следущие метрики, которые пока не используются:

c1t1. Доля запросов, где пользователь сделал ровно 1 клик по самой первой ссылке. Чем больше - тем лучше.

kp. Доля запросов, где пользователь не удовлетворился на первой странице и перешел на следущие страницы выдачи. Чем меньше - тем лучше.

ce Клик-энтропия результатов. Чем меньше (бит) - тем лучше.

1tm Время между запросом (моментом получения результатов поиска) и первым кликом на один из результатов. Чем меньше - тем лучше.

acp Средняя позиция кликов. Чем меньше/выше - тем лучше.

p1c Средняя позиция первого клика. Чем меньше/выше - тем лучше.

otk или br Bounce Rate - показатель отказов. Пусть мы знаем, что средний анализ результата занимает 60 сек. Поэтому мы можем подсчитать долю "плохих результатов", на которые было потрачено например меньше 20 секунд. Чем меньше - тем лучше.

c1c0 c1c0 = c1/(1-c0) - чем больше, тем лучше. Доступна на liveinternet

cacp cacp = sqrt(acp*otk) Средняя позиция кликов с коррекцией на отказы результатов.

cacpc0 cacpc0 = (c0*acp*otk)^(1/3) Средняя позиция кликов с коррекцией на отказы с учетом нулевых кликов.

Критика маркерного метода

Основным мотивом для создания оценок удовлетворенности качеством поиска были проблемы маркерного метода.

Маркерный метод не чувствует персонализации поиска. Если поисковик учитывает прошлую историю поиска или пользовательские предпочтения, то маркерный метод никак этого не увидит.

По этой же причине маркерный метод не увидит географической оптимизации поисковика.

Маркерный метод содержит информацию, что некоторая страница подходит для запроса, но если поисковик показывает на первом результате другую хорошую страницу (интернет большой), которой нет в базе маркеров, то маркерный метод некорректно занижает данный ответ поисковика. Непрерывно следить за полнотой маркеров - очень трудоемкая задача.

Маркерный метод содержит небольшое (до 1000) число запросов, данные запросы могут быть вручную промодерированы (со стороны испытуемых), что снижает объективность оценок.

База маркеров обычно содержит оценки от небольшого (2-20) количества экспертов, что нарушает объективность базы. Расхождения мнений между экспертами часто никак не учитываются.

Поисковики успешно обрабатывают десятки миллионов уникальных запросов пользователей. Эксперты-люди не могут знать всё и ограничены в своих возможностях понимать, о чем идет речь и какой результат наиболее релевантен. Это похоже на то, что пользователи поисковика говорят на разных сленгах и эксперты не понимают их. Чем выше сложность запроса, тем хуже точность оценок экспертов и хуже точность маркерного метода.

2009-2011 Sergey Protasov.