Анализ качества работы поисковых систем, оценка качества поиска

Удовлетворенность пользователей Yandex/Google/Go.Mail/Rambler/Bing (2011-2017)

Search Quality Yandex Google Mail Rambler (LiveInternet Data)

Удовлетворенность пользователей поисковика является важным аспектом качества поиска.

Удовлетворенность пользователей оценивается через такие метрики как число_сессий_в_неделю, число_визитов_в_месяц и другие метрики, связанные с активностью и интересом пользователя к поисковой системе. Исходные сырые необработанные данные - публичные счетчики, такие как например liveinternet или top.mail.ru.

Преимущества:

Удовлетворенность учитывает многие важные аспекты качества поиска, такие как персонализация, актуальность и свежесть.

Метрика удовлетворенности может зарегистрировать пользу от опечаточника, suggest, live search, маркета, ютюба, графа знаний и других сложноформализуемых аспектов качества поиска.

Метрика удовлетворенности может зарегистрировать вред от избыточной рекламы, с учетом способности/неспособности пользователей отличать рекламу от выдачи.

Недостатки:

К недостаткам удовлетворенности можно отнести зависимость от сезонности (день недели, время года), праздников, дистрибуционной активности и смещения в пользователях.

Если удовлетворенность оценивается через данные liveinternet, то есть зависимость от среднего присутствия счетчика в результатах поиска.

Скрытая активность ботнетов на компьютерах пользователей также может зашумлять метрику удовлетворенности.

Если качество поиска резко выросло или упало, то удовлетворенность меняется не сразу и не резко, а постепенно несколько месяцев.

Часть недостатков метрики можно устранить: коррекция на месяц года, переход на отношение метрик, коррекция на присутствие счетчика, помесячные наблюдения для смягчения эффектов праздников. На графиках выше, данные корректировки уже сделаны.

К сожалению рост или падение удовлетворенности не отвечает на вопрос, в чем была причина изменения удовлетворенности.

События на графике.

Данный график удовлетворенности пользователей регистрирует падение качества Go.Mail.Ru при отказе от Гугла в Январе 2012, а также медленный рост по мере развития собственного поиска Go.Mail.Ru

Удовлетворенность качеством Рамблера (переключение на Яндекс XML в июне 2011) растет в течении двух лет.

Удовлетворенность является хорошим дополнением к оценке качества через подмену результатов и с помощью асессоров.

Оценка качества поисковых систем через подмену результатов (2010-2011)

Качество поиска Гугл, Яндекс, Рамблер, Майл и Бинг.

качество поиска tmr качество поиска c1t1

качество поиска p1cl качество поиска otk

качество поиска acp качество поиска cacp

качество поиска c0 качество поиска cacpc0

Оценка качества поиска на основе данных LiveInternet.Ru

Методология сравнения качества поисковиков

Основная идея состоит в сборе нескольких параметров, описывающих поведение пользователей. Эти параметры имеют причинно-следственные связи с качеством поиска, сложностью запросов и удовлетворенностью пользователей поисковых систем. Например, c течением времени сложность запросов может увеличиваться, а удовлетворенность снижаться.

c0. Если пользователи, после выдачи результатов никуда не кликают, то это не очень хорошо. Чем больше доля таких запросов, тем хуже качество поисковика.

c1. Если пользователи, после выдачи результатов кликают на результаты ровно один раз и удовлетворяются, то это хорошо. Чем больше доля таких запросов, тем лучше качество поиска.

dl. Среднее число просмотренных сайтов на каждый запрос. Для основной части запросов - чем меньше, тем лучше. При условии, что число просмотренных сайтов больше нуля, то есть нулевые клики не учитываются.

tm или tmr. Среднее геометрическое число секунд, потраченное на анализ каждой ссылки в результатах выдачи. Чем больше, тем лучше.

aql. Средняя длина запроса. Чем больше - тем выше сложность и лучше качество.

rt. Итоговый рейтинг удовлетворенности качеством поиска (log(c1)-log(c0)-log(dl)+log(tm/60)).

so. Погрешность оценок.

Также могут использоваться следущие метрики, которые пока не используются:

c1t1. Доля запросов, где пользователь сделал ровно 1 клик по самой первой ссылке. Чем больше - тем лучше.

kp. Доля запросов, где пользователь не удовлетворился на первой странице и перешел на следущие страницы выдачи. Чем меньше - тем лучше.

ce Клик-энтропия результатов. Чем меньше (бит) - тем лучше.

1tm Время между запросом (моментом получения результатов поиска) и первым кликом на один из результатов. Чем меньше - тем лучше.

acp Средняя позиция кликов. Чем меньше/выше - тем лучше.

p1c Средняя позиция первого клика. Чем меньше/выше - тем лучше.

otk или br Bounce Rate - показатель отказов. Пусть мы знаем, что средний анализ результата занимает 60 сек. Поэтому мы можем подсчитать долю "плохих результатов", на которые было потрачено например меньше 20 секунд. Чем меньше - тем лучше.

c1c0 c1c0 = c1/(1-c0) - чем больше, тем лучше. Доступна на liveinternet

cacp cacp = sqrt(acp*otk) Средняя позиция кликов с коррекцией на отказы результатов.

cacpc0 cacpc0 = (c0*acp*otk)^(1/3) Средняя позиция кликов с коррекцией на отказы с учетом нулевых кликов.

Критика маркерного метода

Основным мотивом для создания оценок удовлетворенности качеством поиска были проблемы маркерного метода.

Маркерный метод не чувствует персонализации поиска. Если поисковик учитывает прошлую историю поиска или пользовательские предпочтения, то маркерный метод никак этого не увидит.

По этой же причине маркерный метод не увидит географической оптимизации поисковика.

Маркерный метод содержит информацию, что некоторая страница подходит для запроса, но если поисковик показывает на первом результате другую хорошую страницу (интернет большой), которой нет в базе маркеров, то маркерный метод некорректно занижает данный ответ поисковика. Непрерывно следить за полнотой маркеров - очень трудоемкая задача.

Маркерный метод содержит небольшое (до 1000) число запросов, данные запросы могут быть вручную промодерированы (со стороны испытуемых), что снижает объективность оценок.

База маркеров обычно содержит оценки от небольшого (2-20) количества экспертов, что нарушает объективность базы. Расхождения мнений между экспертами часто никак не учитываются.

Поисковики успешно обрабатывают десятки миллионов уникальных запросов пользователей. Эксперты-люди не могут знать всё и ограничены в своих возможностях понимать, о чем идет речь и какой результат наиболее релевантен. Это похоже на то, что пользователи поисковика говорят на разных сленгах и эксперты не понимают их. Чем выше сложность запроса, тем хуже точность оценок экспертов и хуже точность маркерного метода.

2009-2017 Sergey Protasov.