Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Филиппов / филиппов.docx
Скачиваний:
38
Добавлен:
18.08.2022
Размер:
11.69 Mб
Скачать
  1. Оценка качества поиска.

Корректная оценка качества поиска является одним из ключевых факторов успешности поисковой системы. Для корректной оценки качества необходимы следующие элементы:

  • Набор документов

  • Набор запросов

  • Набор оценок релевантности относительно каждой пары «документ-запрос».

  • Проверка и тестовое разделение

Точность полнота.

Точность выдачи - отношение числа выданных релевантных документов к сумме числа выданных релевантных и числа выданных нерелевантных документов.

Полнота выдачи - отношение числа выданных релевантных документов к сумме числа выданных релевантных и числа не выданных релевантных документов.

Показатель, позволяющий найти баланс между точностью и полнотой поиска, называется F-мерой (F measure) и представляет собой их среднее гармоническое взвешенное

MAP.

В последние годы все большее распространение получают другие меры точности. Чаще всего в среде исследователей, участвующих в проекте TREC, используется (макро)усредненная средняя точность (Mean Average Precision — MAP), позволяющая оценить качество системы при разных уровнях полноты одним числом. Показано, что среди других показателей качества MAP обладает особенно хорошими дискриминирующими свойствами и устойчивостью. Рассмотрим множество документов, выданных системой вплоть до позиции очередного релевантного документа, и вычислим для этого множества значение точности. Усреднив значения точности всех таких множеств, мы получим среднюю точность (average precision) одного запроса (информационной потребности). Далее, для вычисления MAP (макроусредненной средней точности), среднюю точность (average precision) усредняют по всем запросам (информационным потребностям)

MAP – метрика качества ранжирования. Оценка качества выражается формулой:

Где – результат запроса j с 1-го по k, – кол-во запросов.

NDCG.

NDCG – метрика качества ранжирования. Оценка качества выражается формулой:

Где – релевантность документа m в j запросе, – кол-во запросов, подбираются так, чтобы NDCG была равна 1 при идеальном ранжировании.

 Выбор метрики для A/B теста.

Общая схема проведения A/B теста.

Определившись с метрикой (или с небольшим количеством метрик) можно применить математическую статистику чтобы провести контролируемый эксперимент: A/B тест

Пользователи сервиса случайно делятся на 2 (или более) групп Группа A - контрольная Группа B - новая версия поиска Собираются ключевые метрики С помощью статистических критериев оценивается статистическая значимость изменений в метриках (используя математическую статистику - проверку статистических гипотез)

Изучается поведение целевых метрик на исторических данных Подбирается подходящий статистический критерий, например параметрические (делающие предположения о форме распределения): Welch t-test Z-test для долей … или непараметрические (не делающие таких предположений): Бутстрап Ранговый критерий Манна-Уитни

Как подобрать статистический критерий для A/B теста.

Статистический критерий можно подобрать в зависимости от типа метрики (оценивается среднее, доля или разница в распределениях) Вида распределения метрики Симулируя изменение метрики на исторических данных (добавляя случайный эффект) и тестируя различные статистические критерии на предмет того соответствуют ли их ошибки I и II рода теоретическим значениям

Для выбранного статистического критерия и ожидаемого размера эффекта (изменения метрики) можно заранее примерно оценить размер группы и продолжительность теста Для проверки так-же проводят A/A тест - когда обе группы используют одинаковую версию поиска (ожидаем отсутствие статистически значимой разницы между группами)

При анализе результатов: не подбирать метрику после того как эксперимент уже проведен В случае с тестированием большого количества (>5) гипотез делать поправку на множественную проверку гипотез (например поправку Бонферони)

Соседние файлы в папке Филиппов