Openstack DevOps and IBM/Informix Certified DBA . Phd in Math (Duality of spaces of... · 26 февр 2022
В распознавании образов, поиске и классификации информации (машинном обучении) precise и recall являются показателями производительности, которые применяются к данным, извлеченным из коллекции, корпуса или выборочного пространства.
Precision (также называемая положительной прогностической ценностью) — это доля релевантных экземпляров среди извлеченных экземпляров, а recall (также известный как чувствительность) — это доля релевантных экземпляров, которые были извлечены. Таким образом, и precision,и recall основаны на релевантности.
===================================
Рассмотрим компьютерную программу для распознавания собак (соответствующий элемент) на цифровой фотографии. При обработке изображения, содержащего десять кошек и двенадцать собак, программа идентифицирует восемь собак. Из восьми элементов, идентифицированных как собаки, только пять на самом деле являются собаками (истинно положительные результаты), а остальные три — кошками (ложноположительные результаты). Были пропущены семь собак (ложноотрицательные результаты) и семь кошек были исключены правильно (истинно отрицательные результаты).
Тогда precision программы составляет 5/8 (истинные положительные результаты/выбранные элементы), а ее recall — 5/12 (истинные положительные результаты/релевантные элементы).
==============================
Когда поисковая система возвращает 30 страниц, только 20 из которых релевантны, но не возвращает 40 дополнительных релевантных страниц, ее precision составляет 20/30 = 2/3, что говорит нам о том, насколько достоверны результаты, в то время как ее recall равен 20/60 = 1/3, что говорит нам о том, насколько полны результаты.
=============================
Принятие статистического подхода к проверке гипотез, при котором нулевая гипотеза в данном случае состоит в том, что данный объект нерелевантен, т. е. не собака, отсутствие ошибок типа I и типа II (т. е. идеальная специфичность и чувствительность 100% каждый) соответствует идеальной точности (отсутствие ложных срабатываний) и идеальному отзыву (отсутствие ложноотрицательных результатов).
=========================
В более общем смысле recall — это просто дополнение частоты ошибок типа II, то есть единица минус частота ошибок типа II. Точность связана с частотой ошибок типа I, но несколько более сложным образом, так как она также зависит от предварительного распределения того, увидят ли релевантные и нерелевантные элементы. Приведенный выше пример с кошкой и собакой содержал 8 − 5 = 3 ошибки типа I при частоте ошибок типа I (3/8) и 12 − 5 = 7 ошибок типа II при частоте ошибок типа II (7/12). Precion можно рассматривать как меру качества, а reacall — как меру количества. Более высокая точность означает, что алгоритм возвращает более релевантные результаты, чем нерелевантные, а высокий recall означает, что алгоритм возвращает большую часть релевантных результатов (независимо от того, возвращаются ли также нерелевантные результаты).