Построение ROC-кривой в Excel (Задание 2)
Содержимое статьи:
Введение
ROC-кривая (Receiver Operating Characteristic curve) является мощным инструментом оценки производительности бинарных классификаторов. Она показывает компромисс между количеством истинно положительных (TP) и ложно положительных (FP) случаев при различных пороговых значениях.
Инструкция
Чтобы правильно построить ROC-кривую в Excel с вычислением TP и FP, воспользуйтесь следующими шагами:
1. Импортируйте данные
- Откройте файл Excel из ссылки: https://cloud.mail.ru/public/dFCg/K9PEPtgtn
- Выберите столбец "Истинный класс" (True Class) и столбец "Прогнозируемый класс" (Predicted Class).
2. Рассчитайте TP и FP - Для каждого порогового значения (от 0 до 1 с шагом 0,01) создайте столбцы для TP и FP:
- TP: =ЕСЛИ(И(ИСТИННО(ИЛИ(ИСТИНА();ЛОЖЬ())), ИСТИННО(ПРЕДСКАЗАНО())), 1, 0)
- FP: =ЕСЛИ(И(ИСТИННО(ИЛИ(ИСТИНА();ЛОЖЬ())), ИСТИННО(НЕ ПРЕДСКАЗАНО())), 1, 0)
3. Постройте ROC-кривую - Используйте диаграмму рассеяния для построения графика с осью X "Ложно положительная доля" (FPR) и осью Y "Истинно положительная доля" (TPR).
- Для FPR используйте формулу: =FP / (FP + ИСТИННО(ИСТИНА()))
- Для TPR используйте формулу: =TP / (TP + ЛОЖЬ(ИСТИНА()))
4. Добавьте точки данных - Нанесите точки данных на график для каждого порогового значения.
- Каждая точка представляет собой пару (FPR, TPR) для порогового значения.
5. Определите AUC - AUC (Area Under the Curve) измеряет общую производительность классификатора.
- Для его расчета используйте функцию СУММПРОИЗВ: =СУММПРОИЗВ(FPR, TPR)
Советы - Используйте условное форматирование для выделения значений TP и FP.
- Добавьте легенду для разных пороговых значений.
- Оцените производительность классификатора, анализируя ROC-кривую и значение AUC. Чем ближе ROC-кривая к левому верхнему углу и чем выше AUC, тем лучше производительность.