Дашборд¶
Eval AI Library включает интерактивный веб-дашборд для визуализации результатов оценки. Дашборд помогает быстро анализировать результаты, сравнивать запуски и находить проблемные тестовые кейсы.
Включение дашборда¶
Во время оценки¶
Чтобы дашборд автоматически открылся в браузере после завершения оценки, установите show_dashboard=True:
results = asyncio.run(evaluate(
test_cases=test_cases,
metrics=metrics,
show_dashboard=True,
session_name="my-evaluation-2024-01"
))
Автономный запуск¶
Вы можете запустить дашборд отдельно для просмотра результатов предыдущих сессий из кеша:
| Флаг | По умолчанию | Описание |
|---|---|---|
--port | 14500 | Порт сервера |
--host | 0.0.0.0 | Хост сервера |
--cache-dir | .eval_cache | Директория для кешированных результатов |
Возможности дашборда¶
Дашборд предоставляет следующие разделы и функции:
- Обзор сессий -- сводка по всем запускам оценки с датами и общими результатами
- Детализация по метрикам -- оценки и процент прохождения для каждой метрики
- Детали тестовых кейсов -- возможность "провалиться" в отдельные тестовые кейсы и увидеть подробности оценки
- Анализ стоимости -- отслеживание затрат на API по метрикам и сессиям
- Процент успеха -- общий и по-метричный процент прохождения
- Визуальные графики -- распределения оценок и тренды
Кеширование сессий¶
Результаты кешируются в директории .eval_cache/:
Используйте session_name, чтобы давать осмысленные имена запускам оценки. Это упрощает навигацию в дашборде при большом количестве сессий:
# Named session
results = await evaluate(
test_cases=test_cases,
metrics=metrics,
show_dashboard=True,
session_name="rag-v2-regression-test"
)
Технология¶
Дашборд построен на Flask и обслуживает статический фронтенд. Он работает локально и не отправляет данные на внешние сервисы, что обеспечивает конфиденциальность ваших результатов оценки.