Дашборд¶

Eval AI Library включает интерактивный веб-дашборд для визуализации результатов оценки. Дашборд помогает быстро анализировать результаты, сравнивать запуски и находить проблемные тестовые кейсы.

Включение дашборда¶

Во время оценки¶

Чтобы дашборд автоматически открылся в браузере после завершения оценки, установите show_dashboard=True:

results = asyncio.run(evaluate(
    test_cases=test_cases,
    metrics=metrics,
    show_dashboard=True,
    session_name="my-evaluation-2024-01"
))

Автономный запуск¶

Вы можете запустить дашборд отдельно для просмотра результатов предыдущих сессий из кеша:

eval-lib dashboard --port 14500 --host 0.0.0.0 --cache-dir .eval_cache

Флаг	По умолчанию	Описание
`--port`	`14500`	Порт сервера
`--host`	`0.0.0.0`	Хост сервера
`--cache-dir`	`.eval_cache`	Директория для кешированных результатов

Возможности дашборда¶

Дашборд предоставляет следующие разделы и функции:

Обзор сессий -- сводка по всем запускам оценки с датами и общими результатами
Детализация по метрикам -- оценки и процент прохождения для каждой метрики
Детали тестовых кейсов -- возможность "провалиться" в отдельные тестовые кейсы и увидеть подробности оценки
Анализ стоимости -- отслеживание затрат на API по метрикам и сессиям
Процент успеха -- общий и по-метричный процент прохождения
Визуальные графики -- распределения оценок и тренды

Кеширование сессий¶

Результаты кешируются в директории .eval_cache/:

.eval_cache/
├── session_2024-01-15_14-30-00.json
├── session_my-evaluation.json
└── ...

Используйте session_name, чтобы давать осмысленные имена запускам оценки. Это упрощает навигацию в дашборде при большом количестве сессий:

# Named session
results = await evaluate(
    test_cases=test_cases,
    metrics=metrics,
    show_dashboard=True,
    session_name="rag-v2-regression-test"
)

Технология¶

Дашборд построен на Flask и обслуживает статический фронтенд. Он работает локально и не отправляет данные на внешние сервисы, что обеспечивает конфиденциальность ваших результатов оценки.