Перейти к содержанию

Дашборд

Eval AI Library включает интерактивный веб-дашборд для визуализации результатов оценки. Дашборд помогает быстро анализировать результаты, сравнивать запуски и находить проблемные тестовые кейсы.

Включение дашборда

Во время оценки

Чтобы дашборд автоматически открылся в браузере после завершения оценки, установите show_dashboard=True:

results = asyncio.run(evaluate(
    test_cases=test_cases,
    metrics=metrics,
    show_dashboard=True,
    session_name="my-evaluation-2024-01"
))

Автономный запуск

Вы можете запустить дашборд отдельно для просмотра результатов предыдущих сессий из кеша:

eval-lib dashboard --port 14500 --host 0.0.0.0 --cache-dir .eval_cache
Флаг По умолчанию Описание
--port 14500 Порт сервера
--host 0.0.0.0 Хост сервера
--cache-dir .eval_cache Директория для кешированных результатов

Возможности дашборда

Дашборд предоставляет следующие разделы и функции:

  • Обзор сессий -- сводка по всем запускам оценки с датами и общими результатами
  • Детализация по метрикам -- оценки и процент прохождения для каждой метрики
  • Детали тестовых кейсов -- возможность "провалиться" в отдельные тестовые кейсы и увидеть подробности оценки
  • Анализ стоимости -- отслеживание затрат на API по метрикам и сессиям
  • Процент успеха -- общий и по-метричный процент прохождения
  • Визуальные графики -- распределения оценок и тренды

Кеширование сессий

Результаты кешируются в директории .eval_cache/:

.eval_cache/
├── session_2024-01-15_14-30-00.json
├── session_my-evaluation.json
└── ...

Используйте session_name, чтобы давать осмысленные имена запускам оценки. Это упрощает навигацию в дашборде при большом количестве сессий:

# Named session
results = await evaluate(
    test_cases=test_cases,
    metrics=metrics,
    show_dashboard=True,
    session_name="rag-v2-regression-test"
)

Технология

Дашборд построен на Flask и обслуживает статический фронтенд. Он работает локально и не отправляет данные на внешние сервисы, что обеспечивает конфиденциальность ваших результатов оценки.