Перейти к содержанию

Обзор Dashboard

Страница Dashboard — основной вид для анализа результатов оценки. Здесь отображаются данные сессии с метриками, графиками и результатами тестов.

Обзор Dashboard

Выбор сессии

В верхней части страницы расположены:

  • Выпадающий список сессий — выбор из кэшированных сессий или просмотр последних результатов
  • Кнопка Refresh — перезагрузка данных из кэша
  • Кнопка Clear Cache — удаление всех кэшированных данных

Tip

Используйте описательные значения session_name при запуске оценок для удобного поиска:

results = await evaluate(
    test_cases=test_cases,
    metrics=metrics,
    show_dashboard=True,
    session_name="rag-v2.1-regression"
)

Карточки сводки

Три карточки показывают ключевую статистику:

Карточка Описание
Total Tests Количество тест-кейсов в сессии
Total Cost Суммарная стоимость API для всех метрик
Metrics Количество оцениваемых метрик

Вкладка Metrics

Сводка метрик

Каждая метрика отображается в виде карточки:

  • Название метрики — например, answerRelevancyMetric, faithfulnessMetric
  • Средний балл — цветовая кодировка (зелёный — высокий, красный — низкий)
  • Количество Passed / Failed
  • Success Rate — процент тест-кейсов, прошедших порог
  • Threshold — минимальный балл для прохождения
  • Model — модель оценки (например, gpt-4o-mini)
  • Cost — стоимость API для данной метрики

Графики

Два графика обеспечивают визуальный анализ:

  • Average Scores by Metric — столбчатая диаграмма сравнения средних баллов по метрикам
  • Pass/Fail by Metric — столбчатая диаграмма с количеством pass (зелёный) и fail (красный) по метрикам

Таблица результатов тестов

В нижней части отображается таблица всех тест-кейсов:

Столбец Описание
# Номер тест-кейса
Status Значок PASSED (зелёный) или FAILED (красный)
Input Входной запрос/промпт
Actual Output Ответ модели (сокращённый)
Details Кнопка для открытия подробного просмотра

Нажмите Details в любой строке, чтобы открыть детали тест-кейса.