Стоимость моделей¶

Eval AI Library отслеживает затраты на API для всех вызовов LLM. Ниже приведены цены поддерживаемых моделей и рекомендации по оптимизации затрат.

OpenAI¶

Модель	Вход ($/1M токенов)	Выход ($/1M токенов)
gpt-4o	$2.50	$10.00
gpt-4o-mini	$0.15	$0.60
gpt-4	$30.00	$60.00
gpt-3.5-turbo	$0.50	$1.50
o1	$15.00	$60.00
o3-mini	$1.10	$4.40

Модели эмбеддингов¶

Модель	Вход ($/1M токенов)
text-embedding-3-small	$0.02
text-embedding-3-large	$0.13

Google Gemini¶

Модель	Вход ($/1M токенов)	Выход ($/1M токенов)
gemini-2.5-pro-preview	$1.25	$10.00
gemini-2.5-flash-preview	$0.15	$0.60
gemini-2.0-flash	$0.10	$0.40
gemini-2.0-flash-lite	$0.075	$0.30
gemini-1.5-pro	$1.25	$5.00
gemini-1.5-flash	$0.075	$0.30
gemini-1.5-flash-8b	$0.0375	$0.15

Anthropic Claude¶

Модель	Вход ($/1M токенов)	Выход ($/1M токенов)
claude-sonnet-4-0	$3.00	$15.00
claude-3-7-sonnet-latest	$3.00	$15.00
claude-3-5-sonnet-latest	$3.00	$15.00
claude-3-5-haiku-latest	$0.80	$4.00
claude-3-haiku-20240307	$0.25	$1.25

Оценка затрат¶

Стоимость по метрикам¶

Количество вызовов LLM и приблизительная стоимость одной оценки при использовании gpt-4o:

Метрика	Вызовы LLM	Приблизительная стоимость (gpt-4o)
Answer Relevancy	4	~$0.003
Faithfulness	3	~$0.002
Contextual Relevancy	3	~$0.002
Contextual Recall	2	~$0.001
Bias / Toxicity	1	~$0.001
G-Eval (20 samples)	22	~$0.015
Answer Precision	0	$0.00
Tool Correctness	0	$0.00

Метрики Answer Precision и Tool Correctness полностью бесплатны, так как работают алгоритмически без обращений к LLM.

Пример: полная RAG-оценка¶

Оценка 100 тестовых кейсов с 4 метриками (Answer Relevancy + Faithfulness + Contextual Relevancy + Contextual Recall):

Вызовы LLM: 100 x (4 + 3 + 3 + 2) = 1,200 вызовов
Оценочная стоимость: ~$0.80 с gpt-4o

Это означает, что полная оценка RAG-системы на 100 тестах обойдётся менее чем в $1 при использовании gpt-4o.

Отслеживание стоимости в результатах¶

При verbose=True (по умолчанию) итоговая сводка включает информацию о стоимости:

======================================================================
                     📋 EVALUATION SUMMARY
======================================================================

Overall Results:
  ✅ Passed: 3 / 3
  ❌ Failed: 0 / 3
  📊 Success Rate: 100.0%

Resource Usage:
  💰 Total Cost: $0.034200
  ⏱️  Total Time: 12.45s
  📈 Avg Time per Test: 4.15s

======================================================================

Стоимость каждой метрики также доступна программно:

for _, test_results in results:
    for result in test_results:
        for metric in result.metrics_data:
            print(f"{metric.name}: ${metric.evaluation_cost:.4f}")

Оптимизация стоимости

Используйте gpt-4o-mini или gemini-2.0-flash для разработки и тестирования -- они в 15-25 раз дешевле gpt-4o
Используйте gpt-4o или claude-3-5-sonnet-latest для финальных оценок, когда важно качество
Метрики AnswerPrecisionMetric и ToolCorrectnessMetric бесплатны (не используют LLM)
Уменьшите параметр n_samples в G-Eval с 20 до 5-10 для экономии