Перейти к содержанию

Стоимость моделей

Eval AI Library отслеживает затраты на API для всех вызовов LLM. Ниже приведены цены поддерживаемых моделей и рекомендации по оптимизации затрат.

OpenAI

Модель Вход ($/1M токенов) Выход ($/1M токенов)
gpt-4o $2.50 $10.00
gpt-4o-mini $0.15 $0.60
gpt-4 $30.00 $60.00
gpt-3.5-turbo $0.50 $1.50
o1 $15.00 $60.00
o3-mini $1.10 $4.40

Модели эмбеддингов

Модель Вход ($/1M токенов)
text-embedding-3-small $0.02
text-embedding-3-large $0.13

Google Gemini

Модель Вход ($/1M токенов) Выход ($/1M токенов)
gemini-2.5-pro-preview $1.25 $10.00
gemini-2.5-flash-preview $0.15 $0.60
gemini-2.0-flash $0.10 $0.40
gemini-2.0-flash-lite $0.075 $0.30
gemini-1.5-pro $1.25 $5.00
gemini-1.5-flash $0.075 $0.30
gemini-1.5-flash-8b $0.0375 $0.15

Anthropic Claude

Модель Вход ($/1M токенов) Выход ($/1M токенов)
claude-sonnet-4-0 $3.00 $15.00
claude-3-7-sonnet-latest $3.00 $15.00
claude-3-5-sonnet-latest $3.00 $15.00
claude-3-5-haiku-latest $0.80 $4.00
claude-3-haiku-20240307 $0.25 $1.25

Оценка затрат

Стоимость по метрикам

Количество вызовов LLM и приблизительная стоимость одной оценки при использовании gpt-4o:

Метрика Вызовы LLM Приблизительная стоимость (gpt-4o)
Answer Relevancy 4 ~$0.003
Faithfulness 3 ~$0.002
Contextual Relevancy 3 ~$0.002
Contextual Recall 2 ~$0.001
Bias / Toxicity 1 ~$0.001
G-Eval (20 samples) 22 ~$0.015
Answer Precision 0 $0.00
Tool Correctness 0 $0.00

Метрики Answer Precision и Tool Correctness полностью бесплатны, так как работают алгоритмически без обращений к LLM.

Пример: полная RAG-оценка

Оценка 100 тестовых кейсов с 4 метриками (Answer Relevancy + Faithfulness + Contextual Relevancy + Contextual Recall):

  • Вызовы LLM: 100 x (4 + 3 + 3 + 2) = 1,200 вызовов
  • Оценочная стоимость: ~$0.80 с gpt-4o

Это означает, что полная оценка RAG-системы на 100 тестах обойдётся менее чем в $1 при использовании gpt-4o.

Отслеживание стоимости в результатах

При verbose=True (по умолчанию) итоговая сводка включает информацию о стоимости:

======================================================================
                     📋 EVALUATION SUMMARY
======================================================================

Overall Results:
  ✅ Passed: 3 / 3
  ❌ Failed: 0 / 3
  📊 Success Rate: 100.0%

Resource Usage:
  💰 Total Cost: $0.034200
  ⏱️  Total Time: 12.45s
  📈 Avg Time per Test: 4.15s

======================================================================

Стоимость каждой метрики также доступна программно:

for _, test_results in results:
    for result in test_results:
        for metric in result.metrics_data:
            print(f"{metric.name}: ${metric.evaluation_cost:.4f}")

Оптимизация стоимости

  • Используйте gpt-4o-mini или gemini-2.0-flash для разработки и тестирования -- они в 15-25 раз дешевле gpt-4o
  • Используйте gpt-4o или claude-3-5-sonnet-latest для финальных оценок, когда важно качество
  • Метрики AnswerPrecisionMetric и ToolCorrectnessMetric бесплатны (не используют LLM)
  • Уменьшите параметр n_samples в G-Eval с 20 до 5-10 для экономии