Стоимость моделей¶
Eval AI Library отслеживает затраты на API для всех вызовов LLM. Ниже приведены цены поддерживаемых моделей и рекомендации по оптимизации затрат.
OpenAI¶
| Модель | Вход ($/1M токенов) | Выход ($/1M токенов) |
|---|---|---|
| gpt-4o | $2.50 | $10.00 |
| gpt-4o-mini | $0.15 | $0.60 |
| gpt-4 | $30.00 | $60.00 |
| gpt-3.5-turbo | $0.50 | $1.50 |
| o1 | $15.00 | $60.00 |
| o3-mini | $1.10 | $4.40 |
Модели эмбеддингов¶
| Модель | Вход ($/1M токенов) |
|---|---|
| text-embedding-3-small | $0.02 |
| text-embedding-3-large | $0.13 |
Google Gemini¶
| Модель | Вход ($/1M токенов) | Выход ($/1M токенов) |
|---|---|---|
| gemini-2.5-pro-preview | $1.25 | $10.00 |
| gemini-2.5-flash-preview | $0.15 | $0.60 |
| gemini-2.0-flash | $0.10 | $0.40 |
| gemini-2.0-flash-lite | $0.075 | $0.30 |
| gemini-1.5-pro | $1.25 | $5.00 |
| gemini-1.5-flash | $0.075 | $0.30 |
| gemini-1.5-flash-8b | $0.0375 | $0.15 |
Anthropic Claude¶
| Модель | Вход ($/1M токенов) | Выход ($/1M токенов) |
|---|---|---|
| claude-sonnet-4-0 | $3.00 | $15.00 |
| claude-3-7-sonnet-latest | $3.00 | $15.00 |
| claude-3-5-sonnet-latest | $3.00 | $15.00 |
| claude-3-5-haiku-latest | $0.80 | $4.00 |
| claude-3-haiku-20240307 | $0.25 | $1.25 |
Оценка затрат¶
Стоимость по метрикам¶
Количество вызовов LLM и приблизительная стоимость одной оценки при использовании gpt-4o:
| Метрика | Вызовы LLM | Приблизительная стоимость (gpt-4o) |
|---|---|---|
| Answer Relevancy | 4 | ~$0.003 |
| Faithfulness | 3 | ~$0.002 |
| Contextual Relevancy | 3 | ~$0.002 |
| Contextual Recall | 2 | ~$0.001 |
| Bias / Toxicity | 1 | ~$0.001 |
| G-Eval (20 samples) | 22 | ~$0.015 |
| Answer Precision | 0 | $0.00 |
| Tool Correctness | 0 | $0.00 |
Метрики Answer Precision и Tool Correctness полностью бесплатны, так как работают алгоритмически без обращений к LLM.
Пример: полная RAG-оценка¶
Оценка 100 тестовых кейсов с 4 метриками (Answer Relevancy + Faithfulness + Contextual Relevancy + Contextual Recall):
- Вызовы LLM: 100 x (4 + 3 + 3 + 2) = 1,200 вызовов
- Оценочная стоимость: ~$0.80 с gpt-4o
Это означает, что полная оценка RAG-системы на 100 тестах обойдётся менее чем в $1 при использовании gpt-4o.
Отслеживание стоимости в результатах¶
При verbose=True (по умолчанию) итоговая сводка включает информацию о стоимости:
======================================================================
📋 EVALUATION SUMMARY
======================================================================
Overall Results:
✅ Passed: 3 / 3
❌ Failed: 0 / 3
📊 Success Rate: 100.0%
Resource Usage:
💰 Total Cost: $0.034200
⏱️ Total Time: 12.45s
📈 Avg Time per Test: 4.15s
======================================================================
Стоимость каждой метрики также доступна программно:
for _, test_results in results:
for result in test_results:
for metric in result.metrics_data:
print(f"{metric.name}: ${metric.evaluation_cost:.4f}")
Оптимизация стоимости
- Используйте
gpt-4o-miniилиgemini-2.0-flashдля разработки и тестирования -- они в 15-25 раз дешевле gpt-4o - Используйте
gpt-4oилиclaude-3-5-sonnet-latestдля финальных оценок, когда важно качество - Метрики
AnswerPrecisionMetricиToolCorrectnessMetricбесплатны (не используют LLM) - Уменьшите параметр
n_samplesв G-Eval с 20 до 5-10 для экономии