Войдите, чтобы отправлять практику и сохранять прогресс.
Шаг 1 из 5 · 0/5
Теория
6 мин на этот шаг
Теория
Evaluation harness - это память качества prompt-системы: он показывает, изменения улучшают систему или вредят ей.
Если pass/fail не определены, каждая правка кажется «улучшением», а регрессии остаются невидимыми.
Минимальный, но сильный harness включает sample cases, ярлыки сбоев, threshold-правила и структуру отчета.
Ярлыки сбоев должны вести к действию: указывать на конкретную правку, а не на размытую критику.
Оценивайте тренд во времени, а не один запуск: production-качество - это стабильность в итерациях.
Критерии прохождения
- Порог100/100
Завершите текущий шаг, чтобы открыть следующий.Попытки: 0 · это общее количество ваших отправок по этому шагу