Войдите, чтобы отправлять практику и сохранять прогресс.

Шаг 1 из 5 · 0/5

Теория

6 мин на этот шаг

Теория

Evaluation harness - это память качества prompt-системы: он показывает, изменения улучшают систему или вредят ей.

Если pass/fail не определены, каждая правка кажется «улучшением», а регрессии остаются невидимыми.

Минимальный, но сильный harness включает sample cases, ярлыки сбоев, threshold-правила и структуру отчета.

Ярлыки сбоев должны вести к действию: указывать на конкретную правку, а не на размытую критику.

Оценивайте тренд во времени, а не один запуск: production-качество - это стабильность в итерациях.

Критерии прохождения

  • Порог100/100
Завершите текущий шаг, чтобы открыть следующий.Попытки: 0 · это общее количество ваших отправок по этому шагу