Войдите, чтобы отправлять практику и сохранять прогресс.
Шаг 1 из 5/0/5
Теория
Evaluation harness - это память качества. Он не дает команде перепутать случайно удачный ответ с по-настоящему надежной системой.
Без заранее определенного pass/fail почти любая правка выглядит улучшением. Именно так регрессии и выживают в продакшене.
Даже небольшой harness должен содержать sample cases, failure labels, thresholds и формат отчета, по которому версии реально можно сравнивать.
Failure labels должны вести к решению по исправлению, а не к размытому раздражению. Метки вроде inaccurate, off-policy или missing evidence уже подсказывают, куда именно смотреть команде.
Продакшен-качество - это тренд, а не один запуск. Имеет значение устойчивость на серии кейсов и на последовательности итераций.