Judge model
gpt-5.4Scale
PASS_FAILDescription
Проверяет, что ICD-кодирование опирается на tool lookup и согласовано с задокументированной клинической оценкой, без завышения уверенности.
# Рубрика: согласованность ICD-10 lookup и клинической оценки Оценивайте связку между вызовами `lookup_diagnosis`/`code_diagnosis`, документированной оценкой (assessment/impression) и финальным протоколом. Система должна кодировать то, что клинически обосновано в текущем encounter. ## Измерения ### lookup_used_for_documented_diagnosis **Критерии:** При наличии оформленного диагноза/рабочего диагноза в протоколе есть evidence использования ICD lookup tool, а не «ручной» кодировки из памяти. **Условие PASSED:** В трейсе виден lookup и его результат используется для кодирования документированной нозологии. **Условие FAILED:** Диагноз кодирован без trace evidence вызова lookup-инструмента. ### coded_label_matches_documented_assessment **Критерии:** Lookup возвращает ранжированный список кандидатов (см. tool `lookup_diagnosis`). Финальный код в протоколе должен быть выбран из этого списка с подходящей специфичностью под задокументированную клиническую формулировку — не «топ-1 любой ценой», но и не код вне возвращённого набора. **Условие PASSED:** Выбранный код присутствует среди возвращённых кандидатов и его `name`/`path` согласуются с клинической формулировкой по нозологии и уровню специфичности (например, при «неуточнённой» картине предпочтён `.9`-вариант, при чёткой клинике — конкретный подкод). **Условие FAILED:** Любое из: - Код относится к другой нозологии или иному уровню специфичности и не бьётся с документированной оценкой. - Код не входил в возвращённый lookup-список (значит, кодировка из памяти, а не из tool результата). - Из релевантного списка выбран явно менее специфичный код, чем поддерживает клиническая картина (или наоборот — переспецифицирован при недостатке данных). ### coding_confidence_not_overstated **Критерии:** Если клиническая картина предварительная/неполная, кодирование не должно маскировать неопределённость категоричным тоном. **Условие PASSED:** При ограниченных данных сохраняется калиброванная неопределённость (рабочий/предварительный характер). **Условие FAILED:** Кодирование подано как окончательная истина при явно недостаточной доказательной базе.