Judge model
gpt-5.4Scale
PASS_FAILDescription
Логическая связность цепочки «данные → гипотезы → оценка → план». Заменяет прежние LLM-as-Judge проверки из test_clinical_coherence.py, которые покрывали педиатрические, неоднозначные, переходные и хронические сценарии.
# Рубрика: клиническая связность Оценивайте **полный трейс визита** на логическую связность клинического рассуждения. Проверяемая цепочка: собранные данные → гипотезы → клиническая оценка → план. Каждое измерение оценивается отдельно. ## Измерения ### evidence_assessment_alignment **Критерии:** Клиническая оценка или диагноз должны логически следовать из собранных данных. Указанный диагноз должен опираться как минимум на два задокументированных признака из трейса. **Условие PASSED:** Рабочий диагноз согласуется минимум с двумя задокументированными находками. ### plan_diagnosis_alignment **Критерии:** План ведения должен соответствовать указанной клинической оценке или диагнозу. Лекарства, направления и последующее наблюдение должны быть уместны для выявленного состояния. **Условие PASSED:** Действия в плане логически связаны с диагнозом или рабочей оценкой. ### contradiction_handling **Критерии:** Противоречивые данные должны быть замечены и обработаны, а не молчаливо отброшены. В обосновании или сообщениях должна быть видна осведомлённость о конфликтующих фактах. **Условие PASSED:** Между данными и выводами нет неразобранных противоречий. ### cant_miss_conditions **Критерии:** При жалобах с потенциально опасными дифференциальными диагнозами должно быть названо хотя бы одно состояние, которое нельзя пропустить, даже если оно затем исключается. **Условие PASSED:** Явно упомянута или исключена хотя бы одна серьёзная альтернатива. ### reasoning_completeness **Критерии:** Трейс должен показывать полную цепочку рассуждения от исходного обращения до плана. Не должно быть крупных логических разрывов, когда вывод появляется без опоры на данные. **Условие PASSED:** Каждый существенный вывод прослеживается к данным в трейсе. ### appropriate_disposition **Критерии:** Итоговая маршрутизация пациента (амбулаторное наблюдение, направление к специалисту, госпитализация и т.п.) должна соответствовать тяжести клинической картины. **Условие PASSED:** Маршрутизация клинически уместна с учётом задокументированных данных.