ClinEnv:面向Agent的交互式多阶段电子健康记录(EHR)环境
2026/6/21 21:13:26 网站建设 项目流程

ClinEnv:面向Agent的交互式多阶段电子健康记录(EHR)环境

来源:arXiv:2606.02568
链接:https://arxiv.org/html/2606.02568v1
优化日期:2026-06-01
领域:临床AI、电子健康记录(EHR)、大型语言模型评估、多智能体系统


📌 概述与核心范式

ClinEnv是一个交互式基准测试,用于评估大语言模型(LLM)作为主治医生在真实住院患者 admissions 上的表现。其核心范式称为纵向住院模拟(Longitudinal Inpatient Simulation, LIS)。与传统的静态多项选择题基准不同,ClinEnv模拟了真实临床实践中:

  • 医生逐步收集异构信息
  • 在不确定性下做出顺序且不可逆的决策
  • 提交药物、程序和诊断,并通过EHR时间线进行验证

🚀 核心贡献

  1. 自动化案例构建:将原始EHR admissions 转换为多阶段案例,无需人工标注
  2. 交互式多智能体环境:临床信息在未请求时隐藏;模型必须向四个专用智能体查询后才能提交决策
  3. 双重评估框架:同时评估决策准确性(通过确定性本体匹配)和流程质量(信息覆盖率、成本效率)

📊 基准统计数据与数据源

指标数值
数据源MIMIC-IV v3.1 & v2.2
住院数3,509(1,809名唯一患者)
决策阶段9,297
真实决策26,043
决策类型分解诊断:71.7%
案例跨距平均每案例2.65阶段;49.8%为长跨距(≥3阶段)

🛠️ 方法论与架构

管线阶段

  1. 决策提取:从出院记录中提取主治级决策(若完整记录不可用,则缝合各部分)
  2. 时间锚定:滑动窗口智能体将每个决策定位到特定的时间线事件
  3. 阶段构建与验证:将时间线分段为有序阶段;跳过常规药物持续
  4. 诊断可判定性扫描:滑动窗口扫描识别最终诊断阶段的证据支持ICD代码

信息智能体(由GPT-5.4-mini驱动)

智能体角色与视图
Patient人口统计学、主诉、现病史、既往史(患者语言)
Nurse生命体征、液体平衡、MAR、床旁观察
Lab实验室/微生物学结果(语义查询解析)
History既往出院总结(纵向上下文)

交互模式

  • 直接模式:模型接收完整阶段上下文;无需查询即可提交决策
  • 交互模式:从无数据开始;最多60轮;每轮恰好一次工具调用。结构化提交强制每种决策类型的精确计数,以隔离推理与格式推断

📐 评估框架与指标

决策准确性

  • 匹配:匈牙利算法针对每种决策类型(诊断、药物、程序)
  • 药物评分:动作类型门控(开始/停止/切换/调整)+ ATC层次部分得分
  • 诊断/程序评分:层次F1(HDF1)基于ICD祖先集

流程质量

  • 信息效率:奖励精简查询;惩罚冗余查询
  • 实验室成本效率:将订购测试映射到CMS临床实验室费用时间表;计算浪费比率
  • 药物获取成本:通过RxNorm → NDC → NADAC定价 + WHO ATC/DDD估计每日成本

🔑 关键公式

s_{ATC} = \begin{cases}1.0 & \ell \geq |c^*| \\ 0.8 & \ell=5 \text{ (化学亚组)} \\ 0.6 & \ell=4 \text{ (药理类)} \\ 0.3 & \ell=3 \text{ (治疗组)} \\ 0.1 & \ell=1 \text{ (解剖组)} \\ 0.0 & \text{其他}\end{cases}
\text{eff} = \frac{\text{cov}}{\max\left(1,\;K/|\mathcal{A}_k|\right)}

🔍 关键发现与洞察

  • 天花板低:最强的模型(GPT-5.4)仅达到0.306 决策F1,表明真实世界临床推理仍有巨大提升空间
  • 诊断 vs. 管理:模型可靠恢复诊断(F1=0.51)但管理决策表现较差(F1=0.17)。瓶颈在于选择正确的药物身份,而非动作类型
  • 长跨距难度:性能在第一个管理阶段后急剧下降;准确率在第4阶段跌至0.03以下
  • 流程-结果解耦:结果质量与流程质量相互独立。GPT-5.4-nano等高效率模型实现低浪费(4.1%)尽管绝对准确率较低
  • 信息寻求减少浪费:更高的覆盖率与更低的实验室浪费相关;知道该寻找什么的模型检索相关证据并避免不必要测试
  • 信息访问非瓶颈:覆盖率在后期阶段保持稳定或上升,但决策准确率崩溃,指向临床推理为瓶颈约束

📝 局限性与作用范围

  • 测量与真实临床实践的一致性,而非最佳护理;合理替代方案可能得分不及
  • 评估仅针对住院场景,不涵盖门诊或急诊
  • 成本估算基于公开定价,实际医院成本可能不同

📂 资源链接与下载

资源链接
arXiv论文https://arxiv.org/html/2606.02568v1
GitHub(如有)https://github.com/…
MIMIC-IV数据https://mimicih.github.io/

📋 实验步骤与脚本资源

实验环境配置

# 克隆仓库gitclone https://github.com/ClinEnv/ClinEnv.gitcdClinEnv# 创建虚拟环境conda create-nclinenvpython=3.10conda activate clinenv# 安装依赖pipinstall-rrequirements.txt# 下载数据(如有脚本)bashscripts/download_data.sh

运行评估

# 运行完整评估python run_evaluation.py--modefull--outputresults/# 交互式评估python run_evaluation.py--modeinteractive --max-turns60--outputresults/interactive/# 直接模式评估python run_evaluation.py--modedirect--outputresults/direct/

资源下载脚本

# 下载MIMIC-IV数据bashscripts/setup_mimic.sh# 下载预训练模型与权重bashscripts/download_models.sh# 验证环境python scripts/validate_setup.py

🔍 专家总结

ClinEnv 通过引入纵向住院模拟范式,填补了临床推理评估领域的空白。其核心价值在于:

  1. 真实性:基于真实住院数据,涵盖药物、诊断和程序决策
  2. 交互性:模拟医生逐步收集信息的真实过程
  3. 双重评估:不仅评估决策结果,还评估决策流程的效率和质量
  4. 长跨距挑战:揭示了模型在长期决策中的性能衰减问题

该基准为评估LLM在临床环境中的表现提供了重要工具,特别适用于评估模型在不确定性下做出顺序决策的能力。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询