切换至 "中华医学电子期刊资源库"
图/表 详细信息
分类 评价维度 名称 意义
算法性能指标 检测性能 AP/mAP 通过计算Precision-Recall曲线下面积,综合评估模型在查准率和查全率之间的平衡能力,体现了模型对特定病灶的识别质量。其中AP针对某一个特定类别目标的检测效果,而mAP是所有类别AP的平均值,更能体现出模型的综合检测能力。
  分割性能 IoU/mIoU 衡量预测区域与真实标注区域的重叠程度。比例越高,模型精度越高。其中IoU用于评估对特定解剖结构的重叠精度,而mIoU是对所有类别交互比的算术平均,用于衡量模型的整体分割性能。
    Dice系数 衡量预测区域与真实标注区域的相似度,取值在0到1之间。相比IoU对微小偏移更包容,更符合临床医师对病变区域重合度的视觉感知。
    HD 衡量预测轮廓与真实轮廓之间最远点的距离,HD的降低反映了模型对精细解剖边界的勾勒能力。
  分类性能 准确率 模型预测正确的样本占总样本的比例。但在牙周病样本不平衡时(如健康患者远多于患病患者)时,参考价值有限。
    精确率 即查准率,在所有被AI诊断为"有病"的患者中,真正有病的比例。用来衡量误诊率。
    灵敏度/召回率 衡量模型找回所有"患病"样本的能力。用来衡量漏诊率。
    特异度 又称为真阴性率,指在实际无病人群中被检测为阴性的比例。
    F1分数 精确率和灵敏度的平衡指标
    ROC/AUC 衡量模型区分患病与健康样本的综合能力。取值范围为0 ~ 1,越接近1,分类器越优秀。
    PA/mPA PA指图像中被正确分类的像素占总像素数的比例。mPA是所有类别的准确率的算术平均值。用于衡量图像中像素分类的正误。
临床决策评价 诊断有效性 一致性评价(Kappa系数/ICC) 衡量模型的诊断结果与资深医师诊断结果的一致性。
  测量准确性 MAE 衡量模型预测值与真实值之间残差的平均绝对值。评价模型给出的骨吸收值(mm)是否可靠。或在分期诊断中,衡量骨流失比例预测的准确性。
  综合指标 MAP 结合了定位与分类性能的检测指标,定义为所有类别平均精度的算术平均值。平均精度是根据检测器做出的所有预测结果计算得出的。衡量模型在保证不漏诊的前提下,还能维持低误诊率的综合能力。
表5 评估人工智能(AI)模型性能的常见指标汇总
本文的其它图/表

AI


AI小编
你好!我是《中华医学电子期刊资源库》AI小编,有什么可以帮您的吗?