| 算法性能指标 | 检测性能 | AP/mAP | 通过计算Precision-Recall曲线下面积,综合评估模型在查准率和查全率之间的平衡能力,体现了模型对特定病灶的识别质量。其中AP针对某一个特定类别目标的检测效果,而mAP是所有类别AP的平均值,更能体现出模型的综合检测能力。 |
| | 分割性能 | IoU/mIoU | 衡量预测区域与真实标注区域的重叠程度。比例越高,模型精度越高。其中IoU用于评估对特定解剖结构的重叠精度,而mIoU是对所有类别交互比的算术平均,用于衡量模型的整体分割性能。 |
| | | Dice系数 | 衡量预测区域与真实标注区域的相似度,取值在0到1之间。相比IoU对微小偏移更包容,更符合临床医师对病变区域重合度的视觉感知。 |
| | | HD | 衡量预测轮廓与真实轮廓之间最远点的距离,HD的降低反映了模型对精细解剖边界的勾勒能力。 |
| | 分类性能 | 准确率 | 模型预测正确的样本占总样本的比例。但在牙周病样本不平衡时(如健康患者远多于患病患者)时,参考价值有限。 |
| | | 精确率 | 即查准率,在所有被AI诊断为"有病"的患者中,真正有病的比例。用来衡量误诊率。 |
| | | 灵敏度/召回率 | 衡量模型找回所有"患病"样本的能力。用来衡量漏诊率。 |
| | | 特异度 | 又称为真阴性率,指在实际无病人群中被检测为阴性的比例。 |
| | | F1分数 | 精确率和灵敏度的平衡指标 |
| | | ROC/AUC | 衡量模型区分患病与健康样本的综合能力。取值范围为0 ~ 1,越接近1,分类器越优秀。 |
| | | PA/mPA | PA指图像中被正确分类的像素占总像素数的比例。mPA是所有类别的准确率的算术平均值。用于衡量图像中像素分类的正误。 |
| 临床决策评价 | 诊断有效性 | 一致性评价(Kappa系数/ICC) | 衡量模型的诊断结果与资深医师诊断结果的一致性。 |
| | 测量准确性 | MAE | 衡量模型预测值与真实值之间残差的平均绝对值。评价模型给出的骨吸收值(mm)是否可靠。或在分期诊断中,衡量骨流失比例预测的准确性。 |
| | 综合指标 | MAP | 结合了定位与分类性能的检测指标,定义为所有类别平均精度的算术平均值。平均精度是根据检测器做出的所有预测结果计算得出的。衡量模型在保证不漏诊的前提下,还能维持低误诊率的综合能力。 |