论文部分内容阅读
阴道镜辅助下子宫颈活检是诊断子宫颈癌及其癌前病变的金标准,但目前其准确率、敏感度和特异度在很大程度上随着临床医生的经验水平和患者的身体状况而波动,存在着很大的局限性。同时,我国目前需要接受阴道镜检查的患者数量与经验丰富的阴道镜医生的数量不匹配,导致患者需要经过很长的待诊期才能得到相应的检查和治疗。医学人工智能和计算机辅助诊断能利用影像学、医学图像处理技术以及其他可能的生理、生化手段,结合计算机的深度学习和分析计算,辅助发现病灶,提高诊断准确率,在医学影像领域获得了突破性进展。人工智能和阴道镜诊断的结合,也许能有效缓解目前宫颈癌筛查的压力,提高诊断的效率和准确率。本研究回顾性调查浙江大学医学院附属妇产科医院阴道镜室自2013年8月至2019年2月诊治的共22330份合格病例,收集其阴道镜图像(7.5倍放大倍数下拍摄)、年龄、人乳头瘤病毒检测结果、子宫颈细胞学结果、子宫颈转化区类型、阴道镜活检病理结果等临床信息。以病理结果作为金标准用Lableme软件对阴道镜图像中的病变部位进行标注,按训练集:测试集:验证集=8:1:1的比例将所有入组病例进行随机分配。预先使用Image Net数据库中的百万张图片预训练出Rens Net模型,再输入大量训练集中的阴道镜图像进行迁移学习,训练出多模态ResNet分类模型,U-Net分割模型和Mask R-CNN检测模型,并计算验证集中该模型诊断及分割病变的准确率、敏感度、特异度、阳性预测值、阴性预测值、受试者工作特征曲线下面积、召回率、Dice指数等指标。同时,为了比较模型在普通阴道镜图像和高清阴道镜图像中的表现,本研究收集了浙江大学医学院附属妇产科医院阴道镜室2019年3月到2019年9月诊治的共5384份高清阴道镜图像病例作为独立样本再次验证上述三个模型的相关诊断指标,比较模型在不同类型的阴道镜图像中的适应性。除此之外,我们对五位来自浙江大学医学院附属妇产科医院的五位不同年资的阴道镜专家的阴道镜诊断、病理诊断、活检位点及每个活检位点对应的病理结果也进行了统计和分析。横向比较深度学习模型与临床不同年资的阴道镜专家的诊断能力。通过深度学习模型训练,RensNet分类模型区分阴道镜图像是否有病变的整体准确率、敏感度、特异度分别为84.10%、85.38%和82.62%。ROC曲线下面积达到0.93。在此基础上,U-Net分割模型在醋酸图像中分割出病变区域的召回率和Dice指数分别是84.73%和61.64%,整体准确率达95.59%。在碘图像中,召回率、Dice指数和整体准确率分别是:87.78%、63.80%和95.70%。除此之外,Mask R-CNN检测模型识别高级别鳞状上皮内病变的敏感度在醋酸图像和碘图像中分别达到了84.67%和84.75%。在高清阴道镜图像的独立样本验证中,分类模型表现比在普通阴道镜图像中稍差一些,区分是否有病变的敏感度、特异度和ROC曲线下面积分别是73.37%、58.16%和0.71。与阴道镜专家的诊断水平相比,模型诊断普通阴道镜图像的水平高于整体阴道镜专家的水平,诊断高清阴道镜图像的水平与年轻专家水平持平,比高年资专家水平稍差。分割模型和检测模型在两个数据库中的表现基本持平。在诊断决策所需时间上,临床医生诊断一个病例所需时间按分计算,而诊断模型从上传图像到输出结果总时间能控制在10秒以内,如果不计算图像上传的时间,模型进行诊断所需时间在1秒以内。本研究表明,基于深度学习的阴道镜诊断系统能较准确地区分正常和异常阴道镜图像,并能在此基础上分割出可疑病变的区域,指导HSIL区域活检。同时,计算机辅助诊断模型能够有效缓解当前阴道镜检查的压力,为分流患者、推荐活检部位提供了一种新思路。但是,模型在高清阴道镜图像中的诊断水平略低于在普通阴道镜图像中的诊断水平,还需要进一步提升优化。第一部分阴道镜下子宫颈鳞状上皮内病变的深度学习诊断系统的建立目的:回顾性收集大量临床阴道镜图像及相关临床资料,并进行预处理,为建立深度学习模型做好大数据的准备。在大数据集基础上,通过深度学习建立分类模型、分割模型和检测模型,形成一个完整的阴道镜人工智能辅助诊断系统。方法:回顾性调查浙江大学医学院附属妇产科医院阴道镜室自2013年8月至2018年3月所诊治的有病例,按照排除标准纳入合格病例后,收集其7.5倍镜下拍摄的阴道镜图像三张(生理盐水图像、醋酸图像、碘图像各一)、年龄、HPV检测结果、子宫颈细胞学结果、子宫颈转化区类型、阴道镜活检病理结果等临床信息。以病理结果作为金标准,用Labelme软件对阴道镜图像中的病变部位进行标注,并区分LSIL和HSIL。按训练集:测试集:验证集=8:1:1的比例将所有合格病例随机分配入组病例,最终以验证集的诊断结果作为模型的诊断结果。利用Image Net数据库预训练ResNet模型,再输入大量阴道镜图像进行迁移学习,建立多模态ResNet分类模型、U-Net分割模型和Mask R-CNN检测模型。计算分类模型的诊断准确率、敏感度、特异度、阳性预测值、阴性预测值,分割模型的召回率、Dice指数,检测模型的诊断准确率等指标。结果:1.经过纳入排除标准,共有22330例病例纳入研究,包括10365例正常病例、6357例LSIL病例和5608例HSIL病例。2.所有入组病例的年龄分布为:25岁以下:25-55岁:55岁以上=1.72%:92.22%:6.04%。所有入组病例中,高危HPV感染率为94.49%。所有入组病例的细胞学结果分布为:NILM:ASCUS:LSIL:ASCH:HSIL:SCC=33.67%:26.41%:23.49%:7.93%:8.40%:0.10%。所有病例的子宫颈转化区类型分布为:1型子宫颈转化区:2型子宫颈转化区:3型子宫颈转化区=12.99%:8.10%:78.91%。3.ResNet分类模型区分阴道镜图像是否有病变的整体准确率、敏感度、特异度分别为84.10%、85.38%和82.62%。ROC曲线下面积达到0.93。4.U-Net分割模型在醋酸图像中分割出病变区域的召回率和Dice指数分别是84.73%和61.64%,整体准确率达95.59%。在碘图像中,召回率、Dice指数和整体准确率分别是:87.78%、63.80%和95.70%。5.Mask R-CNN检测模型识别高级别鳞状上皮内病变的敏感度在醋酸图像和碘图像中分别达到了84.67%和84.75%。通过醋酸图像和碘图像识别出HSIL患者的准确率分别为87.27%和88.47%。结论:基于深度学习的计算机辅助诊断能较准确地区分正常和异常阴道镜图像,并能在此基础上分割出可疑病变的区域,指导HSIL区域活检。第二部分阴道镜下子宫颈鳞状上皮内病变的深度学习诊断系统的独立样本验证目的:收集独立样本(高清阴道镜图像)数据对诊断系统中的分类、分割和检测模型进行再次验证。横向比较模型在普通阴道镜图像和高清阴道镜图像中的表现。纵向比较模型诊断水平与临床阴道镜专家的诊断水平。方法:回顾性收集浙江大学医学院附属妇产科医院阴道镜室自2019年3月至2019年9月诊治的所有高清阴道镜图像病例,按照第一部分的排除标准纳入合格病例后,收集合格病例的临床资料(同第一部分)及5位不同年资的阴道镜专家的诊断结果、活检位点和各位点的病理结果。以病理结果作为金标准对阴道镜图像中的病变部位进行标注,所有病例均作为验证集计算结果。所得诊断准确率、敏感度、特异度、阳性预测值、阴性预测值、病变区域召回率、Dice指数等均同普通阴道镜图像结果进行纵向比较,和阴道镜专家的诊断结果进行横向对比。结果:1.ResNet分类模型在高清阴道镜图像中验证的整体准确率、敏感度、特异度分别为63.83%、73.37%和58.16%。ROC曲线下面积达到0.71。2.U-Net分割模型在醋酸高清阴道镜图像中分割出病变区域的召回率和Dice指数分别是85.35%和47.21%,整体准确率达94.32%。模型在碘高清阴道镜图像中的召回率、Dice指数和整体准确率分别是:85.87%、48.74%和94.52%。3.Mask R-CNN检测模型识别HSIL位点的敏感度在醋酸高清图像和碘高清图像中分别达到了84.76%和82.61%。通过醋酸高清图像和碘高清图像识别HSIL患者的准确率分别为:90.56%和89.78%。4.以正常和异常为界,五位专家的平均诊断敏感度、特异度和准确率分别为:70%,72.92%和71.83%;阳性预测值和阴性预测值分别为85.02%和83.03%。这个结果低于分类模型在普通阴道镜图像中的诊断结果,但高于分类模型在高清阴道镜图像中的结果。5.在病变病例中,五位专家活检出HSIL的平均准确率为27.5%;活检出SIL的平均准确率为67.97%;每个患者的平均活检个数为2.39。准确率均高于检测模型对HSIL活检位点的识别准确率。结论:诊断系统各模型在高清阴道镜图像中的表现较普通阴道镜图像中的表现略差。模型在普通阴道镜图像中的诊断水平高于高年资阴道镜专家水平;在高清阴道镜图像中的诊断水平同低年资阴道镜专家水平相当,低于高年资阴道镜专家水平。