统计模型和机器学习方法在交叉科学研究中的一些整合应用

来源 :厦门大学 | 被引量 : 0次 | 上传用户:xjc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经典统计模型通常有比较好的解释性,但有时在预测性能上表现欠佳;与之相反,机器学习方法在一些问题中表现出了良好的预测性能,但往往难以对问题机制做出解释。面对实际问题,恰当地将统计模型与机器学习方法相结合,则有助于对问题进行深入研究,揭示其中的机理。本文通过两个交叉研究课题,即“金属-有机单层结构的合成和生长机理”以及“食管癌复发的相关因素分析”,对统计模型与机器学习的整合应用进行一些探索和尝试。在探究金属-有机单层结构的合成和生长机理中,我们着重研究对相的分类问题和对目标产物的厚度预测问题。关于相的分类,利用随机森林实现对相的精确归类,Kappa值达到0.86;对于厚度的预测,在保留线性回归模型良好的解释力的情况下,先采用聚类分析,寻求表现较优的区域,然后采用判别分析、Logistic回归探究样本空间的特征;接着,为进一步探究反应机理,引入中间产物,建立回归模型,利用逐步回归进行变量选择,研究反应物、中间产物的关系;进而在只有反应物、目标产物的数据中预测中间产物用量;最后,我们尝试将厚度预测问题转化为“厚-薄”二分类问题,基于反应物、预测的中间产物建立随机森林模型。经过比较,发现随机森林模型的预测性能明显优于仅用反应物建立的模型,Kappa值从0.4067提升至0.6179。这提示了引入的中间产物对于厚度研究起着关键作用。在食管癌复发的相关因素分析中,首先进行单因素分析,利用Pearson卡方检验、Fisher精确性检验、log-rank检验,探究年龄、性别、病变长度等因素与瘤床区复发、吻合口复发、远端转移和生存时间的相关关系,发现切端阳性患者吻合口复发的几率更高(P=0.064),病变长度长的患者出现远端转移的几率更高(P=0.091),溃疡型肿瘤患者出现远端转移的几率更高(P=0.03),病变长度长(P=0.068)、淋巴结个数多(P=0.081)、切端阳性(P=0.015)患者的生存时间更短。然后根据单因素分析的结果,将部分变量纳入多因素分析,建立Logistic回归模型和COX比例危险模型模型,发现病变长度、肿瘤类型、切端类型为危险因素,病变长度长、溃疡型肿瘤的病人有更高的远端转移的几率,病变长度长、切端阳性的病人生存的时间相对较短。最后,利用基于树的机器学习算法iRF,探究变量间可能存在的交互作用,发现对于瘤床区复发,T分期、淋巴结个数之间存在交互作用;对于远端转移,病变长度、淋巴结个数之间存在交互作用;对于吻合口复发,病变长度、淋巴结清扫个数之间存在交互作用。
其他文献
1 用铜材质来做饮水机内胆的初衷饮水机从90年代中期从国外引进,因其技术结构简单且需求幅度大增,而引发众多中小企业纷纷争造,但对饮水机技术结构分析、研究、改进的企业较
G20峰会于2016年9月4日在浙江杭州召开,为了让峰会圆满举行,杭州市政府和人民在市容市貌、饮食和交通方面都做了充足的准备。单就交通而言,一向重视绿色出行的杭州市政府推出
利用优质粉煤灰、专用外加剂、普通硅酸盐水泥等原料对混凝土小型空心砌块配制出专用砌筑砂浆,并对其性能进行了研究.实验结果表明,该砂浆具有良好的工作性、抗渗性和较小的
2008年11月~12月中旬。信阳、驻马店、南阳等地小麦的零星田块陆续出现黄苗、死苗现象,而且有扩大、蔓延的趋势。农业部门和农民群众深刻认识到这一问题,积极采取措施进行补救,取
本文主要运用试验手段,通过反复测试,研究新工质R410A在普通家用空调上的性能情况以及相关系统调整情况,为R410A在空调器上的全面应用提供依据.