论文部分内容阅读
随着互联网的飞速发展和医疗信息化建设的推进,信息的爆炸式增长导致了信息过载,给有效的信息获取带来挑战。面对医疗领域复杂和多样化的信息需求,医学信息检索和推荐系统能够帮助用户获取所需的知识和信息,在实际应用中发挥着越来越重要的作用。近年来,数据挖掘技术的发展推动了面向医疗大数据的知识发现,用于辅助诊疗决策并提高医疗健康服务水平。在智能信息处理中,语义网因提供计算机能理解的知识并支持语义推理而得到广泛的应用。针对语义网信息不完整和数据稀疏等问题,引入张量和张量分解方法以利用其处理多维异构数据的优势。因此,本文以张量分解和语义网结合的技术框架为核心,围绕两种核心技术在医疗大数据分析中的应用展开研究,针对其中的一些关键问题进行了探索,并应用到语义增强的医疗信息检索和推荐系统中。具体的,本文的主要研究内容如下:(1)提出基于语义网的语义分析方法。为更好地理解和分析大数据中的非结构化文本,引入语义网络以减小语义鸿沟,通过构建基于查询的扩展网络从语义网中抽取子图,采用复杂网络分析方法进行量化分析。在实证研究中分析网络特性,提出改进的网络特征用于语义相关性分析。结合在自然语言处理中广泛应用的实值词向量,构建基于语义扩展的询证医学文献自动分级系统,用于识别和推荐高质量的医学文献,通过实验验证了提出方法的有效性。(2)研究基于分解模型的数据分析方法及其在医疗领域的应用。第一,在数据驱动的慢性疾病预测中,采用推荐系统中被广泛应用的协同过滤思想,构建三维张量并引入诊疗属性或时间维度,基于非负张量分解方法实现疾病预测。采用大规模电子病历数据进行评估,验证所提出的方法能够实现更加有效的预测。第二,在预测住院病人跌倒事故的研究中,提出构建四维张量并对分解的时间维度进行滑动平均的预测方法。实验表明,本文提出的方法较传统方法提高了预测精度。第三,针对医疗数据中通常存在大量缺失值的问题,介绍了分解机在数据分类任务上的应用。(3)构建了语义增强的医疗信息检索系统,提出从结构化和非结构化的信息源分别抽取信息进行查询词扩展的方法。针对语义网信息不完整和数据稀疏等问题,引入三维张量表示语义网中的三元组结构,基于有限的标记样本,采用张量分解进行语义三元组重要性的评估,选取语义网络中优化的查询扩展路径。针对检索性能对扩展词敏感的特点,利用检索系统的反馈,采用增量式的策略调整用于扩展的查询词。使用公共生物医学文献数据集进行评测,并和主流的信息检索系统进行比较,本文提出的方案能显著提高医学信息检索系统的性能。(4)提出基于三元关系的网络社区医疗问答推荐方法。通过分析在线医疗问答系统中的“问题-标签-专家”三元关系,构建面向医疗领域专家的推荐系统,应用基于分块坐标下降的非负张量补全进行预测。将推荐算法与传统的信息检索方法相结合,面向医疗问题进行答案检索和推荐,通过实验验证方法的可行性和有效性。以上研究表明,语义网和张量分解分别在语义分析和数据挖掘中展现出重要的研究价值和实用价值,融合两种技术的方案在医疗信息检索和推荐等应用中展现出优异的性能。