论文部分内容阅读
慢性病已经成为我国人群的主要死因,死亡和患病持续上升。慢性病严重影响我国人口健康,其漫长的治疗过程也给患者本人、所在家庭以及整个社会造成了沉重的经济负担。科学证据表明,通过非药物治疗来管理慢性病的危险因素,可以达到对患者病情的有效控制。随着网络技术的进步,医疗健康类的网站也逐渐发展起来,Web已经成为传播医疗知识和信息的重要媒介和载体。 本文主要研究面向慢性病非药物治疗的知识库的构建,主要研究内容有: (1)指标体系。选取高血压和糖尿病两种典型慢性病,对其主要危险因素和生活方式干预进行总结和分析,建立高血压和糖尿病的非药物治疗指标体系。 (2) Web信息采集。结合站长之家(www.chinaz.com/)的医疗健康网站排名榜单和专业医生的选择,确定4个网站作为知识库的Web数据源;实现基于模板的网络爬虫;利用爬虫从对应网站采集原始文本数据。 (3)文本分类。设计实现基于支持向量机的文本二分类器和文本多分类器,文本二分类器剔除与慢性病非药物治疗无关信息,文本三分类器将文本按照指标体系归入相应的知识类别中。根据分类结果分别构建高血压和糖尿病的非药物治疗知识库。 (4)结果评价。采用准确率、召回率、F1估计等指标对分类器进行测试评估;对知识库抽样,邀请专业医生对抽样结果进行判断,对知识库的可信度进行测试评估。评估结果可信度达到70%。 论文工作表明基于Web构建慢病非药物治疗知识库的方法具有潜在的应用价值。通过人工审核,增加智能过滤算法,可进一步提高知识库的有效性,使其达到慢病管理服务的专业性要求。