论文部分内容阅读
在当今“信息爆炸”的时代,如何快速有效地为数据处理采集大量外部网页信息资源,并将数据分析结果以可视化的方式呈现,从而提高使用者的决策和指挥效率,是目前网络信息研究的热点问题。这涉及到信息采集、信息抽取、相似度计算、数据可视化等多个领域的研究内容。本文根据跨域数据语义共享平台项目的要求,研究了网络信息采集和数据分析结果可视化的研究和实现。论文在阐述了信息采集和可视化的基本概念、原理和方法的基础上,分别详细介绍了信息采集和可视化的相关技术;在网络信息采集中,采取了深度和广度相结合的策略模式,应用了DOM树、HTML解析器和模板技术实现网页信息的采集和抽取,并通过改进了句子的语义相似度计算算法,对已抽取的信息进行过滤;在可视化展现中,独立开发了Spruce组件,实现了本体关系的可视化展现,利用Carrot2可视化组件和ZedGraph类库,实现了聚类结果和语义搜索结果的可视化展现。最后,通过实验验证了信息采集的可行性、信息过滤算法的高效性以及可视化展现的直观性,并对整个项目系统的I/O部分进行了功能测试,实验证明系统达到了设计要求。