教育新闻聚类平台的设计与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:BruceLee_123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
阅读网络新闻已渐渐成为人们获取信息的一个重要渠道。网络新闻来源众多,并且报道角度和立场各不相同,粗略的新闻分类方式无法帮助用户了解新闻事件的前因后果。因此人们迫切希望通过计算机自动处理海量新闻流,快速发现社会热点事件,及时找到感兴趣的相关新闻报道。   本文面向教育领域,采用Web信息采集、网页分类、网页信息抽取以及话题检测以及追踪等技术对新闻话题信息进行挖掘,设计并实现了一个面向教育科研网络的教育新闻聚类平台,以帮助用户方便、快捷地了解当前教育国内外新闻热点和专题报道等密集型信息。   在Web信息抽取方面,本文结合新闻主题型网页动态模板的共同特点,以及待抽取信息块的不同语义特性,分别提出两种方法来完成新闻内容的抽取。在新闻正文抽取方面,提出一种基于信息块结构的迭代过滤方法,对每个互相嵌套的信息块采取“由内到外”以及“从小到大”的次序,通过语义过滤规则依次进行判断、抽取块内信息以及去除,最后达到正文精确抽取的效果。为了对新闻标题以及发布时间等进行信息抽取,结合其位置相对固定的特点,本文提出一种基于XPath规则的信息抽取方法,可以较有效地实现对这些重要信息的抽取。   在话题检测和追踪技术方面,以网络新闻报道流为研究对象,提出了一个实用的话题动态检测算法。该算法主要有以下改进:在文本向量空间模型下对特征项的选择,采用了命名实体以及重要动名词,降低了高维处理;在特征项权重的计算,考虑了新闻标题的重要影响指标,提高话题检测的精度;在话题排序方面,结合考虑了主题的时间和数量特性,提出一种话题得分排序方法来过滤不重要的话题;引入话题合并和调整的机制,提高话题追踪的效果。   从实验测试来看,本文提出的Web信息抽取方法能有效提高新闻信息抽取的准确度,而话题动态检测算法可有效改善系统的实用性。
其他文献
监控系统广泛应用于各个领域,如银行、电力、水电、教育、公安、大型公共设施、大型仓库、电信和交通等,对于保障工业生产、人民生活与社会安全具有重要意义。当前,随着科学技术
企业搜索引擎为用户提供互联网和企业内部与特定组织或特定主题相关联的网络信息检索服务。随着网络信息量爆炸式的增长,企业搜索引擎需要提高采集数据质量,并保障系统的处理规
图像的精细分割技术(抠图)是指把任意形状的前景物体从图像中精细分割出来的一种技术,它是一种重要的图像处理技术,也是计算机视觉领域中的主要问题。图像精细分割是由图像处理进
混沌时间序列预测是混沌理论的一个重要应用领域和研究热点。目前有关混沌时间序列的分析预测主要集中在对单变量混沌时间序列的研究中。事实上,复杂混沌系统往往表现为多变量
业务敏捷性是指企业对变更快速和有效地进行响应,并且利用变更来得到竞争优势的能力。为了更好的支持业务敏捷性,企业IT系统必须解决异构编程和业务建模这两个基本问题。面向服
机器人远程控制随着互联网技术的发展逐渐成为目前的研究热点,它具有广泛的应用前景。传统的机器人远程控制是采用基于视频监控的方式.但是由于视频或图像的信息量比较大,会大量
随着信息化过程的不断深入发展,高校或企业内部的应用服务趋向多元化,应用服务不断增加。同时,在高校、企业中,由于用户数众多,组织结构复杂,故身份认证和访问控制显得尤为重要。如
我国的制造企业采取了“以信息化带动工业化、以工业化促进信息化”的战略举措,对实现支持多企业间的资源广泛共享、实现上下游企业链敏捷组合的网络化制造环境提出了迫切需求
随着IPv6网络的快速发展,网络流量日益增大,针对IPv6网络的入侵技术也在不断的发展,用户对IPv6网络的实时安全防护提出了更高的要求。目前,国内外网络还原分析产品大多针对IPv4网
数据挖掘是从大量数据中提取可信的、新颖的、有效的并能被人们理解的模式的处理过程。它汇集了统计学、机器学习、数据库、模式识别、人工智能等学科的内容,是一门新兴的交叉