面向网络文本的信息可信度研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jerry8006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当互联网用户对一个疑惑的命题通过搜索引擎寻求答案时,不得不面对几十至几千条的搜索结果进行人工判别。网络上过量的搜索引擎返回结果分散了用户的精力和时间。又由于搜索引擎不能保证所有搜索结果的可靠性,其中掺杂的有误信息可能会误导用户,影响其做出正确的判断。如何过滤掉有误信息、筛选出可信信息是互联网用户面临的一个问题。因此研究信息可信度并帮助人们获取可信信息是有意义的。网络上传播的信息,其可信度与两大因素相关:信息源的可信度和信息在网络这一传播媒体中的传播转载的特点。本文在研究中同时考虑了这两方面因素,设计了两层特征空间来从网络文本信息中抽取可信信息候选集,通过信息源可信度分类和信息的可信度计算获取可信信息。两层特征空间的第一层是关于信息源的特征空间,用于判断信息源的可信度。通过组建可信信息、不可信信息的信息库,训练得到判断信息源可信度的模型。第二层特征空间用于判断信息的可信度,由信息源可信度及信息在网络中的覆盖率等其他统计信息组成,通过计算最终得到信息的可信度。本文的研究内容主要包括以下几方面:(1)在提取可信信息阶段,提出了利用词语结构特征从文本中提取可能为可信信息的候选信息。词语结构特征包括词性特征和命名实体特征,本文通过这两项特征来提取可信信息的候选集,实验中的提取准确度为91.25%。(2)在信息可信度计算阶段,提出了构造包括信息源特征和可信信息特征的两层特征空间,将第一层信息源的可信度分类结果加入到第二层可信信息特征空间中,再通过可信度计算,排序获得最终的高可信度答案。(3)结合本文提出的算法,设计实现了面向网络文本的信息可信度评估系统。系统在实验中获得89.2%的准确度。
其他文献
Spiking神经网络作为新一代人工神经网络,其时间编码的计算优势使其在研究领域的影响力与日俱增。在视觉神经系统的模拟层面,建立恰当的计算模型以模拟视网膜神经元的图像特征
变电站作为电网中电力中转的重要节点,担负着电压转换和电能分配的重要任务,变电站能否准确、安全、可靠地运行事关整个电网的安全和稳定。基于IEC61850标准的数字化变电站采用以太网进行架构,一般网络所面临的安全威胁,数字化变电站网络同样需要面对,特别是GOOSE报文对实时性和安全性都提出了极高的要求,因此如何在新形势下保障变电站报文传输安全就成为一项亟待解决的问题。针对以上问题,本文做了以下几个方面
为深入研究生物大脑处理信息以及学习的能力,研究者们提出了人工神经网络,用来模仿大脑信息表达以及处理的过程,而其中具有最高仿生性的是脉冲神经网络,它表达信息以及处理信
颜色是人们识别图像的主要感知特征,在模式识别与计算机视觉领域发挥了重要的作用。随着科学技术的发展以及计算机处理能力的提高,处理高维彩色图像数据成为了可能,因此彩色
众所周知,在计算机视觉和模式识别学科内,人脸识别是一个被研究很广泛的课题。如何找到一些行之有效的人脸特征来描述人脸是人脸识别技术的核心问题,现阶段成熟的人脸识别算
随着互联网的发展,传统关系型数据库在海量数据存储、高可扩展性、高可用性等新需求下显现出自身局限性。NoSQL数据库因其模式自由、支持分布式、支持最终一致性等特性可以很
随着万维网服务与应用的极速发展与壮大,万维网深入人心,越来越多的人使用万维网。然而,万维网的高速发展也带来了新的问题,IP地址有限、网络安全问题、网络流量和Web访问延迟等
内存数据库在实时应用领域扮演着重要角色,在电力调度、工业控制、数据通信、航空航天、证券交易等领域有着广泛的应用。由于实时应用领域通常需要维护海量的数据,并且要求在
行人是视频监控对象的焦点,行人检测与识别也是计算机视觉研究的基础任务和关键技术之一,其广泛应用于智能视频监控、车辆辅助驾驶、人机交互等领域。论文主要针对行人检测与识
随着博客、维基百科、共享空间、推特等新型应用的兴起,互联网已经进入了一个信息爆炸的时代,需要处理的数据也越来越多,对于数据的处理要求也越来越高。面对不断增长的数据,