相容商空间粒度下的话题识别与跟踪

来源 :中国管理信息化 | 被引量 : 0次 | 上传用户:qzjp16300
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要] 本课题以话题识别与跟踪为研究内容,根据相容关系集和距离函数形成话题层次结构,利用相容隶属函数对不确定边界文本进行话题确认,形成带有明确话题标注信息的语料。以此建立话题识别与跟踪体系,为相关部门实时、精确掌握网络舆情提供理论支撑和方法指引。
  [关键词] 话题识别与跟踪; 相容商空间粒度; 语料
  doi : 10 . 3969 / j . issn . 1673 - 0194 . 2011 . 14. 045
  [中图分类号]TP391.1 [文献标识码]A [文章编号]1673 - 0194(2011)14- 0077- 02
  
  1引言
  
  话题识别与跟踪作为舆情分析的重要组成部分,仍有许多需要解决的问题。在话题识别与跟踪方面,涉及聚类策略的选择大都基于硬聚类过程,所得聚类簇中的文本对象是无层次的确定聚类结果。无层次结构造成话题结构的混乱。由于有些边界文本对象无法准确地划分到某一个簇,造成对这些文本无法进行较准确判断,降低了话题识别的精度。
  本课题基于相容商空间粒度下的软聚类算法,定义相容关系集I和距离函数dis(α,β),确认聚类的重心点集合,计算距离函数dis(α,β),并与距离半径di进行比较,在相容商空间粒度下对文档集进行反复合成与分解,同时动态形成聚类重心点集合;利用相容隶属函数μ(Xj,X) = | I(Xj)∩X | / I(Xj)对边界文本进行话题确认,形成带有明确话题标注信息的语料。本课题在相容商空间粒度下对话题进行识别和跟踪,使得在识别和跟踪过程中易于实现话题层次的划分及处理容错文本的能力,提高话题识别与跟踪的效率和精度。
  
  2相容商空间粒度下的话题识别与跟踪
  
  2.1国内外研究现状
  话题识别与跟踪为话题倾向性分析的基础。文献[1]训练一项表征话题演化周期的阈值,检测后续报道与话题模型内最新事件的时间差是否高于该阈值,将满足这一条件的报道作为话题演化的边界;文献[2]的时间“覆盖矩阵”将相关性匹配双方的时间信息统一为标准格式,分别映射于横纵时间轴上的点,基于对角线检测所有同步点及其时间间隔,在此基础上以所有间隔的覆盖率描述匹配双方时序关系的相似性。然而,目前的聚类方法确定的聚类结果多是无层次的,无层次的话题结构会造成话题混乱。
  2.2我们的工作
  在相容商空间粒度下,根据相容关系集和距离函数,确认聚类的重心点集合,在相容商空间粒度下对文档集进行反复合成与分解,形成话题的层次结构,同时动态形成聚类重心点集合;利用相容隶属函数对边界文本进行话题确认,形成带有明确话题标注信息的语料。
  2.2.1不同相容商空间粒度的获取
  定义1:令[X] = {[x]I | x∈X},称[X]是关于相容关系I的相容商空间。
  根据相容关系定义距离函数,假设α, β, γ是论域X中的3个n维向量,dis(α,β)是一个距离函数。作为一个距离函数,dis(α,β)应该满足下列特征:
  (1) dis(α,β) ≥ 0
  (2) dis(α,α) = 0
  (3) dis(α,β) = dis(β,α)
  (4) dis(α,β) ≤ dis(α,γ) + dis(γ,β)
  显然dis(α,β) ≤ d是一个相容关系,其中d ≥ 0,称d为距离函数dis(α,β)的半径。
  如此把相容关系I与距离函数dis(α,β) ≤ d建立了一一对应关系。
  定义2:设I1和I2∈I,对于任意x,y∈X都有xI2y ?圯xI1y,那么就称I2比I1细,记作I1 < I2。
  一个n层的层次结构对应的n个相应的相容关系就有如下的相容序关系:
  I0 < I1 < I2 < … < In
  相容距离函数表示n层的层次结构对应的距离半径有如下序关系:
  d0 > d1 > d2 > … > dn > 0
  设Ii对应的相容商集为[X]i(i = 0,…,n),则不同层次粒度论域集有如下的相容序关系:
  [X]0 < [X]1 < [X]2 < … < [X]n
  2.2.2相容商空间粒度下的软聚类
  (1) 选取初始k个样本X = {X1,X2,…,Xk}为样本的重心点集合, d0是相容距离半径。
  (2) 计算dis(Xi,Xj)(i∈(1,2,…,k),j∈(1,2,…,n)),判断dis(Xi,Xj)与d0的关系。
  (3) 当dis(Xi,Xj) ≤ d0时,表示Xi,Xj属于同一类,如此计算所有样本与重心的距离,并与距离半径进行比较。
  (4) 采用相容商空间粒度分析法对聚类结果进行分析,相容商空间粒度的确定过程是一个不断分析比较、动态调整样本重心点的过程,这个过程称为相容商空间粒度分析。在实际求解中,可采用合并和分解法来调整粒度,实现层次划分。
  (5) 对于边界距离dis(Xi,Xj) = di表示Xj在两个簇中同时存在,利用相容隶属函数μ(Xj,X) = | I(Xj)∩X | / I(Xj)判断Xj属于哪个簇。如此反复,达到软聚类结果。
  如此,距离函数和相容关系建立了一一对应关系,经过不断对相容商空间粒度的合成与分解及对边界对象的隶属处理,形成软聚类结果,解决了话题层次及不确定边界的问题。
  2.2.3话题识别与跟踪
  把经过解析的Web语料中的XML文档集表示为向量空间模型D ={D1,D2,…,Dr},其中Di表示第i篇文档的向量空间:Di = {(Ti1,wi1),(Ti2,wi2),…,(Tim,wim),…},wij表示文档Di中第j个词汇Tij的权重值。对于文档向量空间进行降维处理,形成n维文档向量空间集,其中D = {D′1,D′2,…,D′r},其中D′i = {(T′i1,wi1),(T′i2,wi2),…,(T′in,win)}(n < m)。利用软聚类算法对文档集D进行话题识别,形成层次话题集TP = {tp1,tp2,…,tps}。在聚类过程中,动态形成话题重心点向量集C = {c1,c2, …,cs}。根据话题tpi中的所有文档向量集tpi = {di1,di2,…,dic},对XML文档集中话题节点的标注信息进行更新。
  话题跟踪是话题识别的继续,是在确定的话题基础上,在话题监督的作用下动态跟踪的过程。针对带有明确标注的层次化话题集TP = {(tp1,name1),(tp2,name2),…,(tps,names)}以及文档重心点集C = {c1,c2,…,cs},对新报道向量空间F,利用软聚类算法对F进行分类。首先计算F与文档重心点集距离函数dis(F,C),然后与确定的距离半径dr比较,确认F属于哪一类话题。如果dis(F,C) > dr,则以F为重心点,作为新话题加入新层次话题集TP = {(tp1,name1),(tp2,name2),…,(tps,names),(F,namef)},同时更新语料中对应的XML文档的话题节点的标注信息。
  
  主要参考文献
  
  [1] 赵华,赵铁军,于浩,张姝. 面向动态演化的话题检测研究[J]. 高技术通讯,2006,16(12):1230-1235.
  [2] 宋丹,王卫东,陈英. 基于改进向量空间模型的话题识别跟踪[J]. 计算机技术与发展,2006,16(9).
其他文献
介绍了一种不常见的安全阀故障:阀座喷嘴与阀芯保持架发生卡涩现象,导致阀门压力整定试验失败。
GM记者:请您介绍一下伯纳德公司在中国的发展历程。伯涛:伯纳德控制是一家具有75年历史、诞生于法国的过程控制公司,中国市场是伯纳德在全球范围内最重要的市场,自2008年在中国
介绍了水冷塔的结构,分析了空分系统富裕的低压N2、WN气体不能大量通入水冷塔的原因,予以实施技术改造,从而能在冬季将冷冻机组停下,取得了明显的效益。
从工艺和设备两个方面对10万t/a聚丙烯装置丙烯循环气压缩机PK301的故障原因进行了较为全面的分析,并提出了相应的对策和解决措施,可为保障丙烯循环气压缩机的优质运行提供借
[摘要] 会计档案是国家经济档案的重要组成部分,是反映国家经济活动的重要档案之一,是各单位经济业务真实客观的记录,是检查各单位遵守财经纪律情况的依据,也是各单位总结经营管理经验的重要参考资料。本文主要从增强领导者的法规意识、提高财务人员的法律意识、会计档案人员必须具有强烈的责任心等3个方面进行阐述。  [关键词] 加强;会计档案;管理  doi : 10 . 3969 / j . issn . 1
将BP神经网络技术引入到大型除尘风机的振动故障诊断中结合神经网络的结构分析了其工作原理和算法。通过一个设备故障实例,利用神经网络对设备的故障特征和测试信号等数据进行
近期食品安全问题频现,"瘦肉精"事件还未结束,"染色馒头"就从天而降,劣质粉条、牛肉膏、毒豆芽等也纷至沓来。这些被频频曝光的食品安全问题,一次次挑战着相关企业的公信力,同时
[摘要] 在信息化时代,数字技术发展潜力无限,建设数字化图书馆是时代发展的必然趋势。相对于传统的图书馆来说,数字图书馆能够为读者提供更加丰富、更加多样的服务形式和服务内容。本文主要探讨数字图书馆与读者服务的关系。  [关键词] 数字图书馆;读者服务;关系  doi : 10 . 3969 / j . issn . 1673 - 0194 . 2011 . 18. 041  [中图分类号] G252
本文利用面板数据分析了汇率变动对中国及中国在1981-2004年28个省际间进出口的影响,结果表明汇率变动对我国区域间进出口的影响存在差异,这种差异对于我们认识人民币汇率的传