相容商空间粒度下的话题识别与跟踪

来源 :中国管理信息化 | 被引量 : 0次 | 上传用户：qzjp16300

【摘要】

：

【作者】

：

王艳茹温长峰洪晓蕾

【出处】

：

中国管理信息化

【发表日期】

：

2011年14期

【关键词】

：

话题识别与跟踪相客商空间粒度语料

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　［摘要］本课题以话题识别与跟踪为研究内容，根据相容关系集和距离函数形成话题层次结构，利用相容隶属函数对不确定边界文本进行话题确认，形成带有明确话题标注信息的语料。以此建立话题识别与跟踪体系，为相关部门实时、精确掌握网络舆情提供理论支撑和方法指引。
　　［关键词］话题识别与跟踪；相容商空间粒度；语料
　　doi : 10 . 3969 / j . issn . 1673 - 0194 . 2011 . 14. 045
　　［中图分类号］TP391.1 ［文献标识码］A ［文章编号］1673 - 0194（2011）14- 0077- 02
　　
　　１引言
　　
　　话题识别与跟踪作为舆情分析的重要组成部分，仍有许多需要解决的问题。在话题识别与跟踪方面，涉及聚类策略的选择大都基于硬聚类过程，所得聚类簇中的文本对象是无层次的确定聚类结果。无层次结构造成话题结构的混乱。由于有些边界文本对象无法准确地划分到某一个簇，造成对这些文本无法进行较准确判断，降低了话题识别的精度。
　　本课题基于相容商空间粒度下的软聚类算法，定义相容关系集Ｉ和距离函数ｄｉｓ（α，β），确认聚类的重心点集合，计算距离函数ｄｉｓ（α，β），并与距离半径ｄｉ进行比较，在相容商空间粒度下对文档集进行反复合成与分解，同时动态形成聚类重心点集合；利用相容隶属函数μ（Ｘｊ，Ｘ）＝｜Ｉ（Ｘｊ）∩Ｘ｜／Ｉ（Ｘｊ）对边界文本进行话题确认，形成带有明确话题标注信息的语料。本课题在相容商空间粒度下对话题进行识别和跟踪，使得在识别和跟踪过程中易于实现话题层次的划分及处理容错文本的能力，提高话题识别与跟踪的效率和精度。
　　
　　２相容商空间粒度下的话题识别与跟踪
　　
　　２．１国内外研究现状
　　话题识别与跟踪为话题倾向性分析的基础。文献［１］训练一项表征话题演化周期的阈值，检测后续报道与话题模型内最新事件的时间差是否高于该阈值，将满足这一条件的报道作为话题演化的边界；文献［２］的时间“覆盖矩阵”将相关性匹配双方的时间信息统一为标准格式，分别映射于横纵时间轴上的点，基于对角线检测所有同步点及其时间间隔，在此基础上以所有间隔的覆盖率描述匹配双方时序关系的相似性。然而，目前的聚类方法确定的聚类结果多是无层次的，无层次的话题结构会造成话题混乱。
　　２．２我们的工作
　　在相容商空间粒度下，根据相容关系集和距离函数，确认聚类的重心点集合，在相容商空间粒度下对文档集进行反复合成与分解，形成话题的层次结构，同时动态形成聚类重心点集合；利用相容隶属函数对边界文本进行话题确认，形成带有明确话题标注信息的语料。
　　２．２．１不同相容商空间粒度的获取
　　定义１：令［Ｘ］＝｛［ｘ］Ｉ｜ｘ∈Ｘ｝，称［Ｘ］是关于相容关系Ｉ的相容商空间。
　　根据相容关系定义距离函数，假设α， β， γ是论域Ｘ中的3个ｎ维向量，ｄｉｓ（α，β）是一个距离函数。作为一个距离函数，ｄｉｓ（α，β）应该满足下列特征：
　　（１）ｄｉｓ（α，β） ≥ ０
　　（２）ｄｉｓ（α，α）＝０
　　（３）ｄｉｓ（α，β）＝ｄｉｓ（β，α）
　　（４）ｄｉｓ（α，β） ≤ ｄｉｓ（α，γ）＋ｄｉｓ（γ，β）
　　显然ｄｉｓ（α，β） ≤ ｄ是一个相容关系，其中ｄ ≥ ０，称d为距离函数ｄｉｓ（α，β）的半径。
　　如此把相容关系Ｉ与距离函数ｄｉｓ（α，β） ≤ ｄ建立了一一对应关系。
　　定义２：设Ｉ１和Ｉ２∈Ｉ，对于任意ｘ，ｙ∈Ｘ都有ｘＩ２ｙ ?圯ｘＩ１ｙ，那么就称Ｉ２比Ｉ１细，记作Ｉ１＜Ｉ２。
　　一个ｎ层的层次结构对应的ｎ个相应的相容关系就有如下的相容序关系：
　　Ｉ０＜Ｉ１＜Ｉ２＜ … ＜Ｉｎ
　　相容距离函数表示ｎ层的层次结构对应的距离半径有如下序关系：
　　ｄ０＞ｄ１＞ｄ２＞ … ＞ｄｎ＞０
　　设Ｉｉ对应的相容商集为［Ｘ］ｉ（ｉ＝０，…，ｎ），则不同层次粒度论域集有如下的相容序关系：
　　［Ｘ］０＜［Ｘ］１＜［Ｘ］２＜ … ＜［Ｘ］ｎ
　　２．２．２相容商空间粒度下的软聚类
　　（１）选取初始ｋ个样本Ｘ＝｛Ｘ１，Ｘ２，…，Ｘｋ｝为样本的重心点集合，ｄ０是相容距离半径。
　　（２）计算ｄｉｓ（Ｘｉ，Ｘｊ）（ｉ∈（１，２，…，ｋ），ｊ∈（１，２，…，ｎ）），判断ｄｉｓ（Ｘｉ，Ｘｊ）与ｄ０的关系。
　　（３）当ｄｉｓ（Ｘｉ，Ｘｊ） ≤ ｄ０时，表示Ｘｉ，Ｘｊ属于同一类，如此计算所有样本与重心的距离，并与距离半径进行比较。
　　（４）采用相容商空间粒度分析法对聚类结果进行分析，相容商空间粒度的确定过程是一个不断分析比较、动态调整样本重心点的过程，这个过程称为相容商空间粒度分析。在实际求解中，可采用合并和分解法来调整粒度，实现层次划分。
　　（５）对于边界距离ｄｉｓ（Ｘｉ，Ｘｊ）＝ｄｉ表示Ｘｊ在两个簇中同时存在，利用相容隶属函数μ（Ｘｊ，Ｘ）＝｜Ｉ（Ｘｊ）∩Ｘ｜／Ｉ（Ｘｊ）判断Ｘｊ属于哪个簇。如此反复，达到软聚类结果。
　　如此，距离函数和相容关系建立了一一对应关系，经过不断对相容商空间粒度的合成与分解及对边界对象的隶属处理，形成软聚类结果，解决了话题层次及不确定边界的问题。
　　２．２．３话题识别与跟踪
　　把经过解析的Ｗｅｂ语料中的ＸＭＬ文档集表示为向量空间模型Ｄ＝｛Ｄ１，Ｄ２，…，Ｄｒ｝，其中Ｄｉ表示第ｉ篇文档的向量空间：Ｄｉ＝｛（Ｔｉ１，ｗｉ１），（Ｔｉ２，ｗｉ２），…，（Ｔｉｍ，ｗｉｍ），…｝，ｗｉｊ表示文档Ｄｉ中第ｊ个词汇Ｔｉｊ的权重值。对于文档向量空间进行降维处理，形成ｎ维文档向量空间集，其中Ｄ＝｛Ｄ′１，Ｄ′２，…，Ｄ′ｒ｝，其中Ｄ′ｉ＝｛（Ｔ′ｉ１，ｗｉ１），（Ｔ′ｉ２，ｗｉ２），…，（Ｔ′ｉｎ，ｗｉｎ）｝（ｎ＜ｍ）。利用软聚类算法对文档集Ｄ进行话题识别，形成层次话题集ＴＰ＝｛ｔｐ１，ｔｐ２，…，ｔｐｓ｝。在聚类过程中，动态形成话题重心点向量集Ｃ＝｛ｃ１，ｃ２， …，ｃｓ｝。根据话题ｔｐｉ中的所有文档向量集ｔｐｉ＝｛ｄｉ１，ｄｉ２，…，ｄｉｃ｝，对ＸＭＬ文档集中话题节点的标注信息进行更新。
　　话题跟踪是话题识别的继续，是在确定的话题基础上，在话题监督的作用下动态跟踪的过程。针对带有明确标注的层次化话题集ＴＰ＝｛（ｔｐ１，ｎａｍｅ１），（ｔｐ２，ｎａｍｅ２），…，（ｔｐｓ，ｎａｍｅｓ）｝以及文档重心点集Ｃ＝｛ｃ１，ｃ２，…，ｃｓ｝，对新报道向量空间Ｆ，利用软聚类算法对Ｆ进行分类。首先计算Ｆ与文档重心点集距离函数ｄｉｓ（Ｆ，Ｃ），然后与确定的距离半径ｄｒ比较，确认Ｆ属于哪一类话题。如果ｄｉｓ（Ｆ，Ｃ）＞ｄｒ，则以Ｆ为重心点，作为新话题加入新层次话题集ＴＰ＝｛（ｔｐ１，ｎａｍｅ１），（ｔｐ２，ｎａｍｅ２），…，（ｔｐｓ，ｎａｍｅｓ），（Ｆ，ｎａｍｅｆ）｝，同时更新语料中对应的ＸＭＬ文档的话题节点的标注信息。
　　
　　主要参考文献
　　
　　［１］赵华，赵铁军，于浩，张姝．面向动态演化的话题检测研究［Ｊ］．高技术通讯，２００６，１６（１２）：１２３０－１２３５．
　　［２］宋丹，王卫东，陈英．基于改进向量空间模型的话题识别跟踪［Ｊ］．计算机技术与发展，２００６，１６（９）．

其他文献

电厂某安全阀故障现象及修复处理

介绍了一种不常见的安全阀故障：阀座喷嘴与阀芯保持架发生卡涩现象，导致阀门压力整定试验失败。

期刊

安全阀密封阀座阀芯保持架卡涩

致力过程控制服务全球市场——访伯纳德控制设备（北京）有限公司总经理伯涛

GM记者：请您介绍一下伯纳德公司在中国的发展历程。伯涛：伯纳德控制是一家具有75年历史、诞生于法国的过程控制公司,中国市场是伯纳德在全球范围内最重要的市场,自2008年在中国

期刊

过程控制全球市场控制设备总经理北京服务中国市场全球范围

4000m~3空分装置预冷系统水冷塔的改造

介绍了水冷塔的结构,分析了空分系统富裕的低压N2、WN气体不能大量通入水冷塔的原因,予以实施技术改造,从而能在冬季将冷冻机组停下,取得了明显的效益。

期刊

水冷塔分布器溢流冷冻机温度

丙烯循环气压缩机故障分析与处理

从工艺和设备两个方面对10万t/a聚丙烯装置丙烯循环气压缩机PK301的故障原因进行了较为全面的分析,并提出了相应的对策和解决措施,可为保障丙烯循环气压缩机的优质运行提供借

期刊

丙烯循环气压缩机故障分析解决措施

试谈如何加强会计档案的管理

［摘要］会计档案是国家经济档案的重要组成部分，是反映国家经济活动的重要档案之一，是各单位经济业务真实客观的记录，是检查各单位遵守财经纪律情况的依据，也是各单位总结经营管理经验的重要参考资料。本文主要从增强领导者的法规意识、提高财务人员的法律意识、会计档案人员必须具有强烈的责任心等3个方面进行阐述。　　［关键词］加强；会计档案；管理　　doi : 10 . 3969 / j . issn . 1

期刊

加强会计档案管理

基于BP神经网络的除尘风机振动故障诊断

将BP神经网络技术引入到大型除尘风机的振动故障诊断中结合神经网络的结构分析了其工作原理和算法。通过一个设备故障实例，利用神经网络对设备的故障特征和测试信号等数据进行

期刊

BP神经网络除尘风机机械振动故障诊断

公信力：食品企业可持续发展的前提

近期食品安全问题频现,＂瘦肉精＂事件还未结束,＂染色馒头＂就从天而降,劣质粉条、牛肉膏、毒豆芽等也纷至沓来。这些被频频曝光的食品安全问题,一次次挑战着相关企业的公信力,同时

期刊

食品企业公信力可持续发展

数字图书馆与读者服务的关系研究

［摘要］在信息化时代，数字技术发展潜力无限，建设数字化图书馆是时代发展的必然趋势。相对于传统的图书馆来说，数字图书馆能够为读者提供更加丰富、更加多样的服务形式和服务内容。本文主要探讨数字图书馆与读者服务的关系。　　［关键词］数字图书馆；读者服务；关系　　doi : 10 . 3969 / j . issn . 1673 - 0194 . 2011 . 18. 041　　［中图分类号］ G252

期刊

数字图书馆读者服务关系

人民币汇率波动对我国区域间贸易收支的影响

本文利用面板数据分析了汇率变动对中国及中国在1981-2004年28个省际间进出口的影响，结果表明汇率变动对我国区域间进出口的影响存在差异，这种差异对于我们认识人民币汇率的传

期刊

汇率波动进出口面板数据

相容商空间粒度下的话题识别与跟踪

其他学术论文