论文部分内容阅读
[摘要] 本课题以话题识别与跟踪为研究内容,根据相容关系集和距离函数形成话题层次结构,利用相容隶属函数对不确定边界文本进行话题确认,形成带有明确话题标注信息的语料。以此建立话题识别与跟踪体系,为相关部门实时、精确掌握网络舆情提供理论支撑和方法指引。
[关键词] 话题识别与跟踪; 相容商空间粒度; 语料
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2011 . 14. 045
[中图分类号]TP391.1 [文献标识码]A [文章编号]1673 - 0194(2011)14- 0077- 02
1引言
话题识别与跟踪作为舆情分析的重要组成部分,仍有许多需要解决的问题。在话题识别与跟踪方面,涉及聚类策略的选择大都基于硬聚类过程,所得聚类簇中的文本对象是无层次的确定聚类结果。无层次结构造成话题结构的混乱。由于有些边界文本对象无法准确地划分到某一个簇,造成对这些文本无法进行较准确判断,降低了话题识别的精度。
本课题基于相容商空间粒度下的软聚类算法,定义相容关系集I和距离函数dis(α,β),确认聚类的重心点集合,计算距离函数dis(α,β),并与距离半径di进行比较,在相容商空间粒度下对文档集进行反复合成与分解,同时动态形成聚类重心点集合;利用相容隶属函数μ(Xj,X) = | I(Xj)∩X | / I(Xj)对边界文本进行话题确认,形成带有明确话题标注信息的语料。本课题在相容商空间粒度下对话题进行识别和跟踪,使得在识别和跟踪过程中易于实现话题层次的划分及处理容错文本的能力,提高话题识别与跟踪的效率和精度。
2相容商空间粒度下的话题识别与跟踪
2.1国内外研究现状
话题识别与跟踪为话题倾向性分析的基础。文献[1]训练一项表征话题演化周期的阈值,检测后续报道与话题模型内最新事件的时间差是否高于该阈值,将满足这一条件的报道作为话题演化的边界;文献[2]的时间“覆盖矩阵”将相关性匹配双方的时间信息统一为标准格式,分别映射于横纵时间轴上的点,基于对角线检测所有同步点及其时间间隔,在此基础上以所有间隔的覆盖率描述匹配双方时序关系的相似性。然而,目前的聚类方法确定的聚类结果多是无层次的,无层次的话题结构会造成话题混乱。
2.2我们的工作
在相容商空间粒度下,根据相容关系集和距离函数,确认聚类的重心点集合,在相容商空间粒度下对文档集进行反复合成与分解,形成话题的层次结构,同时动态形成聚类重心点集合;利用相容隶属函数对边界文本进行话题确认,形成带有明确话题标注信息的语料。
2.2.1不同相容商空间粒度的获取
定义1:令[X] = {[x]I | x∈X},称[X]是关于相容关系I的相容商空间。
根据相容关系定义距离函数,假设α, β, γ是论域X中的3个n维向量,dis(α,β)是一个距离函数。作为一个距离函数,dis(α,β)应该满足下列特征:
(1) dis(α,β) ≥ 0
(2) dis(α,α) = 0
(3) dis(α,β) = dis(β,α)
(4) dis(α,β) ≤ dis(α,γ) + dis(γ,β)
显然dis(α,β) ≤ d是一个相容关系,其中d ≥ 0,称d为距离函数dis(α,β)的半径。
如此把相容关系I与距离函数dis(α,β) ≤ d建立了一一对应关系。
定义2:设I1和I2∈I,对于任意x,y∈X都有xI2y ?圯xI1y,那么就称I2比I1细,记作I1 < I2。
一个n层的层次结构对应的n个相应的相容关系就有如下的相容序关系:
I0 < I1 < I2 < … < In
相容距离函数表示n层的层次结构对应的距离半径有如下序关系:
d0 > d1 > d2 > … > dn > 0
设Ii对应的相容商集为[X]i(i = 0,…,n),则不同层次粒度论域集有如下的相容序关系:
[X]0 < [X]1 < [X]2 < … < [X]n
2.2.2相容商空间粒度下的软聚类
(1) 选取初始k个样本X = {X1,X2,…,Xk}为样本的重心点集合, d0是相容距离半径。
(2) 计算dis(Xi,Xj)(i∈(1,2,…,k),j∈(1,2,…,n)),判断dis(Xi,Xj)与d0的关系。
(3) 当dis(Xi,Xj) ≤ d0时,表示Xi,Xj属于同一类,如此计算所有样本与重心的距离,并与距离半径进行比较。
(4) 采用相容商空间粒度分析法对聚类结果进行分析,相容商空间粒度的确定过程是一个不断分析比较、动态调整样本重心点的过程,这个过程称为相容商空间粒度分析。在实际求解中,可采用合并和分解法来调整粒度,实现层次划分。
(5) 对于边界距离dis(Xi,Xj) = di表示Xj在两个簇中同时存在,利用相容隶属函数μ(Xj,X) = | I(Xj)∩X | / I(Xj)判断Xj属于哪个簇。如此反复,达到软聚类结果。
如此,距离函数和相容关系建立了一一对应关系,经过不断对相容商空间粒度的合成与分解及对边界对象的隶属处理,形成软聚类结果,解决了话题层次及不确定边界的问题。
2.2.3话题识别与跟踪
把经过解析的Web语料中的XML文档集表示为向量空间模型D ={D1,D2,…,Dr},其中Di表示第i篇文档的向量空间:Di = {(Ti1,wi1),(Ti2,wi2),…,(Tim,wim),…},wij表示文档Di中第j个词汇Tij的权重值。对于文档向量空间进行降维处理,形成n维文档向量空间集,其中D = {D′1,D′2,…,D′r},其中D′i = {(T′i1,wi1),(T′i2,wi2),…,(T′in,win)}(n < m)。利用软聚类算法对文档集D进行话题识别,形成层次话题集TP = {tp1,tp2,…,tps}。在聚类过程中,动态形成话题重心点向量集C = {c1,c2, …,cs}。根据话题tpi中的所有文档向量集tpi = {di1,di2,…,dic},对XML文档集中话题节点的标注信息进行更新。
话题跟踪是话题识别的继续,是在确定的话题基础上,在话题监督的作用下动态跟踪的过程。针对带有明确标注的层次化话题集TP = {(tp1,name1),(tp2,name2),…,(tps,names)}以及文档重心点集C = {c1,c2,…,cs},对新报道向量空间F,利用软聚类算法对F进行分类。首先计算F与文档重心点集距离函数dis(F,C),然后与确定的距离半径dr比较,确认F属于哪一类话题。如果dis(F,C) > dr,则以F为重心点,作为新话题加入新层次话题集TP = {(tp1,name1),(tp2,name2),…,(tps,names),(F,namef)},同时更新语料中对应的XML文档的话题节点的标注信息。
主要参考文献
[1] 赵华,赵铁军,于浩,张姝. 面向动态演化的话题检测研究[J]. 高技术通讯,2006,16(12):1230-1235.
[2] 宋丹,王卫东,陈英. 基于改进向量空间模型的话题识别跟踪[J]. 计算机技术与发展,2006,16(9).
[关键词] 话题识别与跟踪; 相容商空间粒度; 语料
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2011 . 14. 045
[中图分类号]TP391.1 [文献标识码]A [文章编号]1673 - 0194(2011)14- 0077- 02
1引言
话题识别与跟踪作为舆情分析的重要组成部分,仍有许多需要解决的问题。在话题识别与跟踪方面,涉及聚类策略的选择大都基于硬聚类过程,所得聚类簇中的文本对象是无层次的确定聚类结果。无层次结构造成话题结构的混乱。由于有些边界文本对象无法准确地划分到某一个簇,造成对这些文本无法进行较准确判断,降低了话题识别的精度。
本课题基于相容商空间粒度下的软聚类算法,定义相容关系集I和距离函数dis(α,β),确认聚类的重心点集合,计算距离函数dis(α,β),并与距离半径di进行比较,在相容商空间粒度下对文档集进行反复合成与分解,同时动态形成聚类重心点集合;利用相容隶属函数μ(Xj,X) = | I(Xj)∩X | / I(Xj)对边界文本进行话题确认,形成带有明确话题标注信息的语料。本课题在相容商空间粒度下对话题进行识别和跟踪,使得在识别和跟踪过程中易于实现话题层次的划分及处理容错文本的能力,提高话题识别与跟踪的效率和精度。
2相容商空间粒度下的话题识别与跟踪
2.1国内外研究现状
话题识别与跟踪为话题倾向性分析的基础。文献[1]训练一项表征话题演化周期的阈值,检测后续报道与话题模型内最新事件的时间差是否高于该阈值,将满足这一条件的报道作为话题演化的边界;文献[2]的时间“覆盖矩阵”将相关性匹配双方的时间信息统一为标准格式,分别映射于横纵时间轴上的点,基于对角线检测所有同步点及其时间间隔,在此基础上以所有间隔的覆盖率描述匹配双方时序关系的相似性。然而,目前的聚类方法确定的聚类结果多是无层次的,无层次的话题结构会造成话题混乱。
2.2我们的工作
在相容商空间粒度下,根据相容关系集和距离函数,确认聚类的重心点集合,在相容商空间粒度下对文档集进行反复合成与分解,形成话题的层次结构,同时动态形成聚类重心点集合;利用相容隶属函数对边界文本进行话题确认,形成带有明确话题标注信息的语料。
2.2.1不同相容商空间粒度的获取
定义1:令[X] = {[x]I | x∈X},称[X]是关于相容关系I的相容商空间。
根据相容关系定义距离函数,假设α, β, γ是论域X中的3个n维向量,dis(α,β)是一个距离函数。作为一个距离函数,dis(α,β)应该满足下列特征:
(1) dis(α,β) ≥ 0
(2) dis(α,α) = 0
(3) dis(α,β) = dis(β,α)
(4) dis(α,β) ≤ dis(α,γ) + dis(γ,β)
显然dis(α,β) ≤ d是一个相容关系,其中d ≥ 0,称d为距离函数dis(α,β)的半径。
如此把相容关系I与距离函数dis(α,β) ≤ d建立了一一对应关系。
定义2:设I1和I2∈I,对于任意x,y∈X都有xI2y ?圯xI1y,那么就称I2比I1细,记作I1 < I2。
一个n层的层次结构对应的n个相应的相容关系就有如下的相容序关系:
I0 < I1 < I2 < … < In
相容距离函数表示n层的层次结构对应的距离半径有如下序关系:
d0 > d1 > d2 > … > dn > 0
设Ii对应的相容商集为[X]i(i = 0,…,n),则不同层次粒度论域集有如下的相容序关系:
[X]0 < [X]1 < [X]2 < … < [X]n
2.2.2相容商空间粒度下的软聚类
(1) 选取初始k个样本X = {X1,X2,…,Xk}为样本的重心点集合, d0是相容距离半径。
(2) 计算dis(Xi,Xj)(i∈(1,2,…,k),j∈(1,2,…,n)),判断dis(Xi,Xj)与d0的关系。
(3) 当dis(Xi,Xj) ≤ d0时,表示Xi,Xj属于同一类,如此计算所有样本与重心的距离,并与距离半径进行比较。
(4) 采用相容商空间粒度分析法对聚类结果进行分析,相容商空间粒度的确定过程是一个不断分析比较、动态调整样本重心点的过程,这个过程称为相容商空间粒度分析。在实际求解中,可采用合并和分解法来调整粒度,实现层次划分。
(5) 对于边界距离dis(Xi,Xj) = di表示Xj在两个簇中同时存在,利用相容隶属函数μ(Xj,X) = | I(Xj)∩X | / I(Xj)判断Xj属于哪个簇。如此反复,达到软聚类结果。
如此,距离函数和相容关系建立了一一对应关系,经过不断对相容商空间粒度的合成与分解及对边界对象的隶属处理,形成软聚类结果,解决了话题层次及不确定边界的问题。
2.2.3话题识别与跟踪
把经过解析的Web语料中的XML文档集表示为向量空间模型D ={D1,D2,…,Dr},其中Di表示第i篇文档的向量空间:Di = {(Ti1,wi1),(Ti2,wi2),…,(Tim,wim),…},wij表示文档Di中第j个词汇Tij的权重值。对于文档向量空间进行降维处理,形成n维文档向量空间集,其中D = {D′1,D′2,…,D′r},其中D′i = {(T′i1,wi1),(T′i2,wi2),…,(T′in,win)}(n < m)。利用软聚类算法对文档集D进行话题识别,形成层次话题集TP = {tp1,tp2,…,tps}。在聚类过程中,动态形成话题重心点向量集C = {c1,c2, …,cs}。根据话题tpi中的所有文档向量集tpi = {di1,di2,…,dic},对XML文档集中话题节点的标注信息进行更新。
话题跟踪是话题识别的继续,是在确定的话题基础上,在话题监督的作用下动态跟踪的过程。针对带有明确标注的层次化话题集TP = {(tp1,name1),(tp2,name2),…,(tps,names)}以及文档重心点集C = {c1,c2,…,cs},对新报道向量空间F,利用软聚类算法对F进行分类。首先计算F与文档重心点集距离函数dis(F,C),然后与确定的距离半径dr比较,确认F属于哪一类话题。如果dis(F,C) > dr,则以F为重心点,作为新话题加入新层次话题集TP = {(tp1,name1),(tp2,name2),…,(tps,names),(F,namef)},同时更新语料中对应的XML文档的话题节点的标注信息。
主要参考文献
[1] 赵华,赵铁军,于浩,张姝. 面向动态演化的话题检测研究[J]. 高技术通讯,2006,16(12):1230-1235.
[2] 宋丹,王卫东,陈英. 基于改进向量空间模型的话题识别跟踪[J]. 计算机技术与发展,2006,16(9).