论文部分内容阅读
随着互联网的发展,尤其是Web2.0的发展,标签技术在各种网站中得到广泛的应用,给网络资源打上简短的文字标签能极大方便人们对海量数据的存取。由于大量的网络资源还没有标签,而人工打标签费时费力,因此,为网络资源自动打上高质量标签成为近年来学术界以及企业界的一个关注焦点。其中,基于资源内容自动抽取关键短语标签和基于已有的社会化标签集推荐标签是两种主要的自动标签方式。虽然已经开展了大量的工作,也出现了一些关键短语抽取和社会化标签推荐的算法和应用系统。但是目前的自动标签技术还存在着一些问题,其中包括:在关键短语抽取中,主要考察词语的局部统计特性或局部的词间相关信息,而没有考虑词语-文档-主题三者间的全局关系;在社会化标签推荐中,没有同时考虑标签粒度和噪声标签的主题模型,也没有考虑标签-文档-主题三者间的全局关系;在融合关键短语抽取和社会化标签推荐结果的研究中,主要采用线性融合,该方法的参数需要人为指定,且没有充分考虑关键短语和社会化标签之间的关系。本论文针对这些问题展开工作,并取得了如下的成果:一、提出了一种基于全局随机游走的关键短语排序算法GlobalRank。该算法在考虑词语本身的TFIDF权值、词语间的局部关系以及词语和文档与主题的关系的同时,通过引入在词语-文档-主题相关图上的全局随机游走,得到关键短语相对于当前文档的全局相关性,GlobalRank综合利用这些信息进行关键短语的排序。为了验证排序算法的性能,将其应用于关键短语抽取任务。在三个数据集上的实验表明,在候选短语相同的条件下,和前人局限于当前文本的局部特征的算法相比,本文提出的关键短语排序算法能生成更加准确的关键短语有序列表。二、逐步深入地提出了一系列社会化标签推荐模型和算法。首先提出了TG-LDA (Tag-granularity LDA)模型,该模型对网络实际数据中广泛存在的文档主题和标签主题具有不同描述颗粒度的现象进行建模;然后,在TG-LDA模型的基础上,提出了能同时建模多粒度主题和噪声标签的TN-LDA (Tag-granularity and Noise-aware LDA)模型,最后,在TN-LDA的基础上,提出了一个结合了全局随机游走的标签推荐算法。实验表明,本文提出的TN-LDA模型,能在对有标签文档进行更好建模的同时,有效提高标签推荐的性能。而结合全局随机游走的标签推荐算法不仅考虑了网页内容的隐含主题和社会化标签的相互影响,还综合了词粒度标签和主题粒度标签,并将这些关系统一在随机游走的框架下,获取全局相关性。实验表明,该算法的标签推荐结合了主题模型和词特征方法的优点,具有更好的标签推荐性能。同时,求解随机游走的稳定态,还可以优化文档的主题分布,从而根据其分布对文档聚类。通过实验表明,其聚类性能要优于主题模型的方法。三、提出了一种综合考虑关键短语和标签自身权重及其相互关系的融合算法LabelRank。该算法利用偏置PageRank算法,得到候选关键短语和标签的显著性权重,并根据其权重,统一对关键短语和标签进行排序并输出。在Delicious数据上的实验表明,LabelRank算法较好地结合了关键短语和社会化标签的优点,其标签推荐性能明显优于单纯的关键短语抽取和社会化标签推荐算法方法,也优于未全局考虑关键短语和社会化标签相关性的线性融合方法。而且,LabelRank受调节参数影响较小,体现出较高的鲁棒性。最后,结合关键短语抽取和社会化标签推荐算法,实现了一个针对文档的自动标签演示系统,该系统可返回输入文档的关键短语、社会化标签及其融合结果,同时允许用户对系统返回的标签进行判断或自行输入标签,作为训练语料存入训练集。