论文部分内容阅读
摘要:本文对信息过滤系统的基本原理进行了简单介绍,对网络文本信息过滤主要关键技术做了详细的介绍。
关键词:网络文本;信息过滤;
1.引 言
随着因特网不断普及和发展,一方面,因特网上的海量信息远远超过人们的想象;另一方面,面对如此海量的信息,人们往往感到束手无策,力不从心。如何帮助人们有效地选择和利用所感兴趣的信息,尽量剔除人们不感兴趣的信息,使之真正做到“各取所需”,已成为信息技术领域的热点问题。
2.信息过滤系统基本原理
一个最简单的过滤系统包括四个基本组成部分:信源、过滤器、用户、用户需求模板。图2.1是信息过滤系统的一个简单结构图。信源向过滤器提供信息,信息过滤器处于信源与用户之间,通过用户需求模板获取用户的兴趣信息,并据此检验信源中的信息,将其中与用户兴趣相关的信息递送给用户。反过来,用户也可以向信息过滤器发送反馈信息以说明哪些信息的确符合他们的信息需求,通过这种交互行为使得过滤器不断进行学习,调整自身的过滤操作,进而能在以后提供更多更好满足用户兴趣的信息。
图2.1信息过滤系统基本原理
3.信息过滤关键技术
3.1文本分类
文本分类是指依据文本的内容,由计算机根据某种自动分类算法,把文本判分为预先定义好的类别。文本分类是信息处理的一个重要分支,在信息发现领域中有着重要的用途,特别是在网络技术飞速发展的时代,对网络上的海量网页文本进行过滤和分类可使用户快速发现真正有用的文本。国外当前流行的文本分類算法有决策树、Rochcoi、K近邻(KNN)、朴素贝叶斯、Bayes法、支持向量机(SVM)等方法。而对中文文本分类的研究相对较少,国内外的研究基本上是在英文文本分类研究的基础上采取相应策略,结合中文文本的特定知识,用于中文之上。
3.2中文自动分词
中文自动分词方法有多种,一般来说大致可归结为以下三大类:基于词典的分词方法、基于统计的分词方法、基于规则和基于统计相结合的分词方法。
1.基于词典的分词方法
其基本思想是:事先建立词库,其中包含所有可能出现的词。对于给定的待分词的汉字串S,按照某种确定的原则切取S的子串,若该子串与词库中的某词条相匹配,则该子串是词,继续分割其余的部分,直到剩余部分为空;否则,该子串不是词,转上重新切取S的子串进行匹配。实际使用的分词系统,常常把基于词典的分词方法用于初步切分,配合其他方法的使用提高分词准确性。
2.基于统计的分词方法
基于统计的分词方法,根据字串出现的频率来判断这个字串是否是词。该方法对于大的语料,分全率还可以,但是对于小的语料分全率就比较低。
3.基于规则和基于统计相结合的分词方法
该方法首先运用最大匹配作初步切分,然后对切分的边界处进行歧义探测,发现歧义。最后运用统计和规则相结合的方法来判断正确的切分,运用不同的规则解决人名、地名、机构名识别,运用词法结构规则来生成复合词和衍生词。目前这种方法可以解决汉语中最常见的歧义类型:单字交集型歧义。并对人名、地名、机构名、后缀、动词/形容词重叠、衍生词等词法结构进行识别处理,基本解决了分词所面临的最关键的问题。
3.3文本预处理
预处理通常包括以下几种类型:
1.网页清洗。过滤系统预处理的第一步是进行网页清洗,去除web页中无用信息,从中抽取出页面文件的主要内容并且将其转化为纯文本。
2.词还原。词还原的主要目的是把一些变形词复原为该词原来的表示形式。
3.词性标注。词性标注是给文档中的每个词选择一个最有可能的词类。
4.去除停用词。停用词是指介词、冠词等语义内容很少的词,也指在文档集中的每个文档中都可能出现的高频词。停用词由于出现在很多文档中,因此对区分文档的内容作用不大,通常在预处理阶段被去掉。
3.4特征选择
特征选择(Feature Selection)的基本思想通常是构造一个评价函数,对特征集的每个特征进行评估。这样每个特征都获得一个评估分,然后对所有的特征按照其评估分的大小进行排序,选取预定数目的最佳特征作为结果的特征子集。选择的准则是经特征选择后能有效提高文本准确率。选择没有改变原始特征空间的性质,组成一个新的低维空间。特征选择具有降低向量空间维数、简化计算、防止过分拟合以及去除噪声等作用,特征提取的好坏将直接影响着文本过滤的准确率。 常用的特征选择方法有:文档频率、信息增益、互信息、χ2统计、交叉熵、期望交叉熵、特征频度、文本证据权和几率比等。
3.5用户需求模板的表示
用户建模方法主要分为显式和隐式两种。显式用户建模是一种简单而直接的做法,由用户提供某些关键字的集合作为其初始兴趣偏好描述。因为一个词往往具备多个含义,反过来同一个概念也可用几个不同的词来描述,依靠这种方法建立用户兴趣模板显然是不可靠的。这就要求系统必须把语义信息和上下文信息考虑进来,比如过去用户读过哪些文章、用户工作在什么组织内、用户订购了哪些书籍等。与前者相比隐式用户建模要实际得多。通过对用户的行为进行跟踪,隐式建模推测用户可能的喜好。用户的行为表现为查询、浏览页面和文章、标记书签、点击鼠标、拖动滚动条、前进、后退等。研究表明,简单的动作不能有效揭示用户兴趣,比如点击鼠标,而浏览页面和拖动滚动条的时间以及用户查询页面、访问页面、标记书签等行为则可有效揭示用户兴趣趋向。
3.6特征项权重计算
特征项权重计算有两种方法。一种是由专家或用户根据自己的经验与所掌握的领域知识,人为地将特征项赋上权重。这种方法随意性大、效率低,不适于处理大规模真实文本。另一种方法是利用文本的统计信息来计算项的权重,如词频、词之间的同现频率等。面目前被广泛采用的权重评价函数有布尔函数、开根号函数、TFIDF函数、WIDF函数等。
4. 结束语
本文分析探讨了网络文本信息过滤的关键技术。目前,国内关于基于内容的网络信息过滤技术的介绍还不多,希望本文系统化的介绍和分析能够对网络信息监控和管理工作提供有用的参考。
注:文章内所有公式及图表请用PDF形式查看。
关键词:网络文本;信息过滤;
1.引 言
随着因特网不断普及和发展,一方面,因特网上的海量信息远远超过人们的想象;另一方面,面对如此海量的信息,人们往往感到束手无策,力不从心。如何帮助人们有效地选择和利用所感兴趣的信息,尽量剔除人们不感兴趣的信息,使之真正做到“各取所需”,已成为信息技术领域的热点问题。
2.信息过滤系统基本原理
一个最简单的过滤系统包括四个基本组成部分:信源、过滤器、用户、用户需求模板。图2.1是信息过滤系统的一个简单结构图。信源向过滤器提供信息,信息过滤器处于信源与用户之间,通过用户需求模板获取用户的兴趣信息,并据此检验信源中的信息,将其中与用户兴趣相关的信息递送给用户。反过来,用户也可以向信息过滤器发送反馈信息以说明哪些信息的确符合他们的信息需求,通过这种交互行为使得过滤器不断进行学习,调整自身的过滤操作,进而能在以后提供更多更好满足用户兴趣的信息。
图2.1信息过滤系统基本原理
3.信息过滤关键技术
3.1文本分类
文本分类是指依据文本的内容,由计算机根据某种自动分类算法,把文本判分为预先定义好的类别。文本分类是信息处理的一个重要分支,在信息发现领域中有着重要的用途,特别是在网络技术飞速发展的时代,对网络上的海量网页文本进行过滤和分类可使用户快速发现真正有用的文本。国外当前流行的文本分類算法有决策树、Rochcoi、K近邻(KNN)、朴素贝叶斯、Bayes法、支持向量机(SVM)等方法。而对中文文本分类的研究相对较少,国内外的研究基本上是在英文文本分类研究的基础上采取相应策略,结合中文文本的特定知识,用于中文之上。
3.2中文自动分词
中文自动分词方法有多种,一般来说大致可归结为以下三大类:基于词典的分词方法、基于统计的分词方法、基于规则和基于统计相结合的分词方法。
1.基于词典的分词方法
其基本思想是:事先建立词库,其中包含所有可能出现的词。对于给定的待分词的汉字串S,按照某种确定的原则切取S的子串,若该子串与词库中的某词条相匹配,则该子串是词,继续分割其余的部分,直到剩余部分为空;否则,该子串不是词,转上重新切取S的子串进行匹配。实际使用的分词系统,常常把基于词典的分词方法用于初步切分,配合其他方法的使用提高分词准确性。
2.基于统计的分词方法
基于统计的分词方法,根据字串出现的频率来判断这个字串是否是词。该方法对于大的语料,分全率还可以,但是对于小的语料分全率就比较低。
3.基于规则和基于统计相结合的分词方法
该方法首先运用最大匹配作初步切分,然后对切分的边界处进行歧义探测,发现歧义。最后运用统计和规则相结合的方法来判断正确的切分,运用不同的规则解决人名、地名、机构名识别,运用词法结构规则来生成复合词和衍生词。目前这种方法可以解决汉语中最常见的歧义类型:单字交集型歧义。并对人名、地名、机构名、后缀、动词/形容词重叠、衍生词等词法结构进行识别处理,基本解决了分词所面临的最关键的问题。
3.3文本预处理
预处理通常包括以下几种类型:
1.网页清洗。过滤系统预处理的第一步是进行网页清洗,去除web页中无用信息,从中抽取出页面文件的主要内容并且将其转化为纯文本。
2.词还原。词还原的主要目的是把一些变形词复原为该词原来的表示形式。
3.词性标注。词性标注是给文档中的每个词选择一个最有可能的词类。
4.去除停用词。停用词是指介词、冠词等语义内容很少的词,也指在文档集中的每个文档中都可能出现的高频词。停用词由于出现在很多文档中,因此对区分文档的内容作用不大,通常在预处理阶段被去掉。
3.4特征选择
特征选择(Feature Selection)的基本思想通常是构造一个评价函数,对特征集的每个特征进行评估。这样每个特征都获得一个评估分,然后对所有的特征按照其评估分的大小进行排序,选取预定数目的最佳特征作为结果的特征子集。选择的准则是经特征选择后能有效提高文本准确率。选择没有改变原始特征空间的性质,组成一个新的低维空间。特征选择具有降低向量空间维数、简化计算、防止过分拟合以及去除噪声等作用,特征提取的好坏将直接影响着文本过滤的准确率。 常用的特征选择方法有:文档频率、信息增益、互信息、χ2统计、交叉熵、期望交叉熵、特征频度、文本证据权和几率比等。
3.5用户需求模板的表示
用户建模方法主要分为显式和隐式两种。显式用户建模是一种简单而直接的做法,由用户提供某些关键字的集合作为其初始兴趣偏好描述。因为一个词往往具备多个含义,反过来同一个概念也可用几个不同的词来描述,依靠这种方法建立用户兴趣模板显然是不可靠的。这就要求系统必须把语义信息和上下文信息考虑进来,比如过去用户读过哪些文章、用户工作在什么组织内、用户订购了哪些书籍等。与前者相比隐式用户建模要实际得多。通过对用户的行为进行跟踪,隐式建模推测用户可能的喜好。用户的行为表现为查询、浏览页面和文章、标记书签、点击鼠标、拖动滚动条、前进、后退等。研究表明,简单的动作不能有效揭示用户兴趣,比如点击鼠标,而浏览页面和拖动滚动条的时间以及用户查询页面、访问页面、标记书签等行为则可有效揭示用户兴趣趋向。
3.6特征项权重计算
特征项权重计算有两种方法。一种是由专家或用户根据自己的经验与所掌握的领域知识,人为地将特征项赋上权重。这种方法随意性大、效率低,不适于处理大规模真实文本。另一种方法是利用文本的统计信息来计算项的权重,如词频、词之间的同现频率等。面目前被广泛采用的权重评价函数有布尔函数、开根号函数、TFIDF函数、WIDF函数等。
4. 结束语
本文分析探讨了网络文本信息过滤的关键技术。目前,国内关于基于内容的网络信息过滤技术的介绍还不多,希望本文系统化的介绍和分析能够对网络信息监控和管理工作提供有用的参考。
注:文章内所有公式及图表请用PDF形式查看。