【摘 要】
:
词类划分与词性标注都是自然语言处理中重要的基础性研究课题,也是后续研究如浅层句法分析、文本分类、机器翻译等的基础。该课题的研究方法主要有三种:基于规则的方法、基于
论文部分内容阅读
词类划分与词性标注都是自然语言处理中重要的基础性研究课题,也是后续研究如浅层句法分析、文本分类、机器翻译等的基础。该课题的研究方法主要有三种:基于规则的方法、基于统计的方法以及两者相结合的方法。其中,基于统计的方法又分为监督学习、半监督学习和无监督学习等三种学习方式。本文主要从基于统计的角度去探索词类划分和词性标注的,主要内容如下:1、兼类词词性消歧是中文词性标注的难点之一。本文集成了支持向量机,条件随机场,最大熵等三种分类模型,对兼类词词性进行投票消歧,把得票多的词性作为该词的词性。以1998年1月份已标注《人民日报》为实验语料,对120个常见的兼类词进行开放测试,平均精度达到89.69%,取得了较好的效果。2、词类划分是指词语在语法意义上的分类,即词与词相组合的过程中所体现出来的类别。本文以句法功能信息库为蓝本,以该库中所列的14个属性为特征空间,以其中的句法功能统计数据作为特征值,并对这些空间特征进行归一化处理,利用AP算法,对它收录的3514个词进行聚类,共聚出62类,基本上把语法相同的或相似的词归为了一类。3、对词性进行聚类也是研究兼类词消歧的手段之一。本文从1998年1月份《人民日报》中抽取了12个兼类词,这些兼类词在分类时,效果不好,而且基准精度较低,区别度不大。本文利用AP聚类、k-means聚类、谱聚类等常见聚类算法;分别采用了欧氏距离、Dice系数、夹角余弦作为相似度的衡量方法;采用上下文词频作为特征,并对这些特征进行了提升、归一化等处理,然后进行聚类实验,取得了较好的实验结果。
其他文献
近年来,随着我国车辆的增加,高速公路给人们带来许多方便,但同时也引发了许多新问题,超速,超载等违章现象以及汽车犯罪现象等加剧,伤亡事故不断发生。而且高速公路上一旦发生
随着游戏、仿真等图形技术的不断发展,以及工业设计、模拟仿真、三维影视等对三维复杂物体模型应用需求的不断增加,关于三维模型重建的相关研究越来越受到人们的重视。而由于
随着互联网的迅猛普及,网络在人们生活中所占的比重也越来越大,网络中出现大量与XML数据流有关的应用,比如网络日志、股票分析、互联网监控、数据安全管理、位置信息、电子信息
随着互联网技术的快速发展,搜索引擎技术随之诞生。人们总是希望通过搜索引擎找到最相关、最权威的网页,而搜索引擎网页排序算法的好坏直接关系到用户能否找到这样的网页。所
面对当今社会信息系统安全需求的日益增长,已不可能单纯地靠技术手段从根本上解决信息系统的安全问题,更应该从系统工程的角度来看待信息系统的安全问题。风险评估是信息系统
随着互联网的高速发展,众多企业和个人已经把大量数据交给第三方服务器存储,如何保证私有数据的机密性和隐私成为急需解决的问题。加密技术是保护数据机密性和隐私的一种较为
社会经济的不断发展推动着人口大规模地向城市地区聚拢,导致交通越来越拥堵。交通拥堵已成为困扰交通领域的一个难题。大范围的车辆检测识别能及时的获取交通信息,改善交通安全
随着信息时代的发展,实时嵌入式系统已经不仅仅应用于工业自动化控制,而是更广泛的应用于多媒体通信、突发事件处理、环境监测、交通控制以及航空航天等领域。传统微内核结构
近年来,图数据模型广泛应用于生物信息、计算化学、语义网等领域。现有的图数据查询处理技术大多基于频繁子图,是一个过滤、验证过程,即首先通过挖掘出来的频繁子图构造索引,然后
智能规划的研究是人工智能研究领域的一个重要分支,在具体的实际应用中具有重要的意义。虽然基于模型检测的规划方法发展时间不长,但是可以用其来解决很多问题,例如求解不确