羡余否定格式识别研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:chm200630990203
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出羡余否定格式的识别新课题,羡余否定现象即指那些虽然形式上是“不、没、没有、别、非、未”等否定成分,但是实际上并不表示否定意义;以往对羡余否定格式的研究集中在语言本体方面,在自然语言处理方面对羡余否定格式的研究尚未出现。本文致力于对羡余否定格式的识别研究,这不仅有助于汉语的语义分析和计算机的自然语言理解,也可以基于对这些格式的识别进一步纠正分词问题。本文针对几个典型的羡余否定格式考察其句法特征,确定识别策略,并运用Python写出识别程序,观察识别结果,最终定出每个格式的识别方法。本文主要识别的羡余否定格式为:“好不XP”“难免不/没(有)XP”“没(有)XP之前”“差(一)点(儿)没(有)XP”等,还有一些羡余否定格式,由于语料太少,没有列入考察范围,如:“小心别XP”、“险些没XP”,“拒不XP”。对每一个羡余否定格式的识别策略不太一样,但是总的来说,因为羡余否定这种现象非常特殊,语料较少,采用统计的办法来识别比较困难,本文采用基于规则的方法,首先对训练语料中的羡余否定格式进行观察研究,发现其中的规律并把规律形式化为计算机可以执行的算法流程,然后对新输入的语料执行规则,判断其中的格式是否为羡余否定格式。本文所识别格式在测试语料中的调和平均值达到92%以上,而所识别的“没(有)XP之前”、“差(一)点(儿)没(有)XP”、“好不XP”格式的调和平均值能达到95%以上,可以看出用语言知识规则来识别效果比较理想。另外,基于本文对羡余否定格式的识别结果也可以提升机器对相关格式进行理解时的准确率,提升幅度跟具体格式有关。
其他文献
介绍了使用TOC-L总有机碳分析仪测定总有机碳的实验原理及实验方法,通过校准曲线的绘制、精密度和准确度的测定和实际样品及回收率的测定表明,该方法简便快捷,准确度和精密度
从发展现状角度对国际陆海贸易新通道经济产业、基础设施、物流发展与政策四个方面进行了评估分析,指出国际陆海贸易新通道主要辐射的省市经济发展呈现良好态势、交通基础设
利用扫描电镜(SEM)观察冻融试验前后单掺粉煤灰和复掺粉煤灰、硅粉时混合骨料混凝土的骨料-水泥石界面过渡区(ITZ)的微观结构和水化产物,从微观层面分析矿物超细粉对混合骨料
随着多媒体应用的深入,人们对视频的传输和存储不断提出新的要求,与H.264/AVC编码标准相比,H.265/HEVC视频压缩编码算法的主要优点是压缩率高,但是编码复杂度也相应增加,其编
提出一种新的相移方法,该方法将原独立的水平和垂直一维正弦光栅集成为单幅正交正弦光栅图,再采用双频光栅相移方法,从而实现仅通过某一特定方向相移即可获取两正交相位分布,
我国财政转移支付制度自建立以来不断完善,并取得了一定成效。但由于受旧体制中政策制度的影响,以及科学的政府职能界定的缺乏等方面原因,使得我国现行财政转移支付制度依然存在
通过简要介绍宿州市埇桥区栏杆振海采石厂废弃矿山的地理、地质环境背景条件、现状存在的地质环境问题,结合矿山地质环境特征和埇桥区栏杆镇土地利用总体规划,制定切实可行的
Gasar多孔金属材料作为集结构和功能于一体的新型材料,其定向孔隙结构一方面使其质量减轻,从而大大节约了材料;另一方面使其表面积增大几十倍甚至几百倍,从而其传热性能得到了明
一九三五年,鲁迅首次使用了“乡土文学”这一术语。①他解释道:“凡在北京用笔写出他的胸臆来的人们,无论他自称为用主观或客观,其实往往是乡土文学的作者。”“然而”接下来
<正>每年12月刊,本刊编辑部都要出一个年度盘点的专题,今年也不例外。如果用汉字来寻找和概括2014年国内汽车后市场发展脉络的主线,笔者认为"忍"和"矮"最能从字义和字形上表