基于Web的领域词典构建技术研究

被引量 : 0次 | 上传用户:ltqhan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
领域术语是反映领域特征的词语,可以从一定规模的语料中自动抽取。领域术语自动抽取是自然语言处理中的一项重要任务,可以应用到领域本体构建、专业搜索、文本分类、类语言建模等诸多领域。同时,互联网上特定领域的文本资源非常丰富,因此,如何利用互联网上大规模的特定领域语料来构建领域词典就成为一个既有挑战性又有实际价值的课题。本文系统阐述并实现了一套WEB领域词典构建技术。通过对系统功能的分析,我们把系统分成了WEB领域文本收集、语料预处理、领域新词发现和领域特征词抽取四部分。与传统的领域术语抽取不同,我们首先需要收集WEB领域文本。该部分采用广度优先的算法获取特定类型的网页,我们针对其中的关键点快速的主题过滤算法展开了相关研究,设计并实现了一个基于向量空间模型的主题过滤模块。在语料的预处理部分,我们采用了一种基于统计的网页正文抽取方法,首先对网页进行规范化处理表示为一棵DOM树,然后统计各节点的内容信息进行正文抽取,该方法实现简单,通用性好,在准确性和速度上基本都能满足系统的需要。在领域新词发现部分,我们采用了基于统计和规则相结合的方法识别新词,在词频统计的基础上通过添加独立成词概率等层层过滤候选词。目前该模块综合F值可达70%以上。在领域特征词抽取部分,我们使用基于正规化分布熵的领域词汇抽取策略,并且将位置成词概率引入该方法中,取得了不错的效果。总之,通过对实验观察和结果分析,本课题实现了WEB领域文本收集、语料预处理、领域新词发现和领域特征词提取的关键技术,并在研究的基础上提出并实现了一套面向互联网领域词典构建的技术方案。
其他文献
山区高速公路高填方涵洞工程应用广泛,但高填方涵洞顶部受到的垂直土压力影响因素较多,现行公路桥涵设计通用规范中线性土压力理论未能准确反映涵顶垂直土压力的变化规律,使
运用正交试验研究反应温度、反应时间、反应物摩尔比以及初始pH对甘-谷二肽与葡萄糖的Maillard反应产物致香成分的影响,甄选出较佳反应条件,并将反应产物应用于卷烟中。结果
通过对困难山区既有电气化株六铁路增建第二线选线设计的实践,介绍优化设计方案、减小对既有线运营干扰以及控制工程投资等的体会。 Through the practice of designing the
按照一维、二维相互垂直和三维相互垂直3种情形,运用Mathematica软件分别模拟了同频率和不同频率的简谐振动合成.直观地显示了不同情况下简谐振动合成的结果,不但可以加深学
背景全球细菌耐药发展迅速、危害巨大,抗菌药物不合理使用是其主要原因。各国针对抗菌药物不合理使用出台了相应的干预策略、措施,并开展了一系列的干预研究,但是针对医学生
防御性医疗行为(defensive medicine),也有人将它译为自卫性医疗行为,是美国Tancredo LR等学者1978年在Science杂志上的《The problem of defensive medicine》文章中最先提
近年来城市化进程不断加快,工程基础设施建设越发频繁,对工程地质有强烈的依赖性。因此,开展特定区域的工程地质分区和工程适宜性评价不仅可以指导该区域的工程建设和城市规划,还能实现对地质环境条件更合理的利用和保护,促使人类活动和自然条件的和谐共处。本文依据《富平县地震小区划》项目,划定研究区,进行了相关资料的收集、现场调查、工程勘探和现场与室内试验,深入分析了场地内的地貌类型、地质构造、岩土体类型成因及
奶牛泌乳早期能量代谢特点是干物质摄入减少、机体能量需求增加所致的能量负平衡。严重的能量负平衡会造成奶牛酮病、脂肪肝。它们是威胁奶牛泌乳早期代谢健康和泌乳性能的重
根据天津临港工业区二期围海T4、T5区真空预压工程的地质情况,阐述了二次加固直排法真空预压的施工过程,对一次加固及二次加固的效果进行对比分析。采用该方法在一次加固后有
我国煤炭资源西多东少,煤炭生产的重点正逐步西移。相对于东部而言,西部地区煤田虽然构造简单,但是煤层结构较为复杂,对比解释困难。因此,在我国西部地震勘探中由构造勘探向