一种无词典的从Web新闻页面抽取主题的算法

来源 :情报学报 | 被引量 : 0次 | 上传用户：tao009

【摘要】

：

主题抽取是自然语言处理研究的重要问题之一。目前流行的方法是“词典＋匹配”，但该方法用于处理动态变化的网页信息时，词典难于及时更新等弊病就表现出来。本文作者在研究中文新

【作者】

：

蔡巍王永成尹中航

【机构】

：

上海交通大学计算机科学与工程系

【出处】

：

情报学报

【发表日期】

：

2008年1期

【关键词】

：

主题提取 WEB页面超链接 subject extraction Web pages hyperlinks

【基金项目】

：

本文受国家863项目（No.2002AA119905）及国家自然科学基金项目（No.60082003）资助.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

主题抽取是自然语言处理研究的重要问题之一。目前流行的方法是“词典＋匹配”，但该方法用于处理动态变化的网页信息时，词典难于及时更新等弊病就表现出来。本文作者在研究中文新闻网页内容、结构特点的基础上，提出了一种利用Web页面结构无需词典的主题抽取算法。我们使用该方法对新华网财经新闻语料1000篇进行主题抽取实验，并与手工抽取的主题进行比较，结果表明，重合率高达93％以上。

其他文献

基于放松区间优势的不完整数据分类

针对朴素信念不完整数据分类算法中保守推理规则过于严格导致明确分类样本比例下降的的情况,定义了放松的区间优势,并提出了基于放松区间优势的不完整数据分类模型,与朴素贝

期刊

分类不完整数据区间优势classification incomplete data interval advantage

超磁致伸缩材料热特性建模与补偿

超磁致伸缩材料(Giant Magnetostrictive Material:GMM)是一种新型的精密致动元件,具有位移分辨率高、输出响应速度快、输出位移大、能量密度高、工作频率范围宽的特点,目前

期刊

超磁致伸缩材料热特性温度补偿线性插值GMMthermal characteristicthermal compensationlinear interp

衡南县生态农业旅游开发问题研究

随着我国及世界经济的快速发展,我国及世界旅游业取得了快速的发展,旅游业被公认为是我国及世界最具潜力的新兴产业之一。最近几年,党中央对农业的重视程度不断增加,创新农业

学位

生态农业旅游旅游开发问题研究衡南县

语义相关度算法在主题抽取中的适用性研究

语义相关度的计算方法在信息检索、文本挖掘和自然语言处理等方面有着广泛的应用，而其算法种类很多，这些算法针对不同的应用环境具有不同的适用性。本文汇总了多种语义相关度的

期刊

语义相关主题抽取词汇链semantic relatedness subjects extraction lexical chain

朝鲜崖柏的育苗技术

期刊

柏树朝鲜崖柏育苗成活率

基于OWL的本体半自动进化研究

本体随着领域、时间、应用环境等的变化而不断发生着演变,因此,本体的完善以及随环境的变化而进化就成为了当前本体研究的重点。本文在引进国外本体进化理论及充分掌握OWL语

期刊

本体半自动进化一致性语义变化ontology evolution consistency semantic change

一种无词典的从Web新闻页面抽取主题的算法

其他学术论文