结合网页结构与文本特征的正文提取方法

来源 :计算机工程 | 被引量 : 0次 | 上传用户：msjzkdy

【摘要】

：

网页中存在正文信息以及与正文无关的信息，无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响，从网页的结构特征和文本特征出发，提出一种结合

【作者】

：

熊忠阳蔺显强张玉芳牙漫

【机构】

：

重庆大学计算机学院

【出处】

：

计算机工程

【发表日期】

：

2013年12期

【关键词】

：

正文提取网页去噪网页分块主题爬行信息检索 Web挖掘 content extraction Web page denoising Web page

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

网页中存在正文信息以及与正文无关的信息，无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响，从网页的结构特征和文本特征出发，提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素，完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块，依据各个块的文本特征将其区分为链接块与文本块，并利用噪音块连续出现的结果完成对正文部分的定位，得到网页正文信息。实验结果表明，该方法能够快速准确地提取网页的正文内容。

其他文献

基于语义的图像低层可视特征提取及应用

为实现图像低层可视特征提取及其智能语义推理,从遥感图像解译入手,结合灰度共生矩阵和模糊C均值分类器提取图像纹理特征。构造基于灰度形态学的多尺度多结构元素边缘检测算子,提取特征知识。构建基于断层带的多源地学数据语义推理模型。以成都附近的断层为研究对象,进行语义推理验证,其解译结果与专家实地解译情况相符,初步验证该模型的可行性,使图像的机器分析结果更加贴近专业人员的目视解译,为地学研究数字化和遥感图像

期刊

语义网纹理特征边缘特征语义推理灰度共生矩阵多源地学数据semantic Web texture feature edge feature se

单纯性肠系膜撕裂伤14例回顾性分析

本组选择我院2001年3月至2005年10月腹部闭合性损伤病例中,经过手术治疗证实为单纯性肠系膜撕裂伤病例,共14例,对其进行回顾性分析,总结报告如下:……

期刊

关于建立一支忠诚于企业的员工队伍的思考

企业要在激烈竞争的市场中立于不败之地,建立一支忠诚的员工队伍是关键,本文就如何使员工忠诚于企业进行了探讨.

期刊

忠诚人才员工Loyala person of abilitystaff

结合网页结构与文本特征的正文提取方法

其他学术论文