结合网页结构与文本特征的正文提取方法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:msjzkdy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。
其他文献
为实现图像低层可视特征提取及其智能语义推理,从遥感图像解译入手,结合灰度共生矩阵和模糊C均值分类器提取图像纹理特征。构造基于灰度形态学的多尺度多结构元素边缘检测算子,提取特征知识。构建基于断层带的多源地学数据语义推理模型。以成都附近的断层为研究对象,进行语义推理验证,其解译结果与专家实地解译情况相符,初步验证该模型的可行性,使图像的机器分析结果更加贴近专业人员的目视解译,为地学研究数字化和遥感图像
本组选择我院2001年3月至2005年10月腹部闭合性损伤病例中,经过手术治疗证实为单纯性肠系膜撕裂伤病例,共14例,对其进行回顾性分析,总结报告如下:……
期刊
企业要在激烈竞争的市场中立于不败之地,建立一支忠诚的员工队伍是关键,本文就如何使员工忠诚于企业进行了探讨.