【摘 要】
:
为了从网页中快速获得隐含的有用信息,提出一种基于开始定界符的Web信息抽取方法。首先通过网络爬虫获取样本网页;其次对样本网页进行预处理;再通过循环神经网络训练预处理后
论文部分内容阅读
为了从网页中快速获得隐含的有用信息,提出一种基于开始定界符的Web信息抽取方法。首先通过网络爬虫获取样本网页;其次对样本网页进行预处理;再通过循环神经网络训练预处理后的样本网页,获得开始定界符;最后利用lxml解析库实现目标抽取页面Web信息的定位与抽取。这样将半结构化的网页自动整理成结构化的知识,以便人们的查询及再利用。通过三个慕课网站的抽取实验,证明该方法抽取效果良好,可以抽取有用信息并具有可移植性。
其他文献
一、研究目的1.研究人类遗传资源的整合方法,建立资源整合技术体系,开展各类人类遗传资源的整合;2.利用整合的遗传资源进行汉族群体遗传多样性与遗传结构的初步研究。二、研
通过介绍内浮盘结构下浮动吸油臂的设置模式,并从结构及连接模式方面分析共特点,列出安装及使用过程中需要注意的事项。
近几年来,我国枣树人工栽植及嫁接改良面积不断扩大,为枣农带来了一定的经济效益。但由于枣树是开花量大而坐果率低的树种,其落花、落蕾、落果都很严重。华北地区的自然坐果率只
随着我国科学技术的飞速发展,机电一体化技术也取得了相当显著的成绩,其应用范围也是越来越广,尤其是在工程机械制造方面,更是发挥着至关重要的作用。不仅有效提高了工程机械
<正>2018年3月15日,由全国微型电动汽车产业创新联盟、中关村新型电池技术创新联盟、山东省汽车行业协会、山东汽车工程学会共同主办的"2018中国(济南)新能源汽车产业发展峰