面向刑侦网页的信息抽取与主题爬虫应用研究

被引量 : 0次 | 上传用户:yuxiaohe19861111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前公安信息网上蕴含了大量的信息,但通过人工浏览的方法很难做到对信息的全面浏览、整理,很多有用信息也就白白流失,产生了大量信息不能及时应用的矛盾,不利于案件侦破。针对这类问题,本文结合公安信息网和刑侦网页的特征,运用信息抽取和主题爬虫技术,设计和实现了专门搜集公安信息网上刑侦网页的主题爬虫。本文首先对网页HTML标签文档进行基于容器标签的划分,构造网页的粗粒度划分DOM树模型表示,通过文本语义分析,获取网页和语义块的特征向量作为网页的量化表示。在网页表示的基础上,本文给出了基于分块的网页主题信息抽取算法获取不同类型网页的主题信息,实验表明该算法能够有效抽取网页主题信息。然后本文针对原始的PageRank算法爬行网页时容易发生主题漂移的问题,通过提取链接描述文档,给出了结合链接主题相关度的PageRank算法对链接重要度进行评价,但由于爬行过程中,主题爬虫只能获取整个网络链接结构图的部分信息,使得非主题的权威型网页获取了更高的PageRank值,改进的PageRank算法并没有获得期望的爬行性能。因此本文进一步给出了自适应的链接重要度评价算法,在主题爬虫运行初期主要基于链接主题相关度对链接重要度进行评价,随着爬行进行,逐渐提高链接结构重要度的权重。针对公安信息网内的刑侦网页搜集实验表明,自适应的链接重要评价算法虽然爬行周期稍有增加,但时间复杂度仍和改进的PageRank算法处于同一数量级,而且由于具有更高的搜索精度,因此能通过搜集较少的无关页面找到较多的主题网页。应用网页主题信息抽取和主题爬虫技术的刑侦网页信息抽取系统的使用,显著提高了公安刑侦用户获取信息的准确性,提高工作效率。同时由于本文给出主题爬虫设计和实现方案具有通用性,对不同领域主题爬虫的实现具有一定的指导意义。
其他文献
<正>国家级全国中文核心期刊扩版增容品质提升收获更多权威、客观、全面、实用《化学教育》是中国科学技术协会主管,中国化学会、北京师范大学共同主办的国家级全国中文核心
医药新产品开发投资巨大、周期长、技术性强、有很大的风险和不确定性,但由于它具有高回报的特征,因此受到各国的重视,并将其视为经济增长的动力。随着市场经济的发展,我国制药企
<正>《布达佩斯大饭店》The Grand Budapest Hotel导演:韦斯·安德森主演:拉尔夫·费因斯、西尔莎·罗南、蒂尔达·斯文顿、艾德里安·布洛迪、爱德华·诺顿、欧文·威尔逊、
<正>随着温室气体的不断排放,以及过度捕捞和化工厂产生的污染,人类活动已经对世界海洋造成了严重影响。根据最新研究得出的分析数据显示,世界海洋的食物链已经处于崩溃边缘
一年一度的奥斯卡颁奖引来全球瞩目,获奖者"黄袍加身,财源滚滚",这是全球多少电影人的梦想。冲击"奥斯卡"成了中国电影人的心病。对于"冲奥",我们应理性对待。
《全日制义务教育地理课程标准(实验稿)》(下文再引用时,简称课程标准)的颁布,使区域地理的教学要求发生巨大变化,同时使区域地理教材的编写有了很大的自由空间。依据新课程标准
食品加工、保藏和运输中会发生各种物理变化及生物化学变化,这些变化不仅会改变食品本来的颜色和结构,而且使芳香物质变质,营养成分下降,最终导致食品品质降低。选择有效的保藏方
随着民航市场的日趋开放,国际航空业巨头争相进入中国市场,越来越多民营航空也迅速加入到竞争之中。一时间,国内民航业狼烟四起,竞争日益激烈。纵观航油市场,国际油价大幅波
奢侈品行业品牌有其自身的特点,以LV为例,其品牌的成功得益于精准的定位、生动化的终端橱窗、主题化的品牌价值传播、产品故事述说及与艺术大师的跨界合作。中国的奢侈品消费
换热器是汽车冷却系统中必不可少的一部分,其性能的好坏直接影响着发动机的工作效率、可靠稳定以及各零件的使用寿命。随着科学技术的迅速发展,换热器正朝着紧凑、高效、轻量化