论文部分内容阅读
目前公安信息网上蕴含了大量的信息,但通过人工浏览的方法很难做到对信息的全面浏览、整理,很多有用信息也就白白流失,产生了大量信息不能及时应用的矛盾,不利于案件侦破。针对这类问题,本文结合公安信息网和刑侦网页的特征,运用信息抽取和主题爬虫技术,设计和实现了专门搜集公安信息网上刑侦网页的主题爬虫。本文首先对网页HTML标签文档进行基于容器标签的划分,构造网页的粗粒度划分DOM树模型表示,通过文本语义分析,获取网页和语义块的特征向量作为网页的量化表示。在网页表示的基础上,本文给出了基于分块的网页主题信息抽取算法获取不同类型网页的主题信息,实验表明该算法能够有效抽取网页主题信息。然后本文针对原始的PageRank算法爬行网页时容易发生主题漂移的问题,通过提取链接描述文档,给出了结合链接主题相关度的PageRank算法对链接重要度进行评价,但由于爬行过程中,主题爬虫只能获取整个网络链接结构图的部分信息,使得非主题的权威型网页获取了更高的PageRank值,改进的PageRank算法并没有获得期望的爬行性能。因此本文进一步给出了自适应的链接重要度评价算法,在主题爬虫运行初期主要基于链接主题相关度对链接重要度进行评价,随着爬行进行,逐渐提高链接结构重要度的权重。针对公安信息网内的刑侦网页搜集实验表明,自适应的链接重要评价算法虽然爬行周期稍有增加,但时间复杂度仍和改进的PageRank算法处于同一数量级,而且由于具有更高的搜索精度,因此能通过搜集较少的无关页面找到较多的主题网页。应用网页主题信息抽取和主题爬虫技术的刑侦网页信息抽取系统的使用,显著提高了公安刑侦用户获取信息的准确性,提高工作效率。同时由于本文给出主题爬虫设计和实现方案具有通用性,对不同领域主题爬虫的实现具有一定的指导意义。