基于垂直搜索技术的网站分析系统的研究与实现

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:baronsong2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今的经济、社会生活的各个领域中,互联网的应用正变得越来越广泛。在互联网经济迅猛发展的同时,由网站违规运营造成的问题也呈逐年上升趋势。虽然信息产业部通过ICP/IP地址/域名信息备案管理系统实现了对网站的备案和简单管理,但是在现有的技术手段下,无法及时发现未备案网站并有效地监督和管理接入网站的规范运营情况,这为新时期的互联网管理工作提出了新的要求。本课题在对网站监管现状作了深入而细致的调查研究之后,提出通过搜集DNS解析日志和网络运营商的互联网IP地址段,与信息产业部网站备案系统数据交叉比对,然后结合垂直搜索的核心技术——信息采集技术和自然语言解析技术等,实现对全省网站的备案情况进行统计和管理,对全省网站数据的动态实时扫描、监控和深度挖掘,增强互联网管理的主动性和时效性,提高面对各类新的反监管手段的应变能力。本文首先介绍了垂直搜索及其相关技术,在此基础上提出和设计了基于垂直搜索技术的网站分析系统的整体框架和技术路线,然后介绍了网站分析系统各子系统的详细设计。论文主体部分着重研究和实现了垂直搜索引擎的两个核心部分:网络蜘蛛和中文分词。其中网络蜘蛛融合了数据库队列、多进程和多线程以及网页元素步进解析算法等技术;中文分词部分采用了机械分词与统计分词相结合的方法,使用含有词语优先级的统计分词词典计算分词最短路径,以获取最优切分结果。经过初步测试,垂直搜索引擎在性能和准确率方面都能满足网站分析系统的性能需求。本文最后从计算机网络、灾难备份、访问控制、管理机制等几个方面介绍了系统的整体安全防护设计。
其他文献
人的面部表情含有丰富的人体行为信息。在人与人的交往中,面部表情是除了声音之外的重要的通信方式。作为信息的载体,表情能够传达很多语音所不能传达的信息。面部表情识别系
身份管理是当前企业应用系统的突出问题,也是目前分布式资源系统建设的研究热点。虽然身份管理技术和标准日趋完善,许多组织和企业也提出了很多身份管理解决方案,但是在具体的应
随着我国经济的增长,对能源的需求不断增加,煤炭作为我国的重要能源之一,需求量也随之会快速增加。但是,煤矿生产带来的安全问题却成为业界一直不可回避的问题之一。尤其矿难
我国拥有世界上最丰富的制造业资源,但我国的制造业所使用的粗犷的制造方式却极大的限制了制造业资源的利用率。但“物联”严重不足的情况导致了大量制造企业资源闲置,如何汇
互联网已经迅速发展成为我们生活、工作和学习中一个不可或缺的重要组成部分。 如何从这个巨大信息海洋中寻找所需的信息资源或定制自己的服务成为人们迫切关心的问题。作
随着Internet和多媒体技术的飞速发展,流媒体视频传输成为网络应用的一大热点,流媒体彻底改变了传统Internet只能表现文字和图片的缺陷,可集音频、视频及图文于一体。近年来,
聚类分析是认识事物的基本途径之一。通过聚类分析,可以更清楚地认识事物的本质特征。目前的各种聚类分析方法中,动态聚类法是最为普遍的一种。本文主要从静态样本和动态样本
国民经济持续快速发展的同时,铁路运能紧张问题也日益突出。编组站作为路网上最重要节点,承担办理货物列车的解体和编组任务,其效率的提高对提升整个路网的运输能力至关重要
P2P网络安全模型的研究是当前研究的热点之一。由于P2P网络分布式、缺乏集中控制的特点,使得P2P网络的安全成为一个突出的问题。因此需要一个分布式的信任机制来增强系统的可
3G(GPS/GIS/GPRS),是空间技术、卫星定位与导航技术和计算机通讯技术相结合,多学科高度集成的对空间信息进行采集、处理、管理、分析、表达、传播和应用的现代信息技术。前两者