基于主动搜索的论坛内容监管技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:zhengj5817
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的愈加普及,互联网正在成为一种不可缺少的信息传播媒介。但同时,网上的不良信息如反动、色情等内容也随之扩散,极大的影响了国家的安定和人民群众的身心健康。论坛作为一种网民常用的互联网应用形式,在方便网民的同时,也面临着传播不良有害信息的问题。为了良好的网络文化氛围和环境,对论坛进行内容监控十分必要。论坛内容监管在实现上有主动和被动两种模式。主动模式有其自身的优点,针对主动模式中面临的问题,本文主要就以下两个问题进行了研究与实现:主动模式中使用网络爬虫技术获取论坛的页面,为论坛监管提供原始内容,但对于需要用户登录才可以查看的网页内容的论坛,爬虫获得的页面往往是登录页面,这对论坛内容监管毫无意义。针对这一问题,本文在详细分析用户登录过程和原理的基础上,给出并设计实现了一种基于Cookie和爬虫结合的论坛受限内容获取方案,通过相对自动的方式的获取认证Cookie用于获取论坛受限页面内容,并通过实验证明了该方案的可行性。在网络爬虫的运行过程中,为避免对同一网页的重复下载,需要快速高效的URL去重技术。利用哈希去重是一个重要的研究方向,本文研究了基于K-Picked哈希算法的URL去重方法,在研究原算法原理和不足的基础上,对原算法进行了改进和优化,采用了扩大算法中普通字符的范围,增加除数的离散程度和将K值随机化的手段,降低了最终压缩编码的冲突率,最后通过多个实验验证了改进后算法在URL去重中取得了较为良好的效果。
其他文献
自从群体智能的概念提出来以后,很多相应的智能方法和智能算法被陆续提出,并把它们应用在了很多经典算法不能解决的问题当中。通过实际的应用和实验的结果来看,很多群智能算
目前,如数据库模式的改进或迁入、基于组件的开发、数据库设计等大量数据库应用应运而生,模式信息在这些数据库应用中起着关键作用,如何操作模式信息的问题便摆在了人们面前
单证作为承载信息的一个载体为魔力平台可视化开发提供基础,单证关系为平台的开发和运行提供支撑。因此单证关系的定制在平台中至关重要。但平台中原单证关系的定制模型存在
目前,随着数字媒体的迅速普及和互联网的蓬勃发展,数字水印技术已经成为保护网络信息安全的重要手段,人们可以通过在数字媒体信息中嵌入数字水印,来实现检测作品的完整性和真实性
在多租户云数据库中,为了保证租户服务质量,资源隔离技术日益流行。其中轻量级组件CGroup可以限制、记录、隔离进程组所使用的物理资源,具有易部署和易管理的优点。但是在用C
无线传感器网络能够实时监测、感知和采集各种环境或者对象的信息,并且能够对其进行相应的数据处理,因此,它被广泛地应用于军事、医疗、交通、环境等诸多领域。由于传感器节
无线射频识别(RadioFrequencyIdentification,简称RFID)技术是一种非接触的自动识别技术,可利用射频方式进行双向通信,达到自动识别目标对象并获取相关数据的目的。随着RFID技术
自从八十年代开始,射频识别技术(RFID:Radio Frequency Identification)已经是一项逐步走向成熟的非物理接触的自动识别技术。在远距离、恶劣环境的情况下,RFID技术仍然可以达
随着内存计算技术的飞速发展,大容量、低能耗的内存架构已经成为支撑内存计算发展的关键因素,然而现有基于DRAM(Dynamic Random Access Memory)的主存系统却受限于DRAM自身的
目前嵌入式领域的图像处理技术逐渐呈现出计算复杂、数据量大、并发性和实时性的要求越来越高等特点,使得传统的处理器体系结构越来越难以满足应用的需求,亟需研究新型高性能处