【摘 要】
:
随着计算机技术的高速发展,互联网已然与人们的生活紧紧结合在一起,成为人们分享信息的重要途径。然而,大量不良网页的出现使得网络安全的形势日趋严峻,成为人们关注的热点。
论文部分内容阅读
随着计算机技术的高速发展,互联网已然与人们的生活紧紧结合在一起,成为人们分享信息的重要途径。然而,大量不良网页的出现使得网络安全的形势日趋严峻,成为人们关注的热点。网页内容过滤是网络安全中的重要研究领域,而编码识别是网页内容过滤的必要前提。由于历史和地域原因,中文编码标准甚多,多种中文编码共存给中文网页的内容过滤带来了不便。因此,如何快速准确识别网页的编码成为人们研究的热门课题。本文介绍了国标码、大五码、万国码等中文编码的特征,研究了贝叶斯分类、Unigram和CodeFinder等编码识别算法。上述算法无法排除网页中ASCII码的干扰,导致识别准确率和时间效率低下。针对这一不足,本文提出了一种基于字频分布的中文网页编码识别算法——FKI。FKI根据汉字的字频分布,选取使用频度较高的字符构成高频字符表,以高频字符编码作为关键字,在待识别网页中查找,跳过了噪声(如ASCII码等)的干扰。通过比较不同码制的编码在网页中的匹配数目,最终判定待识别网页的真实码制。FKI算法选取高频字符作为关键字,这些关键字在中文网页内具有超高的使用率,使得算法几乎适用于所有中文网页编码的识别。对AC算法进行改进,使之适合网页内中文高频字符编码的匹配。改进的AC算法构建反向状态自动机,以字节为单位进行关键字查找。当出现字节失配时,以“0”状态所对应的字节作为失配字节计算跳转距离,.增大了失配时的跳转距离,从而提高中文编码的匹配效率。最后,对FKI算法、Unigram算法和CodeFinder算法进行了对比测试。实验结果表明,与上述两种算法相比,FKI算法的编码识别准确率较高且具有优越的时间效率,适合对未知码制类型的中文网页进行快速准确的编码识别。
其他文献
目前,人们已将信息管理技术应用到岩土工程中来,开发了许多具有可视化查询分析特征的信息管理系统和稳定性评价系统。这些系统的开发建设为岩土工程信息化起到了很大推动作用
随着电子商务规模的进一步扩大,用户数目和文档资源急剧增加,导致用户数据的极端稀疏性和系统扩展性问题。传统协作推荐算法都无法完全解决这些问题,针对Web个性化信息推荐(W
随着我国“以信息化带动产业化”战略的实施,以微处理器为核心的嵌入式系统广泛应用于各种工业和民用设备中,嵌入式系统也早已经融入了我们生活的方方面面。随着嵌入式系统的发
在现代电力市场环境下,电力系统的可用输电能力(ATC:Available Transfer Capability)指输电网络对电力市场还能提供的最大传输容量。它是衡量电网传输容量,反应系统安全性和可靠性的一项重要指标。为了保证电力系统的安全运行并且获得最大的经济效益,必须快速准确的计算ATC并将其值公布于网络开放实时信息系统(OASIS:Open Access Same-time Informat
BACnet (A Data Communication Protocol for Building Automation and Control Networks,楼宇自动控制网络数据通讯协议)协议,是美国暖通、制冷和空调工程师协会ASHRAE研究
聚类分析是数据挖掘的主要技术之一,在各种领域的用途广泛,用户借助于对数据集的聚类分析来挖掘数据集中数据对象的分类模式。聚类分析挖掘过程和分类不同,是在无导师监督的情况
随着云计算服务技术的不断发展和广泛应用,各类企业云服务资源开始呈现出应用系统、服务资源和数据中心等方面整合的趋势。云联盟作为一种扩展企业云计算能力的机制,旨在整合
三峡库区是地质灾害多发地区,由于地质灾害的危害性及突发性,需要及时准确的提出解决问题、处理灾害的办法和措施。因此,采用计算机网络技术,以现代通讯为基础的计算机网络信
基于虚拟现实的体育系统仿真技术越来越受到体育科研工作者和虚拟现实技术研究人员的重视.虚拟现实技术能够为体育工作者和运动员提供有效的、崭新的训练手段,扩大系统仿真的
沉积旋回信号的时频变化关系反映了地层的变化趋势,由厚变薄或由薄变厚。这对于寻找复杂的岩性、薄互层型等隐蔽性油气藏具有现实的意义。为了获取记录中的重要信息和信息的特