中文网站抓取及编码转换研究

来源 :新疆农业大学 | 被引量 : 0次 | 上传用户：xingyu9404

【摘要】

：

本文在分析GB2312、GBK、GB18030、Big5、UTF-8等中文字符编码特征的基础上，重点研究了网页文件的中文字符编码识别技术。通过对比不同的文本特征（布尔权重、词频权重、词频倒

【作者】

：

吴乃宁

【机构】

：

新疆农业大学

【出处】

：

新疆农业大学

【发表日期】

：

2013年期

【关键词】

：

汉字编码识别特征选择特征加权机器学习网络爬虫汉字编码转换

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文在分析GB2312、GBK、GB18030、Big5、UTF-8等中文字符编码特征的基础上，重点研究了网页文件的中文字符编码识别技术。通过对比不同的文本特征（布尔权重、词频权重、词频倒文档频权重）和机器学习方法（多元线性回归、朴素贝叶斯、K临近算法、支持向量机），提出了一种综合应用中文字符编码规则和网页文本特征的中文字符编码识别模型。该模型对于有着严格编码规则的UTF-8编码，按照其编码规则来判断。对于码位空间重合的GB系列和Big5编码采用网页文本特征来识别。试验表明，该模型在阈值（属于UTF-8编码的字符数比总字符数）等于1时，对UTF-8编码识别率为100%。特征值个数大于65个时，四种机器学习方法对GB系列和Big5编码识别率均为100%。为了实现农业垂直搜索引擎中中文统一编码的任务，本研究设计开发了农业网页中文字符编码自动识别和各类编码转换为UTF-8编码的通用模块。该模块以网络爬虫下载的网页为输入参数，首先抽取其中的中文，再根据编码规则判断是否采用UTF-8编码。若不是UTF-8编码，则根据实验得到的特征值，采用布尔权重和多元线性回归算法判断编码是GB系列编码还是Big5编码。最后采用iconv函数将网页统一转为UTF-8编码。

其他文献

电厂电气设备常见故障排除方法探讨

本文通过对荣华二采区10

期刊

高标准基本农田建设效益评价研究——以吴桥县梁集镇、于集镇研究为例

耕地是农业生产的重要物质基础。党中央和国务院一直保持着对农田基本建设的高度重视。最近几年来，国家出台了多项支持政策，投入了大量资金，农田基础设施不断地改善，农业综合生产

学位

农田建设经济效益社会效益生态效益评价指标

核心素养下初中英语写作教学的实践探析

摘要：深化教学改革，构建良好的教学形态，是核心素养下初中英语教学发展的重要内容。本文立足核心素养，从教与学两个维度空间，就初中英语写作教学的有效构建提出了几点建议，旨在推动初中英语写作教学对核心素养的实践。　　关键词：初中英语;核心素养;写作教学　　随着新课改的不断推进，初中英语教学环境发生了巨大变化，以核心素养为导向的英语教学构建，着力于教与学两个维度的有效生成。初中英语核心素养包括语言能力、

期刊

初中英语核心素养写作教学

中文网站抓取及编码转换研究

其他学术论文