论文部分内容阅读
本文在分析GB2312、GBK、GB18030、Big5、UTF-8等中文字符编码特征的基础上,重点研究了网页文件的中文字符编码识别技术。通过对比不同的文本特征(布尔权重、词频权重、词频倒文档频权重)和机器学习方法(多元线性回归、朴素贝叶斯、K临近算法、支持向量机),提出了一种综合应用中文字符编码规则和网页文本特征的中文字符编码识别模型。该模型对于有着严格编码规则的UTF-8编码,按照其编码规则来判断。对于码位空间重合的GB系列和Big5编码采用网页文本特征来识别。试验表明,该模型在阈值(属于UTF-8编码的字符数比总字符数)等于1时,对UTF-8编码识别率为100%。特征值个数大于65个时,四种机器学习方法对GB系列和Big5编码识别率均为100%。为了实现农业垂直搜索引擎中中文统一编码的任务,本研究设计开发了农业网页中文字符编码自动识别和各类编码转换为UTF-8编码的通用模块。该模块以网络爬虫下载的网页为输入参数,首先抽取其中的中文,再根据编码规则判断是否采用UTF-8编码。若不是UTF-8编码,则根据实验得到的特征值,采用布尔权重和多元线性回归算法判断编码是GB系列编码还是Big5编码。最后采用iconv函数将网页统一转为UTF-8编码。