论文部分内容阅读
以智能化工具作为代表的信息技术近年来迅速发展,不仅加速了工业化与信息化的融合,带动了国民经济的增长,同时这些也正深刻地改变着人们的生活和生产方式。而由于具体领域的不同,信息文本的表达也具有明显的领域性特征。这就给相关信息的描述和利用查询工具识别出信息的所属领域,并同时能够精确的表达专业词汇要传达的语义信息带来了很大的困难。随着智能电网控制的进一步发展,电力相关的企业积累了大量电力领域所产生的文本数据,同时网络上关于电力领域的论文和报道也是逐渐变多。而现有的文本数据挖掘研究多是针对情感相关的分类,对于工业和电力领域的文本挖掘的研究却鲜有报道,如何有效的利用这些文本数据成为当下研究的热点,而对于专业领域的文本挖掘工作一直以来都是信息届的难点问题,研究者不但要具有扎实的互联网基础,同时也要对相关领域的知识有着充分的理解,这就更给诸如电力和工业领域的文本挖掘处理工作带来了困难。为了解决上述提到的电力文本数据的难处理问题,本文从提取电力文本领域关键词,电网投诉文本的分类,电力文本的语料库和词典构造三个方面进行研究。1.本文详细介绍了现有的电力领域的文本类别,针对电力领域关键词的提取问题,利用电力领域的相关数据集和从网上爬取到的有关电力行业的数据为基础,对电力领域的文本进行了新词发现和关键词提取的工作,得到了可观的电力领域相关的特征词汇。尝试利用这些词汇作为电力领域文本分词的词典,通过分词的实验表明:相对于传统的中文通用词典,本文所建立的词典可以显著的提高电力文本的分词效果。2.本文针对电网公司的一些投诉文本进行了分类实验,利用了传统机器学习中的朴素贝叶斯分类器、SVM(支持向量机)分类器以及逻辑回归分类器等对这些数据进行了分类实验。同时本文探索了这些机器学习算法处理电力领域文本的分类效果,对比了电力投诉文本在不同算法下的分类效果。3.针对缺少公开的电力语料库和电力领域词典的问题,本文使用从网上爬取的相关电力领域的文本和电力领域的数据集设计了电力领域的语料库,将其分为电力网络文本语料库和电力专业术语库,并且编纂和设计了电力文本的领域词典,给出了电力文本领域词典的构造方法,编纂了上万词的电力领域词典。