论文部分内容阅读
越来越多的人在互联网平台发布一些产品的评论信息,我们称为用户生成内容(User-Generated Content,UGC)。如何高效地帮助人们识别有用的信息是目前学术界和工业界越来越关注的研究之一。汉语解释性意见要素识别就是研究如何精确的识别出用户生成内容中要素成分的问题。汉语解释性意见要素识别任务是指利用自然语言处理技术准确的识别评论语句中的意见属性、意见评论、意见解释信息。本文根据中文产品领域评论的语言特点,在构建汉语解释性意见要素识别的语料库基础上,研究汉语解释性意见要素识别问题。本文将从以下三个方面进行研究:(1)基于LSTM的解释性意见要素识别:基于LSTM的方法可以识别出属性、评论和意见解释片段,但是没有利用标签的相互作用,而CRF框架可以加强当前标签对相邻下一个标签的识别效果。为了提高意见要素识别预测的准确率,本文运用LSTM和CRF框架的结合。实验表明,可以有效识别要素成分。(2)基于预训练模型的解释性意见要素识别:CRF只利用预测标签之间的信息,而在中文的评论语句,字的上下文信息、字在句中的语义信息都可以作为特征。预训练在很多研究中已经得到验证,可以获取意见要素成分中与字相关的特征,并能有效提高预测的准确率。本文运用word2vec、ELMo两种预训练的方法,分别提取了要素成分中字的上下文信息、要素成分中的字在整段评论句的语义信息。实验表明,分别增加这些特征可以对要素识别的效果起到一定作用。(3)融合多特征的解释性意见要素识别:分别使用上下文特征、语义特征可以取得一定效果,为了进一步提高要素识别的效果,采用融合要素成分与字有联系的特征和字的特征。与字有联系的特征通过预训练模型提取;字的特征包括字作为单纯的特征和字的笔画特征,字的笔画特征可以有利于识别数据稀疏未出现的要素成分。融合多特征是将这些特征结合作为LSTM和CRF的框架的输入,实验表明,融合多特征的方法有一定的效果。