面向金融信息检索的体裁分类与情感分析技术研究

被引量 : 0次 | 上传用户:xuanxuaner8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的高速发展使得网络信息变得越来越丰富,但对用户来说,海量信息反而使得高效的信息获取变得困难。目前,基于主题的网页分类和聚类技术常被用来管理和组织海量网页数据,从而帮助用户定位相关和有用信息。本文的研究则是面向金融领域垂直检索应用,在传统的主题分析基础上,从文本体裁和情感两个新的非主题维度入手,对金融文本进行体裁、情感和相关性分析,通过结合网页文本分析和学习排序等信息检索技术,改进搜索性能。协助用户更准确定位所需信息,从而提高搜索效率和信息的相关性。在信息检索系统中,体裁可以作为一个显著特征,帮助用户快速定位所需信息。本文在金融网页的检索结果上,研究了体裁分类特征选择、提取以及自动体裁分类方法。基于似然比检验,本文提出了两种新的特征选择算法,用于优选具有较好体裁区分能力的特征,同时,设计了三种用于金融网页文本体裁自动分类的结构化特征:上下文特征、频繁特征和模式特征。本文采用机器学习方法结合上述特征集合实现了金融文本体裁自动分类。实验结果证明了本文提出的特征选择算法和结构化特征选取是有效的。金融文本中包含的情感倾向有助于金融信息检索结果的相关性排序,帮助确定信息的重要程度。因此,本文研究了金融新闻文本的情感分析方法,分别设计和实现了基于贝叶斯语言模型和相似度语言模型的中文金融新闻文本自动情感分类方法。实验结果显示,与传统机器学习方法相比,语言建模方法更为简单、直接和有效。本文提出了利用股评文本进行自动构建可靠的训练语料集,此外,在本文的研究中,还利用股票价格作为指示器,半自动构建金融新闻情感分类的测试语料集。这些资源可为本领域情感分析研究的深入提供支持。缺少可靠的标注资源是情感分析研究瓶颈之一。如何将其它语言(源语言)情感资源用于目标语言的情感分析研究,即跨语言情感分析是本文另一个研究内容。本文创新性地提出将实例级别迁移学习方法用于跨语言的情感分析,评估和选择高质量翻译样本用于目标语言情感分类器的辅助训练,解决跨语言情感分析中遇到的不同语言训练和测试数据特征/类别概率分布不一致、翻译错误传递等难题。本文提出了三种用于跨语言情感分析的迁移学习算法。第一种算法基于TrAdaBoost(Transfer AdaBoost),通过对源和目标样本采用不同权重迭代更新策略,进而减少低质量翻译样本对分类性能的负面影响。考虑到TrAdaBoost存在过度丢弃源语言训练样本的风险,我们提出了第二种迁移学习算法TrBB(TransferBoostingwithBagging),利用Bagging对TrAdaBoost进行平滑。与Boosting迁移策略减少低质量翻译样本被选中参与训练概率不同,第三种方法是迁移自学习(TransferSelf-training),算法通过结合预测标签和原标签进行自学习,直接从翻译语料中选择更多的高质量样本用于目标语言情感分类器的训练。本文分别在文档和语句级的跨语言情感分析任务上对本文提出的方法进行实验验证,实验结果显示迁移学习方法可以有效地利用其它语言标注语料,改善目标语言情感分类器的性能。专业金融信息检索系统需要对行业和股票等金融产品提供对象级别的信息服务,而传统的信息检索模型不能直接用于计算对象和网页的相关性。本文结合用户的搜索意图,从对象主题、金融领域、情感趋势和行业四个方面度量金融产品与网页的相关性,分别设计了对应的四类特征,并结合网页文档和查询对象给出了特征的量化表示,最后通过训练判别式模型SVM来计算查询对象和网页的相关性。实验结果显示,相对于语言模型方法,学习排序方法能够通过训练,有效结合领域内多方面特征,大幅度提高搜索结果质量。针对行业训练语料缺少不相关训练语料集问题,本文提出了一个用于行业信息检索和推荐的单类检索模型,研究比较了三种不同的单类分类方法在行业信息检索和推荐任务上的性能。实验表明,单类信息行业检索模型结合单类SVM方法,能够为用户提供高召回率和高精度行业信息检索服务。本文的研究显示,在传统主题分析之外,对网页文本进行有效的体裁分类和情感分析,能够帮助用户迅速定位所需信息,提高搜索引擎的搜索效率。本文的研究内容在金融信息检索领域尚属首次,研究的成果已被实际应用到海天园知识服务平台。
其他文献
目前,传感网最常用的复用技术由于受各种因素的限制很难满足许多大型结构需要大量FBG的监测要求。此外由于同时测量多个FBG存在光谱混叠现象,使得传感网中FBG传感器的复用数
工程地质灾害治理中,注浆是最常用的方法,浆液的扩散运移规律对工程设计和施工具有重要的意义。采用SV振弦式黏度计测定水泥–玻璃(C-S)浆液的黏度时变性,通过函数拟合获得黏
公立医院固定资产管理影响医院规模和综合实力的提升。文章从内部控制角度出发,阐述公立医院固定资产管理机制的内涵和特点,内部控制与公立医院固定资产管理的关系,分析我国
电子病历是医疗卫生信息化的重要研究领域。作为病人在医疗机构历次就诊过程中产生和被记录的完整、详细的临床信息资源,结构化的电子病历中还包含有大量的非结构化文本信息,
自从二战后计算机开始应用于轧制负荷分配领域,不仅要求轧制产品质量高,而且对冷连轧的工艺过程也提出了越来越高的要求。传统的依靠经验进行轧制负荷分配的方法已经不能满足
聚丙烯酰胺(PAM)作为一种水溶性高分子聚合物,已广泛应用于各个领域,尤其在油田三次采油中。但传统的聚丙烯酰胺耐温、耐盐和抗剪切性能差,因此通过疏水改性获得高性能的改性聚
磁制冷作为一种高效环保的新型制冷技术,具有十分广阔的应用前景。目前,室温磁制冷工质的研究热点主要集中在稀土及其化合物、稀土-过渡金属化合物、过渡金属基化合物、钙钛
2008年以来的金融危机影响和中国股市这三年的过山车式的走势,让大家开始全民关注资本市场。而流动性被认为是资本市场的最重要的性质。对于股票来说,流动性差就意味着投资者
移相器是微波、毫米波技术领域中的常见器件,在雷达系统,通信系统,电子对抗系统等多领域具有广泛的应用,特别是在相控阵天线阵列中应用最多,移相器性能的优劣会对系统性能产
<正> 乐学是指视学习为一种精神需要,感到学习是一种愉快的生活,有积极、乐观向上的态度,学得轻松愉快。要培养学生的乐学品质,必须让学生有成功的体验,培养学生良好的审美观