基于对话的主题提取研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:kuaijizhidu2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化步伐日益加快和网络技术的飞速发展,人们的沟通方式也随之发生改变,通过网络与他人进行交流的方式日益取代了书信的方式,网络文本数据的数量日益增加。因此对海量网络文本数据的信息处理和数据挖掘具有非常重要的意义,并引起了国内外研究者的密切关注。其中一个研究方向是对网络对话信息的主题提取,它可应用于问答系统、网络信息安全、情报获取等多个领域。通过研究书面语文本的主题提取方法及了解国内外对对话文本主题提取技术的研究现状,总结了对话与书面语的语言特点差异。书面语具有结构紧凑、用语规范、主题思路清晰的特点,但是对话具有含大量问-答对且问-答对中信息相对重要、多主题且主题之间边界模糊、主题交织且组织结构混乱等特点。从而认识到用于书面文本的主题提取方法不能直接适用于对话文本的主题提取,需要对对话的各个特点进行有针对性的处理,才能提高对话文本主题提取的准确率。基于上述思想,设计了一个基于对话的主题提取系统,主要包括问-答对探测模块、主题切分模块、主题树生成模块等。其中问-答对探测模块主要针对对话里含有大量问-答对且问-答对中信息相对重要的特点,使用了机器学习的方法探测问句和其相对应的答句;主题切分模块针对的是对话中多主题且主题之间边界模糊的特点,通过主题概率模型得到词汇在语句中的分布概率,从而获得相邻语句之间的边界点;主题树生成模块针对对话中主题交织,组织结构混乱的特点,使用融入语言特征的聚类算法将切分后的语块按主题重新归类。最后对问-答对探测模块进行了仿真实验和对主题句抽取模块进行了测试。在对问-答对探测模块的仿真实验中,使用C4.5决策树和朴素贝叶斯两种分类器对问(答)句进行判别。通过比较分类器对训练集和测试集的问(答)句和非问(答)句的判别性能,以及选择了不同的特征集进行了多次测试和分析,得到了一系列的比对结果。对照比对结果,讨论了在不同情况下两种分类器在判别问(答)句的性能优缺点,从而得到了在不同情况下应该选取何种句子特征集与分类器的结论。在对主题句抽取模块的测试中,通过测试不同数据集得到的结果集,比较了结果之间的差异性并分析了造成差异的原因。
其他文献
本文主要研究海洋声场中的一种声线模型,此模型可应用于水下声纳、海洋资源开发和海洋环境监测等多个技术领域。这种模型以声速为基础,构造海洋中声能的传播路径、声衰减、延时等。本文提出用B-样条构造声速剖面的方法,克服了常规三次样条内插法对含有较大拐点曲线内插的不足,为声线模型的构造建立了良好的基础。为了合理地构造声线传播路径需要在声线模型中使用较为准确的声速剖面。在常规的内插法中,如果存在有较大拐点,会
随着信息技术的飞速发展,通信工程中对数据链路传输速率的要求日益提升,而频谱资源有限始终是制约通信速率提升的瓶颈。因此,提高通信频谱利用率成为解决这一问题的重点研究
无线Mesh网络中只有一个或多个节点充当网关节点接入基础设施网络,其他节点通过相邻节点中继连接到网关,再接入到互联网。因此该网络具有延伸性能好,鲁棒性强,容量大,组网成
随着信息化战争的深入,战场实情愈发多变,为了提升雷达系统在复杂电磁环境下对目标的检测、分辨和识别能力,本文设计了一套基于软件无线电技术的雷达实验系统。该雷达实验系
随着社会福利政策的提高和医疗条件的改善,人们对家居生活的质量提出了越来越高的要求;老龄化的到来,使得关爱老年人的家居生活成为社会焦点问题;不合理的4-2-1家庭结构,给当
随着计算机网络和多媒体技术的快速发展,基于内容的图像检索技术逐渐成为一个非常活跃的研究领域,国内外很多研究机构都在进行相关的研究工作,取得了很多令人瞩目的成果,并在
Radio-over-Fiber(ROF)技术的最初目的是为了提高无线频谱资源的利用率和简化远程基站的模块。随着ROF技术研究的发展,基于ROF技术的通信系统具有丰富的传输带宽、无缝的覆盖
随着城市建筑规模越来越大,建筑结构越来越复杂,这些都直接导致消防网络的规模日趋庞大,并且对消防网络的稳定性、可靠性、可操控性和可监管性提出了更高的要求。目前的消防网络
短波通信技术成熟,通信距离远,电台体积小,适合在移动状态的平台上工作,跳频通信抗截获、抗干扰能力强,保密性能好,因此短波跳频系统在军事抗干扰通信中得到了广泛应用。短波
在雷达、水声、通信等领域,对线性调频信号(Linear Frequency Modulation,LFM)参数的估计测量十分普遍,本文结合项目背景,在TMS320C6678硬件平台上工程化实现了LFM信号参数的