【摘 要】
:
自然语言中普遍存在着同义词和多义词现象,致使人们很难通过以词形匹配的关键词检索寻找到真正需要的网络资源。潜在语义索引通过奇异值分解将同义词映射到潜在语义空间的同
【出 处】
:
沈阳航空工业学院 沈阳航空航天大学
论文部分内容阅读
自然语言中普遍存在着同义词和多义词现象,致使人们很难通过以词形匹配的关键词检索寻找到真正需要的网络资源。潜在语义索引通过奇异值分解将同义词映射到潜在语义空间的同一维度上,同时将多义词映射到不同的维度上,进而在一定程度上解决了一词多义和多词一义的现象。潜在语义索引与其它基于概念词典的方法相比,具有可计算性强,领域适应能力强的优点,并已成为了自然语言处理领域中的研究热点。本文的研究工作是通过强化合理的特征共现信息来提高潜在语义空间中特征向量和文档向量的准确度,进而提高系统的性能。基于以上的想法,本文提出了基于伪文档的潜在语义索引的优化框架,所谓伪文档即是通过对原始文档集合进行有指导地组织而形成的新的文档。同时,本文在基于伪文档的优化框架的基础上提出了两种优化策略:基于语义块的优化方法及基于语义资源的优化方法。针对潜在语义索引以文档窗口为传递窗口造成的特征相关度不准确的问题,本文提出了基于语义块的优化方法。该方法是通过对原始文档集合有指导地分割,将语义相近的特征划分到同一个语义块单元中,从而加强了语义相关特征的相关性,最终优化了潜在语义空间中的代表特征和文档的向量。同时,在应用潜在语义索引的过程中,生成潜在语义空间的整个过程是完全无指导的,使得语义空间中的表达特征和文档的向量不够准确。基于语义资源的优化方法通过将人的先验知识融入到原始的文档集合中,有指导地强化了同义特征之间的相关度,最终使得潜在语义空间中表达特征和文档的向量更加准确。最终,本文开发了“基于潜在语义索引的专利检索系统”作为实验系统,针对本文提出的方法以可视化的形式展示了实验效果。
其他文献
近年来,随着Internet的高速发展,使用互联网的用户希望彼此之间能够有更好的协作,网络参与方式更加主动,现有一般的传统网络模式已不能满足所有的需求。Peer to Peer(简称P2P
随着互联网和信息技术的迅速发展,数字资源产业在整个国民经济中的比重逐渐增加。由于数字内容具有易于无损复制和分发的特性,数字资源普遍存在未经许可授权和非法使用的状况
新一代视频编码标准HEVC(H.265)是专门针对高清甚至超高清视频提出的编码标准,相比于现在广泛采用的H.264/AVC视频编码标准,在相同的视频质量下HEVC能够提高一倍的压缩比。这
近20年来,网上财务办公系统的应用得到了迅速发展,尤其是近几年来Internet/Intranet技术的飞速发展,为企业建立MIS系统提供了良好的支持环境。运用WEB技术,建设企业财务管理
基于角色的访问控制模型(RBAC)是在理论和应用研究中广泛使用的一种访问控制模型。但是,在大型管理信息系统中应用RBAC时,仍存在用户、角色、权限管理复杂和运行维护成本高等
随着网络用户的增加以及网络资源规模不断变大,网络已经成为一个巨大的能量消耗源。需要消耗大量流量的应用比如P2P和视频流传输,实时数据传输等规模也十分庞大,并且还有逐年
嵌入式Internet技术作为嵌入式技术与Internet技术相结合的产物,得到了广泛应用。随着Web技术的飞速发展,嵌入式Web服务器技术已经成为嵌入式Internet应用领域的一项关键技术
随着网络规模的急剧膨胀,传统英特网在扩展性、管控力、灵活性等方面存在很多问题。近年来迅速发展的软件定义网络(Software Defined Networking,SDN)正在悄悄打破这种僵局,
随着计算机网络技术与数据库技术的发展,教育信息化已经成为学校管理的重要内容。招生工作作为学校管理工作的重要内容,与学校相关职能部门之间存在许多信息交换。招生工作管
移动Ad hoc网络(Mobile Ad hoc network, MANET)也称自组网,是由一组带有无线收发装置的移动节点组成的一个多跳的、临时性的自治系统。网络中的各个节点可以任意移动,因而网络