异构信息网络检索技术研究

被引量 : 2次 | 上传用户：qidezhong

【摘要】

：

现实世界中各种信息对象和它周围的信息对象都在不同方面、不同层次，以不同方式相互影响、相互作用着，从而组成了复杂的信息网络。信息网络不仅能帮助我们更好的表达和存储现实

【作者】

：

刘钰峰

【发表日期】

：

2014年01期

【关键词】

：

异构信息网络信息检索半监督学习文本聚类聚类结果描述查询推荐

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

现实世界中各种信息对象和它周围的信息对象都在不同方面、不同层次，以不同方式相互影响、相互作用着，从而组成了复杂的信息网络。信息网络不仅能帮助我们更好的表达和存储现实世界中的本质信息，而且通过对信息网络中的联接信息进行分析，它可以作为一种挖掘现实世界中隐藏信息的有用工具。因此，从信息网络中挖掘信息获取知识已成为当前的研究热点之一。本文在分析了信息网络尤其是异构信息网络的研究现状的基础上，通过分析信息文档及其相关对象的关系构建异构信息网络，研究了半监督学习、文档聚类、检索结果聚类标签抽取以及查询推荐等信息检索中的关键技术。论文的主要研究工作和创新点如下：（1）提出了针对查询和文档的内容特征以及点击关系构造异构信息网络及半监督学习的框架。根据查询和文档自身内容特征分别构造基于特征的相似图，同时基于查询和文档之间的点击关系构建查询-文档二部图，并引入标记样本的判别信息强化网络结构。提出了查询-文档异构信息网络上半监督学习的正则化框架和标记传播算法。在给出少量标签的情况下，本文方法能更充分的利用查询和文档本身的内容信息，并借助于相互之间的关系互相传播，实验表明本文方法优于传统的半监督学习方法比较。（2）为包含多种类型和联系的高阶异构信息网络建立了图正则化的半监督学习框架。在该框架中，使用图正则化区分了不同类型联系的语义，提出了一种能充分保留标记样本和未标记样本共同揭示的空间结构的光滑性的代价函数，并得到了该代价函数的闭式解。提出了高阶异构信息网络上的标记传播算法，标记信息从标记节点不断向邻近节点传播直至稳定状态，证明了标记传播算法将收敛于代价函数的闭式解。在该框架之下，一些经典的半监督学习算法可以作为其特例存在。（3）针对查询-文档富文本异构信息网络提出了两种不同的主题传播模型：TP-TS和TP-Unify。TP-TS把主题建模和随机漫步看成是两个独立的过程，首先通过潜在概率主题分析（PLSA）对文本内容构建主题模型，然后主题信息在异构的查询-文档二部图互相传播，从而揭示不同节点的主题并进行类别划分。TP-Unify把异构信息网络上异构节点之间的一致性约束引入主题分析，在进行主题建模的同时结合了网络结构分析技术。（4）提出了一种新的类别标签抽取的方法，其基本思想是把类别标签抽取转化为与类簇相关的查询词的排序问题，从而避免了从网页文档簇中抽取主题词的操作。提出了一种融合查询-网页点击图、网页相似图以及链接图对查询词和网页进行联合排序的算法，该算法能有效的整合用户、网页创建者和网页写作者对网页的评价。（5）把基于日志分析和基于语义分析的查询推荐技术结合起来，通过构造Term-Query-URL异构信息网络同时分析日志信息及语义信息，采用基于查询的重启动随机游走进行查询推荐。借助于点击日志进行协同推荐，在高频查询上能取得很好的效果，采用基于文档的方法训练词汇和查询词之间的语义关系，可以提高稀疏查询的推荐效果。在大规模商业搜索引擎查询日志上的实验表明本文方法优于现有的查询推荐方法。

其他文献

山东省宽带业务宏观环境与竞争环境分析

<正>1宏观环境对宽带的影响1.1政策因素政府对信息化建设的大力推进为宽带业务发展带来无限商机。信息产业现已成为山东省的支柱产业,因此山东省政府十分重视信息产业的发展,

期刊

宽带业务社会信息化国民经济宽带市场宽带产业山东省竞争环境分析

常用金属表面缓蚀自组装膜及其研究方法

简要介绍了常用活性金属表而主要涉及的缓蚀自组装膜体系以及缓蚀膜自组装行为的主要影响因素,并重点综述了电化学疗法、谱学技术、显微镜技术以及接触角测试等研究方法在活

期刊

活性金属缓蚀自组装膜自组装体系影响因素研究方法

双音节汉越词词义特点研究

“汉越词”占越南语词汇总量的60％，研究“汉越词”对汉语和越南语的二语教学都有一定的积极意义。本文全面搜集权威越南语词典中的汉越词，对汉越词的整体状况做出一个全面的梳理

期刊

双音节汉越词汉越对比词义语义域

《我是猫》与批判现实主义

长期以来 ,因为夏目漱石的名作《我是猫》中所洋溢着的强烈的社会批评精神 ,我们一直把它当作批判现实主义作品。本文运用批判现实主义的定义和特点 ,对文本进行分析 ,论证了

期刊

夏目漱石我是猫社会批判拟人化批判现实主义

元稹百年研究综述

五四时期到新中国成立前是现代意义上元稹研究的开创期。建国后的研究范围渐渐涉及元稹的品格与《莺莺传》,陈寅恪的《元白诗笺证稿》是此时最重要的成果。"文革"时元稹研究

期刊

元稹研究百年回顾生平品节创作理论反思

台湾中南部制造业地理集聚及变化态势分析

本文采用区位熵分析法及偏离份额分析法,从静态和动态双重视角考察台湾中南部地区制造业空间分布及变化态势。区位熵分析结果显示:中南部地区是台湾制造业空间分布的集聚区域

期刊

台湾中南部制造业集聚区位熵分析偏离份额分析法

点亮组工梦铸就中国梦

<正>"梦"是大海航行的灯塔,是奋斗的目标,指引着前进的方向。"梦"能够激发人们顽强的斗志,克服一切困难勇于拼搏,去创造不平凡的业绩。在实现中国梦的伟大征程中,我们需要不

期刊

组工干部公道正派党性修养

“男子而作闺音”——唐宋词中的一种文学现象

浅析了唐宋词中"男子而作闺音"这种文学现象的背景、作用及影响。

期刊

男子而作闺音唐宋词背景作用影响

世界经济深度调整下两岸经济合作取向研究

金融危机过后,世界经济呈现差异化复苏态势,不但经济增长重心发生迁移,贸易、投资和产业发展格局也发生较大变化,世界经济呈现深度调整特征。受其影响,两岸贸易、投资增速下

期刊

世界经济金融危机两岸经济合作

慢性盆腔炎患者血清TNF-α、IL-1β、IL-4及T淋巴细胞亚群分布变化

目的观察慢性盆腔炎患者血清肿瘤坏死因子α(TNF-α)、白细胞介素1β(IL-1β)、白细胞介素4(IL-4)及T细胞亚群分布变化。方法选择124例慢性盆腔炎患者为观察组,120例健康妇女

期刊

慢性盆腔炎肿瘤坏死因子α白细胞介素1β白细胞介素4T细胞亚群

异构信息网络检索技术研究

其他学术论文