基于描述复杂性的信息检索理论与若干模型研究

来源 :北京语言大学 | 被引量 : 2次 | 上传用户:xinkiss168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们在文中讨论了几种模型:基于kolmogorov complexity的NID(NCD)理论的几种模型(第二章、第三章),图模型(第四章),简单关联模型(第五章),设计程序进行了实验验证,和经典的向量空间模型做了对比。并且从两个方面力图解决信息检索理论和经验上的ad hoc问题:从普遍理论导出检索模型,用普遍理论解释经验模型。此外,探讨了信息检索结果等价的形式化分析、向量空间模型假设的形式化分析及其前缀复杂性表示。 一,在NCD理论和模型方面做的工作主要有三:信息检索的NCD解释、NCD模型近似实现和试验、经验模型和NCD模型的比较和解释。 1:信息检索的NCD理论(第二章)。我们从算法信息(描述复杂性)的角度讨论了信息检索的NCD理论。NCD从理论方面给出了解决信息检索理论上一直存在的ad hoc问题的途径。由Kolmogorov complexity定义出来的NCD在理论上证明为一切有意义的距离中最优的。如果信息检索必须含有评分和排序,并且将相关度等同于评分函数所得到的评分,依照评分来排序文档,那么,理论上NCD应该是最优的检索模型。但是由于NCD不可计算,因此只提供了一个理论解释,而具体模型则需要我们用各种策略去近似NCD。 2:NCD模型近似实现和试验(第二章、第三章)。2a.NCD模型依照压缩算法的近似实现和试验(第二章)。 ●我们由NCD理论近似得出了两种基于压缩算法的模型。两个模型由NCD理论近似导出,不同于信息检索的模型(信息检索模型一直具有ad hoc问题),并且是揭示了压缩和信息检索相关度之间的关系。就文本的结构算法信息进行了实验。实验的结果表明,压缩率越大,则检索效果越好。而对文本做编码,使得单词能够作为一个单位,或者编码长度一致,检索效果也有了提高。这表明,进一步改进压缩算法,提高压缩率,进而得到更高的检索效果;修改实现压缩算法的程序,使之真正以单词为单位进行压缩,从而得到更好的检索效果。 ●我们根据lz算法,设计了一个简单算法,真正以单词为单位进行压缩(把词作为不可压缩的码字),编制程序进行了实验验证。实验结果表明,真正以单词为单位进行压缩,则检索性能大有提高,限于条件,简化算法没有达到lz算法最优压缩效果。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
期刊
肘管配筋中钢筋多为空间三维曲线,采用二维设计手段,难以直观表达钢筋空间构造。本研究采用Bentley平台下的参数化三维设计软件Generative Components,研发了参数化金属里衬
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
通过在聚合物结构中同时引入生物亲和单体和电活性单体,使得聚合物组装体在修饰丝网印刷电极时兼具提高比表面积、保持酶活和促进电子转移功能,从而发展了一种简单、高效构建
目的观察老年人急性心肌梗死(AMI)患者的临床特点、体征和治疗方法。方法回顾性分析2010年2月~2014年2月我院收治的50例老年AMI患者的临床资料,分析探讨其临床特点、治疗方法
目的讨论及分析托特罗定联合双氯芬酸钠利多卡因防治前列腺汽化电切术后不稳定膀胱的临床治疗疗效。方法随机选取2011年3月~2013年3月我院泌尿外科患者300例,分为三组。在前
基于高速公路软基施工实践,对采用水泥搅拌桩处治后的软土路基填筑施工变形情况进行监测。结果表明,沉降速率和水平位移变化速率略高于规范值,主要是由于加快施工速度造成的,
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的系统评价中药治疗帕金森病伴抑郁的疗效和安全性。方法计算机检索Pubmed、中国知网、维普数据库、万方数据库等,收集中药治疗帕金森病伴抑郁的疗效和安全性的随机对照试