论文部分内容阅读
本文利用语义网相关概念与技术对面向领域的信息检索进行了研究。文中利用本体技术对相关证券领域的词汇与关系进行了定义,并构建起证券领域知识模型。其次,利用本体对用户检索语句进行语义查询扩展后,利用基于语义的排序算法作为平台核心的排序模块,通用检索技术作为平台核心检索模块实现了面向领域的证券信息检索系统。另外,针对投资者的需求对系统进行了扩展以期达到自适应热点功能并提出了Web语义信息服务框架。语义网是目前流行的下一代互联网概念,在专业搜索领域中应用语义网相关技术可以提高搜索的准确率,并且本体的建立便于知识重用与机器互操作。本文首先介绍了语义网及其相关技术,对描述逻辑进行详细的描述,然后构建了面向证券领域本体Stock Ontology(简称SO),并用OWL语言进行了相应描述。本文在建立了证券领域本体SO后,提出并实现了面向专业领域的信息检索系统Semantic Information Retrieval System based on Special Area (简称SIRSSA),该系统可以对用户所提供的关键词进行语义扩展,生成标准系统检索语句以便满足投资者相关信息查询的需求。另外系统还提供三元组检索语句组合模块使用户可以更精确的设定检索语义。同时,提出了基于语义的检索集二次排序算法OntoRank,在分析集合文档概念关系的基础上,对本体进行概念关系查询后确定相应词汇权重因子,并计算文档权重,对系统初始检索集进行排序更新,提供用户查询语义相关检索集合。本文进一步提出自适应热点算法扩展,利用用户点击频率统计相关信息受关注程度,可以自动反映热点,使投资者可以方便在检索的同时得到极大相关热点排序集合。本文将面向证券领域的语义信息检索进行Web服务描述,以期对外提供服务接口供机构投资者调用,并利用ABC时空本体模型对证券文本信息进行语义描述。此外,提出了可以根据不同的地理信息数据的描述利用本体推理机制进行股票交易过程的信息服务流程。基于文本描述与数量处理的基础上,本文给出了面向证券领域综合应用平台的框架,使文本描述与数量分析集成,在进行证券数据挖掘的同时提供对文本信息的响应。文中进一步提出证券信息普适服务的设想。