论文部分内容阅读
在Web中检索一个查询词,搜索引擎往往会返回成千上万的搜索结果,这些结果绝大部分对于某个特定的用户而言都是不相关的,用户必须通过浏览冗长的列表或层次结构复杂的树型结构才能找到自己所需要的信息。列表方式呈现的信息内容清晰明了,但无法体现产品信息之间的联系与差异,80%的网络用户不会查看搜索结果第三页以后的内容;树型结构能较好的体现层次关系,但产品分类都是事先设定的,用户查找产品信息时往往需要按照固定的路径查询,缺乏灵活性。因此,为了帮助用户从搜索结果中筛选出真正感兴趣的产品,必须设计出一种简洁、实用而又能快速准确查找产品信息的查询及浏览方式。通过研究形式概念分析理论发现,概念格结构实际上是一个概念间关系的网络结构,在这个网络关系结构中概念之间存在着一些隐含的直接或者间接关系,例如,上下层概念格节点之间的继承关系、概念之间的二元关系、同一层概念格节点之间的关联性等。如果将这些关系应用到产品信息展示中,它不但实现了用户兴趣产品的表示,而且用户除了能发现关注产品信息,还能发现与这些信息相关联的其他产品信息,提高了发现有用信息的准确率的同时也丰富了检索结果的相关内容。基于此,本文提出了形式概念分析理论与实际相结合的基于FCA的产品信息提取和结构化显示方法。本文主要包含两部分内容,一部分是Web信息提取,另一部分是基于概念格的产品信息显示及优化策略。信息提取部分的主要任务是从Web页面中提取出产品信息的具体属性内容。本文采用基于正则表达式的信息提取方法从Web页面的HTML代码中匹配获取有关的数据。基于正则表达式的信息提取技术思路如下:首先从Web中获取包含目标信息的页面;然后对Web页面进行解析,从而得到页面对应的HTML代码;接着对Web页面结构进行分析,编写合适的正则表达式;最后对Web页面进行模式匹配,力图使系统拥有自动分析大部分网页并提取和归类保存其中用户需求信息的功能。基于概念格的产品信息显示及优化策略主要是利用概念格结构中各个节点之间具有的偏序关系来表现同类产品之间的联系与差异,为用户的购买提供决策帮助。本文在这部分工作中,首先对概念格中存在的各种隐含关系进行研究;然后根据概念格结构特点提出了利用概念格结构展示产品信息的观点;由于概念格结构不仅要能准确的展示信息间的关联,而且要能剔除不相关的信息以降低显示复杂度、提高信息的可用性,提出了关键格及关键形式概念的定义,并给出了从关键格中挖掘核心形式概念的方法;挖掘出的核心概念在表示产品信息时是不同的具体的产品,通过属性关联性的度量方法,本文给出了度量不同产品之间的关联程度的方法。本文的主要贡献如下:(1)利用正则表达式强大的信息匹配能力,对Web中的产品参数信息进行有选择的提取,从而得到用户需要的结果。(2)提出了使用概念格结构展示产品信息的观点,这种方式不仅仅能为用户提供一个清晰的概念层次关系,方便用户浏览和选择感兴趣的内容,而且能清晰的表现信息之间的联系与差异。(3)提出了关键形式概念、关键格的定义以及从关键格结构中挖掘核心形式概念的方法。(4)提出一种基于属性关联性的度量核心形式概念之间的关联程度的方法,根据属性隶属程度完成对核心概念之间的关系分析并提供结果供用户参考。