基于FCA的产品信息提取和结构化显示方法

来源 :河南大学 | 被引量 : 0次 | 上传用户:dashiliangzeyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Web中检索一个查询词,搜索引擎往往会返回成千上万的搜索结果,这些结果绝大部分对于某个特定的用户而言都是不相关的,用户必须通过浏览冗长的列表或层次结构复杂的树型结构才能找到自己所需要的信息。列表方式呈现的信息内容清晰明了,但无法体现产品信息之间的联系与差异,80%的网络用户不会查看搜索结果第三页以后的内容;树型结构能较好的体现层次关系,但产品分类都是事先设定的,用户查找产品信息时往往需要按照固定的路径查询,缺乏灵活性。因此,为了帮助用户从搜索结果中筛选出真正感兴趣的产品,必须设计出一种简洁、实用而又能快速准确查找产品信息的查询及浏览方式。通过研究形式概念分析理论发现,概念格结构实际上是一个概念间关系的网络结构,在这个网络关系结构中概念之间存在着一些隐含的直接或者间接关系,例如,上下层概念格节点之间的继承关系、概念之间的二元关系、同一层概念格节点之间的关联性等。如果将这些关系应用到产品信息展示中,它不但实现了用户兴趣产品的表示,而且用户除了能发现关注产品信息,还能发现与这些信息相关联的其他产品信息,提高了发现有用信息的准确率的同时也丰富了检索结果的相关内容。基于此,本文提出了形式概念分析理论与实际相结合的基于FCA的产品信息提取和结构化显示方法。本文主要包含两部分内容,一部分是Web信息提取,另一部分是基于概念格的产品信息显示及优化策略。信息提取部分的主要任务是从Web页面中提取出产品信息的具体属性内容。本文采用基于正则表达式的信息提取方法从Web页面的HTML代码中匹配获取有关的数据。基于正则表达式的信息提取技术思路如下:首先从Web中获取包含目标信息的页面;然后对Web页面进行解析,从而得到页面对应的HTML代码;接着对Web页面结构进行分析,编写合适的正则表达式;最后对Web页面进行模式匹配,力图使系统拥有自动分析大部分网页并提取和归类保存其中用户需求信息的功能。基于概念格的产品信息显示及优化策略主要是利用概念格结构中各个节点之间具有的偏序关系来表现同类产品之间的联系与差异,为用户的购买提供决策帮助。本文在这部分工作中,首先对概念格中存在的各种隐含关系进行研究;然后根据概念格结构特点提出了利用概念格结构展示产品信息的观点;由于概念格结构不仅要能准确的展示信息间的关联,而且要能剔除不相关的信息以降低显示复杂度、提高信息的可用性,提出了关键格及关键形式概念的定义,并给出了从关键格中挖掘核心形式概念的方法;挖掘出的核心概念在表示产品信息时是不同的具体的产品,通过属性关联性的度量方法,本文给出了度量不同产品之间的关联程度的方法。本文的主要贡献如下:(1)利用正则表达式强大的信息匹配能力,对Web中的产品参数信息进行有选择的提取,从而得到用户需要的结果。(2)提出了使用概念格结构展示产品信息的观点,这种方式不仅仅能为用户提供一个清晰的概念层次关系,方便用户浏览和选择感兴趣的内容,而且能清晰的表现信息之间的联系与差异。(3)提出了关键形式概念、关键格的定义以及从关键格结构中挖掘核心形式概念的方法。(4)提出一种基于属性关联性的度量核心形式概念之间的关联程度的方法,根据属性隶属程度完成对核心概念之间的关系分析并提供结果供用户参考。
其他文献
非线性偏微分方程的求解一直以来都是一个难题,而逆散射变换是求解一大类非线性偏微分方程的有效方法之一。其基本思路就是利用非线性偏微分方程的Lax对和常微分方程的谱理论,
脉冲微分系统较好地反映了瞬时突变对系统状态的影响,在航天技术、控制系统、生态系统、经济系统上已经得到了广泛的应用。同时,脉冲系统可以看成由连续子系统和离散子系统组
我们首先定义复数域?上的高秩Virasoro-like代数L,然后证明了它是单李代数,接着确定了它的全体自同构映射,并分析了该李代数的自同构群的结构。  
聚类是一个古老的问题,它伴随着人类社会的产生和发展而不断深化,人类要认识世界就必须区别不同的事物并认识事物间的相似性,而每个概念的最初形成无不借助于事物的聚类分析。因
伴随我国社会主义市场经济体制的不断完善,企业的发展活力也逐渐提升,这就对企业生产成本的计算提出了更高的要求,当前,比较常见的两种计算方法是变动成本法和完全成本法,这
本文重点研究了具有前向安全性质的门限签名方案。门限签名是将密钥分发给多个成员,每个成员持有密钥的一个份额,只有多于特定数量的份额才能重构密钥。这样即使少数成员的密钥
H-矩阵是实际背景很广的一类矩阵,众所周知,包括数学、物理、力学和工程数学在内的许多实际问题最后常归结为一个或一些大型稀疏矩阵的线性代数方程组的求解,而在线性方程组的讨
在本文中,我们讨论的是一般约束优化的问题。基于一种简单的参数更新规则和原始内点算法思想,并且依照可行的QP-free型方法,我们解决了同时包含等式和不等式的一般约束优化问题