Web文本挖掘技术研究及其实现

被引量 : 0次 | 上传用户:weishaohua1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何让Internet更好地为人类服务,是未来几年的一个真正挑战。一方面是人们对快速、准确而全面获取信息的渴望,而另一方面却是Internet上信息的纷繁芜杂,在这两者之间架设一座桥梁的确是一个巨大的挑战。作为从浩瀚的Web信息资源中发现潜在的有价值知识的一种有效技术。Web挖掘正悄然兴起,倍受关注。目前Web挖掘的研究正处于发展阶段,尚无统一的结论,需要国内外学者在理论上开展更多的讨论。同时,Web挖掘系统的开发对其研究也将起到很大推进作用。 本文对Web挖掘的有关理论进行了论述,着重讨论了Web文本挖掘系统的结构和技术。本文的主要内容包括: 一、详细描述了Web文本挖掘系统的构建,包括Web的数据模型,Web文本挖掘系统的体系结构,系统功能等; 二、具体讨论和分析了Web信息的自动获取的总体设计思想、主要实现技术,并给出了实现方案; 三、深入研究聚类和分类算法的关键技术,首先总结了在统计、机器学习和模式识别等领域的聚类/分类算法。随后从理论的层面来剖析聚类/分类算法,并介绍了一种基于粒度的分类算法; 四、介绍了在文本处理中如何提取文本特征,给出了一种权重计算的对偶性策略。
其他文献
中国是世界第二大能源生产国和消费国,当前经济与社会的快速发展对我国的能源供应提出了更高的要求,迫切需要安全、经济、清洁、稳定的能源形式。核能以其优越的清洁性、安全
企业集团是应社会化大生产和市场经济的要求产生的一种高级形态的企业组织形式。企业集团在国民经济中占有十分重要的地位,而构建良好的财务管理体制,使之能有效运行,对企业集团
当今国际技术转移已经成为国际经济技术合作的主要内容,通过从世界范围引进先进技术,充分利用发达国家的技术成果,不失为发展中国家迅速加速本国经济和技术进步的一种捷径。韩日
本文主要研究宽带匹配网络的理论及其应用,包括理论研究和工程设计两部分。在理论研究中,首先从网络的基本知识着手,讨论了宽带匹配的各种理论,在此基础上,给出了单路通信系统中匹
中国共产党要有效地实现自己的领导 ,就必须高度重视培养选拔优秀年轻干部。培养选拔优秀年轻干部 ,必须从干部的实际出发 ,努力寻找、掌握和运用干部成长规律。要在马克思主
近年来,淮滨县法院坚持开展严打治斗争,从案件受理情况看,"两抢一盗"犯罪在案件数量、犯罪人数上均有所下降,特别是严重危害人身安全的抢劫犯罪有了较大幅度下降,为我县的社
目的探讨人文关怀护理模式的构建与实施对提高护理质量和患者满意度的效果。方法将骨科住院患者800例按科室分为对照组和观察组各400例。对照组按常规护理模式工作;观察组构
近年来,由于日趋复杂的社会原因,家庭——这一人类社会的最基本的细胞的不稳定性因素也不断增加,家庭破裂呈不断上升趋势。随着离异家庭的不断增加,离异家庭子女队伍也在不断地壮
面对中国宏观经济自1997年第四季度起的持续走低,作为一名学习和研究宏观经济管理的理论工作者,对此予以关注当然是责无旁贷。由于学习需要,当作者接触到中国宏观经济的历史文献
近年来,随着社会竞争的不断加剧,职业倦怠现象已广泛出现于社会生活的各个领域,被视为新世纪的危机和现代生活的疾病。教师是职业倦怠的高发人群。如果教师职业倦怠现象得不到有