基于web的中文文本挖掘研究

来源 :大庆石油学院 东北石油大学 | 被引量 : 0次 | 上传用户:baimn1990
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息挖掘是目前人工智能领域和计算机应用领域研究的重要课题之一,基于Web的中文文本信息挖掘是信息挖掘的一个重要方面。互联网现在已成为一个巨大的信息源,如何让互联网信息更好地为人类服务,是我们面临的一个重要课题。一方面是人们对快速、准确获取所需信息的渴望,另一方面是Internet上信息的纷繁芜杂,如何在这两者之间架设一座桥梁是一个巨大的挑战。作为从浩瀚的Web信息资源中发现潜在的有价值知识的一种有效技术,基于Web的信息挖掘正悄然兴起,倍受人们的关注。目前Web挖掘的研究正处于发展阶段,需要在理论、实现方法与技术上进行更多的研究。 论文针对Web环境下中文文本信息挖掘的具体问题,主要研究中文文本信息挖掘的方法与实现技术。讨论了文本分类中的中文词切分、特征提取、特征表示、特征匹配方法,建立了基于神经网络的中文文本分类、聚类算法,在Web中文文本信息挖掘的设计中,对网页信息的表示、结构特点、网页控制符、HTML控制符号处理进行了详细分析与研究,构建了网页信息提取流程,并结合实际问题,给出了Web环境下中文文本信息挖掘的两个具体应用。
其他文献
本文在分析和研究当前计算机辅助教学(CAI)状况的基础上,采用积件化的设计思想,研究和开发了基于Authorware的多媒体课件自动生成系统。该系统将课件的内容和结构分离开,为教师
数字指纹图像识别是人类生物特征识别技术中最早应用、技术最为成熟、价格最低廉的分支,被广泛地应用在刑侦破案、住宅安全,银行、证券、保险等金融机构的身份确认,重要区域的门
随着科学技术的飞速发展,信息高速公路的普及,人们已经被包围在信息的汪洋大海之中。Internet是海量信息源,而且其信息的组织是异构的、多元的和分布的。由于信息不断地更新和增
自动语音识别技术(Automated Speech Recognition,简称ASR),它是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论
对智能家居系统的研究虽然只有短短20年的历史,但其发展速度却是惊人的。现在很多家庭、小区都在某种程度上实现了“智能家居”。智能家居系统的一个重要设计部分是家庭网关的