论文部分内容阅读
随着网络规模的发展和个人计算机的普及,互联网中农业科技信息逐步走向爆炸状态。然而,由于农业用户对信息技术了解不足,他们在快速、准确地寻找自己感兴趣信息上出现了很大的困难,从而阻碍了农业科技信息地传播,造成“信息孤岛”现象。针对目前农业科技信息共享率低、分散分布等问题,本文以权威的农业科技信息站点为信息源,以Web日志和网页内容为研究对象,主要完成了以下工作:(1)农业科技信息动态获取方法研究。针对农业科技信息分布不对称的问题,采用爬虫技术自动获取与主题相关的网页;在此基础上使用基于包装器的信息抽取方法获取具体信息,再使用正则表达式清洗无关标记,将得到的信息存入数据库中供后期研究使用;通过动态定时机制将抽取任务划分为小模块,使用自定义XML文件控制抽取流程实现了失败URL重试。经过实验验证,信息抽取F-指标保持在85%左右。采用失败重试机制后,信息抽取的成功率提高了10%。(2)农业科技信息服务个性化推送模型研究。针对农业用户精确定位感兴趣内容难的问题,通过对Web访问日志进行预处理,使用改进的k-means聚类方法对用户会话进行聚类,得到具有代表性的用户访问模式;然后抽取网页内容关键字,通过中文分词得到网页特征信息项,应用TF-IDF方法计算信息项权重,构建了用户兴趣模型库;通过计算来访会话与用户兴趣模型的相异值对来访会话分类,从而为用户实时推送感兴趣内容,实现了个性化的信息推送服务。通过实验验证,本研究建立的个性化推送模型的预测准确度达到了69.23%,推荐精确度为45.34%。(3)在分析研究农业科技信息动态获取及个性化推送模型的基础上,采用面向对象编程方法设计并实现了农业科技信息个性化推送服务系统,实现了动态定时获取农业科技信息、农业科技信息个性化推送等功能,促进了农业科技信息的共享与传播。经过系统测试表明,该系统具有良好的可用性、健壮性和可维护性。