出版资源采集系统的设计与实现

来源 :湖南大学 | 被引量 : 0次 | 上传用户:blue_violet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于网络传播的自由性、交互性和开放性,使互联网在短时间内聚集了庞大的内容资源和相关信息,成为了出版产业重要的内容资源库。如何利用好互联网这一巨大内容资源库,发现具有出版价值潜力的热点动向、作者和内容资源,是数字时代出版企业面临的一个严肃的课题和挑战。本文在分析国内外数字出版研究现状和发展动态的基础上,运用层次树网页解析等IT技术,结合当下出版业务实际状况,设计和实现了出版资源采集系统,为有效利用互联网内容资源进行了有益的探索。出版资源采集系统就是对互联网各类资源进行快速采集,并清洗过滤垃圾数据,保留有出版价值或者参考价值的数据,并对已有数据进行保存,支持快速检索,其主要工作内容如下:(1)在需求分析的基础上进行系统结构设计,合理建构系统支撑框架。本系统使用B/S架构方式,PHP语言作为前端界面系统开发语言,C++作为后端服务开发语言。(2)对网络资源获取渠道及内容进行分类设定,规范资源数据的采集、分析、整理的范围与标准。(3)针对不同类型的目标网站,系统使用不同的采集方式和正文提取方式,以实现有针对性的互联网规模化内容资源抓取。(4)针对不同的数据使用功能流程,设计不同的数据库存储结构,将采集到的素材有效地进行组织和管理。使用MYSQL作为素材库存储数据库,对采集到的素材有效地进行组织管理。本系统的实施将为出版单位数字化转型提供技术支持和内容资源支持,使出版单位能更准确地了解创作者的动向和动态,更准确地把握和预测图书市场的热点,进一步提高出版单位的工作效率,具有重要的现实意义。
其他文献
自从Linked Data项目被提出以来,大量的开放关联数据被发布到Linked Open Data平台上,这其中就包含许多的生物途径数据集。传统的生物途径可视化工具多是基于单一的关系型数
本文运用图变换和图对称的方法,研究具有乘积形式的Kirchhoff指标的极值结构,刻画出了仙人掌图的乘积离心率的电阻距离的极值结构图以及直径为2的图的乘积离心率的电阻距离和
随着社会的不断发展,污染问题变得越来越严重,特别是重金属离子如Cu2+和Hg2+等所导致的污染问题变得不可忽视,所以针对这些离子的检测手段的发掘也变得越来越重要。目前主要
网球是一项具有深厚的文化底蕴、时尚、健康的运动,能满足人们身心向更健康的方向发展,对于人们增强体质、切身参与到全民健身、最终实现终身体育有着巨大的推动作用。随着社
本文研究了一类带有多个临界非线性项和多个奇点的半线性椭圆方程组.运用变分方法,证明方程组Rayleigh商极小值和基态解的存在性与唯一性.本文分为以下三个部分:在第一章中,
微课是建立在信息技术发展的基础上,按照人的认知规律,以碎片化的视频形式展示学习内容、过程的一种结构化数字资源,它改变了传统学生被动接受知识的教学模式,不再是教师一味的灌输知识,而是构建一条层次清晰、脉络合理的学生课前预习、课中教师点拨和课后强化复习的学习线路,让学生主动参与,教师积极引导的一种新型师生互动教学模式,在很大程度上提升了课堂的效率。当前,微课的教学方法大多集中应用在基础教育层面,而在高
随着计算机技术的飞速发展,人类收集数据,储存数据的能力得到了极大地提高,无论是科学研究,还是社会生活的各个领域都积累了大量数据,截止2012年,数据量已经从TB(1024GB=1TB)
随着废水处理技术的不断发展,城市中污水污泥的产量逐年增加,污泥的处置已影响到人们的生活,给环境带来了极大的负担。剩余污泥的碱性厌氧发酵处理不仅可以提高剩余污泥的分
研究目的:本研究旨在评估两周高强度间歇运动对久坐女大学生的执行功能(主要是抑制控制和工作记忆功能)以及运动皮层可塑性的影响,并用功能性近红外光谱(fNIRS)技术监测任务期间脑氧合的变化,从而进一步探究两周高强度间歇运动后执行功能变化的神经机制。研究方法:选取南京体育学院的32名非体育专业的久坐女大学生作为受试对象,年龄18-21岁,随机分为:高强度间歇运动组(HIIT组,n=16)和对照组(CO
分段光滑系统主要分为两类:连续分段光滑系统和不连续分段光滑系统.学者们对连续分段光滑系统的动力学性质的研究已经比较成熟,本文着重研究不连续分段光滑系统.分段线性系统