学生公寓房源数据采集平台的设计与实现

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:tomsue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
留彼工坊科技有限公司是一家专门面向英国当地留学生群体提供学生公寓租房信息服务的020互联网创业公司。在互联网模式下,公司需要为用户提供体验良好的服务并且快速而精准地获取所需的公寓信息。目前其房源数据通过Unite-Students等机构合作以及友商平台获得,通过邮件沟通,手工更新公寓情况以及租赁信息。然而邮件方式效率低下,管理成本高,在租房的热门季度中,余量以及租期信息变动频繁。在业务要求下,需要更为自动化的方式来处理平台之间房源信息的同步,以获取最新精准的公寓数据。网页数据抓取便是一种有效的手段。在不同的公寓平台之间,虽然公寓的信息结构大体一致,但是展示页面细节各不相同,面对定制化的网页采集需求,为减少爬虫编写的工作量,降低生产成本,如何设计整体的系统架构,控制爬虫编写的模块复杂度,解耦模块功能,进行数据清洗、结构化以及导入数据等都是本项目的关键的问题。本人于留彼工坊公司实习期间,参与了公寓后台数据中心的开发工作。参考公司原有的未开发完成的基于Pyspider的爬虫应用,重新开发了基于Scrapy的新的系统。区别于主站后台Livety,数据中心称为Sharingan。Livety负责选择确切的房源数据展示在前台页面,管理用户,而Sharingan主要作为房源数据库,存储和管理从不同平台中采集的结构化的房源数据,并且作为网络爬虫的调度和部署平台,进行一系列的数据处理工作。同时,两个后台中心以消息系统的方式进行通信,以实现系统间的低耦合。本人在项目开发中,具体进行的工作内容有:(1)参与了房源数据库关系模型的建模。深入了解业务需求以及各平台的学生公寓出租信息,制定了结构化的数据存储模型。通过这些工作,为该业务的房源数据结构化提取和导入、存储提供基础和规范;(2)参与了数据中心系统架构的设计,基于整体需求,结合之前遗留的爬虫系统得到的实践经验,面向网页数据采集提取建立通用的模式,确定了新系统的架构,框架、技术以及功能模块整合方案等。明确了开发需求和系统架构设计,内部模块的概要设计等;(3)负责具体模块的实现,子系统的开发及整合,包括Scrapy爬虫的Fragment模块、Processor模块、Validator模块、Spider调度、监控模块,数据库导入模块,数据中心的消息系统等。最后构建出了一个初步可用的完整系统。(4)负责编写相关测试,确保系统的正确运行。通过测试,找出并修改了系统和模块中的程序错误。系统初步上线后,运行情况良好,目前定时从各平台采集数据,用于为内部的展示系统提供公寓数据服务,其扩展性为以后成为通用性更高、面向更多数据的采集平台打下了基础。
其他文献
<正> 一、叛卖者的迁海建议清朝顺治末年,在大汉奸洪承畴、吴三桂的部署下,对中国大陆人民的反清斗争已基本上收到了血腥的效果。十六年(1659)攻陷了云南,南明永历帝走缅甸,
生物标志物是人体血液或体液中一类与癌症息息相关的物质,其中蛋白质是最常见的一类生物标志物。临床发现,在癌症初期(第一阶段)就开始接受治疗的患者存活率明显提高,也就是
报道源自中国海南省尖峰岭国家森林公园山铜材落叶上的齿裂菌属一新种,即山铜材齿裂菌Coccomyces chuniae。对该种进行了描述、图解和讨论。模式标本保藏于安徽农业大学森林
<正>深色有隔内生真菌(dark septate endophytes,DSE)不是一个科学的分类单元,而是泛指一群定殖于植物根内的小型土壤真菌,包括功能和分类关系都不确切的多种真菌。这类真菌
心理健康教育和思想政治教育在实践中有着严格的界限区别,如知识范畴不一样、教育方法不一样等,但将两者融合还是具有一定可行性的:两者的最终目的都是促进学生的发展,都以高
目的 探讨硫辛酸联合聚维酮碘治疗糖尿病足的临床疗效.方法 将108例患者随机分为观察组55例和对照组53例,两组患者均给予基础治疗,并根据创面分泌物细菌培养及药物敏感试验选
本报讯 3月25日,新疆煤田地质局一六一队承担的《新疆库拜煤田拜城县煤层气开发利用先导性试验》第一口煤层气水平井BCS-30L成功产气点火,这标志着库拜煤田煤层气资源勘查开发
报纸
采用高温固相法制备CaMgP2O7∶Ce3+,Mn2+荧光粉,并对其发光性质进行探究。荧光粉CaMgP2O7∶Ce3+,Mn2+在328nm、351nm与587nm的发射峰分别归属于Ce3+的5d→2FJ跃迁和Mn2+的4T1
改革开放以来,江苏经济开放度不断提高,对外贸易规模不断扩大。研究其对外贸易与产业结构升级的重要性和现实意义不言而喻。本文使用实证分析的方法具体分析了对外贸易与江苏
较深入分析了目标与背景的红外特性,进一步完善了红外辐射对比度计算模型,通过外场实验,采集了目标与背景随时间变化的温度,利用建立的红外隐身效能指标,对普通钢板与相变材