公众论坛信息实时检索的研究与实现

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:xinfan413
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网作为当代社会迅猛发展的新生事物之一,已经开始扮演越来越重要的角色。公众论坛是互联网发展的产物之一,它是一个开放的平台,与普通网站的区别之处在于网民不仅可以通过它获取信息,同时也能发布信息,这为相互间的交流带来了极大的方便。但随着时间的发展,其产生的消极、危险的一面也渐渐显露出来——一些不法分子利用论坛的便利性散播各种非法信息。由于论坛中信息传播速度快,刷新频率高,非法信息很容易在短时间内就引起很严重的后果,因此需要及时的发现这些信息。本文设计了一个面向论坛领域的垂直搜索引擎,能够对指定论坛进行深度数据挖掘以及24小时监控新出现的信息。本文设计的垂直搜索引擎共分为三大模块:信息获取模块、信息分析模块、信息索引及检索模块。信息获取模块通过开发现有通用搜索引擎接口构建元搜索引擎以及编写网络爬虫实现;信息分析模块通过使用模板及网页信息去噪的方法实现了对HTML和Word、Excel、PDF等常见格式文件结构化文本信息的提取;信息索引和检索模块通过开源工具Lucene构建,为用户提供了便利高效的查询界面。用户使用反馈表明本文设计的垂直搜索引擎在深度数据挖掘以及实时监控方面都有着很好的性能。
其他文献
本课题以国家重大专项《15kg喷涂机器人成套装备》项目为背景,研究开发喷涂机器人离线编程与仿真系统。  论文首先深入分析研究了喷涂机器人离线编程与仿真平台的结构,采用通
最小方差方法已经成为控制器性能评价的主要技术,但是其应用仍具有一定的局限性,并且只考虑了控制器的随机性能,不能对控制器做出综合的评价。论文将多属性决策理论应用到了控制
目前国内电动汽车出行服务市场中,具有充电业务的服务平台大而不专,并不能够专门满足用户的充电需求,解决用户的"里程焦虑"和"充电焦虑"。对电动汽车智能充电服务平台进行设
由于资源枯竭的问题,生物质作为一种可再生能源有很大的开发潜力和价值。温度控制对燃烧效率至关重要,热重分析设备是一种重要材料研究设备,在程序控制温度下测量待测样品的
模糊理论从1965年诞生至今,无论在理论研究上还是实际应用中都取得了诸多成果,从地铁行进控制到航空航天姿态控制中的应用,从模糊建模到平行分布补偿控制(Parallel Distribut
电阻层析成像技术(Electrical Resistance Tomography,简称ERT)是电学成像领域一个重要分支。由于其无辐射、速度快、结构简单、性价比高等优点,在工业领域应用前景广阔。本
连续时间滤波器的研究是现代国内外电路与系统学界研究的前沿课题,在各种通信和信号处理领域中有着很广泛的应用,而全集成连续时间滤波器又可以使整个系统更加稳定和可靠地工作
飞机刹车控制系统是飞机的重要子系统,在飞机的起飞和着陆过程中起着重要的安全保障作用。随着现代飞机朝着高速度和高可靠性方向发展,飞机刹车控制系统越来越复杂,对其的测
CMP(ChipMulti-Processor,单片多核处理器)架构是由美国斯坦福大学提出的,其思想是将大规模并行处理器中的SMP(对称多处理器)集成到同一芯片内,各个处理器并行执行不同的进程。
网络化控制系统(Network Control System,NCS)是将传感器、控制器以及执行器等通过网络连接而构成的闭环反馈控制系统。随着信息与控制技术的发展,控制系统规模不断扩大,复杂性日