互联网侨情信息采集系统设计与实现

来源 :现代图书情报技术 | 被引量 : 0次 | 上传用户:zhuyanmei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
采用通用搜索引擎与垂直搜索引擎相结合的互联网主题信息采集策略,提出多种防屏蔽技术相结合的网络采集防屏蔽解决方案,改进一种基于文本密度的网页正文抽取方法,利用基于分词的向量空间模型和余弦夹角公式实现基于内容的标题去重,并设计一个面向侨情的互联网主题信息采集系统。 This paper proposes a web content collection and anti-screening solution based on the combination of general search engine and vertical search engine and proposes a web collection anti-screening solution based on a combination of anti-screening technologies. A web text extraction method based on text density is improved. Space model and cosine angle formula to achieve the content-based heading to weight, and design a Chinese theme for the Qiaqia Internet information collection system.
其他文献