论文部分内容阅读
设计了一种基于预定义模式Web网页结构化数据抽取包装器软件.该软件利用最新Web技术、信息处理技术、人工智能技术对Web网页结构化信息解析,从非结构化的、不包括任何语义的HTML文档中抽取结构化语义数据.选取了几个出版社的新书发布Web页面进行了数据抽取验证和抽取结果分析.结果表明该软件可实现Web网页新书发布信息集成,并提供新书检索服务.