Web信息提取技术在企业竞争情报平台的应用研究

摘要	第1-5页
ABSTRACT	第5-13页
第一章引言	第13-18页
·论文选题及研究意义	第13-14页
·信息提取技术发展及研究现状	第14-15页
·本文研究的主要内容和目标	第15-17页
·本文组织结构	第17-18页
第二章企业竞争情报基础	第18-26页
·竞争情报概述	第18-20页
·竞争情报定义	第18-19页
·竞争情报特点	第19-20页
·竞争情报价值	第20页
·企业竞争情报系统	第20-22页
·系统定义	第20-21页
·系统基本功能	第21-22页
·发展趋势	第22页
·基于Web 的企业竞争情报系统	第22-25页
·信息多样化	第23页
·网络共享化	第23-24页
·方法智能化	第24-25页
·安全机制的新要求	第25页
·小结	第25-26页
第三章 Web 信息提取技术	第26-38页
·信息提取中的关键技术	第26-28页
·命名实体识别	第26-27页
·句法分析	第27页
·篇章分析与推理	第27-28页
·知识获取	第28页
·Web 文档	第28-32页
·文本结构化程度	第29页
·HTML 语言	第29-31页
·网页的结构	第31-32页
·包装器	第32-33页
·包装器工作方式	第32-33页
·从信息提取到包装器	第33页
·包装器的生成	第33页
·Web 信息提取工具的分类	第33-36页
·基于包装器专用语言的工具	第34页
·以HTML 结构识别的工具	第34页
·基于自然语言处理的工具	第34-35页
·包装器归纳工具	第35页
·基于模型的工具	第35-36页
·基于本体的工具	第36页
·Web 信息提取的评价标准	第36-37页
·漏报与误报	第36-37页
·查全率与查准率	第37页
·小结	第37-38页
第四章 Web 页面自顶向下的正文信息提取方法	第38-59页
·正文信息	第38-42页
·新闻	第39-40页
·博客	第40-41页
·论坛	第41-42页
·其它形式	第42页
·HTML 节点树的构造与数据初始化	第42-47页
·HTML Parser	第42-43页
·构造节点树	第43-45页
·文本信息统计	第45-47页
·链接节点的确定	第47-50页
·导航页文字链接率	第47-48页
·主题型网页文字链接率	第48页
·链接节点判定方法	第48-50页
·正文提取	第50-54页
·最佳正文子树	第51页
·典型段落布局	第51-52页
·定位最佳正文子树	第52-53页
·从最佳正文子树中提取正文	第53-54页
·结果测试与分析	第54-58页
·测试方法	第54-55页
·测试结果	第55-56页
·进一步分析	第56-58页
·小结	第58-59页
第五章 Web 正文信息提取在企业竞争情报平台中的应用	第59-82页
·平台简介	第59-62页
·背景与需求	第59-60页
·功能模块概述	第60-61页
·开发环境	第61-62页
·关键技术方案	第62-67页
·业务流程	第62-63页
·网络爬行器	第63-64页
·信息提取器	第64-65页
·数据库存储	第65-66页
·索引和查询	第66-67页
·用户接口	第67页
·信息提取器的实现方法	第67-76页
·有针对性地新闻信息提取方法	第68-69页
·一般性地新闻信息提取方法	第69-71页
·分页新闻处理	第71-75页
·其它问题处理	第75-76页
·信息提取器的改进方案	第76-81页
·规则描述	第76-78页
·可人工定制的规则学习	第78-79页
·动态的规则学习	第79-80页
·改进后效果	第80-81页
·小结	第81-82页
第六章结论	第82-84页
·总结	第82页
·进一步工作	第82-84页
致谢	第84-85页
参考文献	第85-90页
在学期间取得的研究成果	第90-91页