摘要 | 第1-5页 |
ABSTRACT | 第5-9页 |
第一章 绪论 | 第9-13页 |
§1-1 新闻信息抽取的研究背景及意义 | 第9页 |
§1-2 信息抽取概述 | 第9-11页 |
1-2-1 信息抽取的发展历程及现状 | 第9-10页 |
1-2-2 信息抽取的评价标准 | 第10-11页 |
§1-3 论文工作 | 第11页 |
§1-4 论文章节安排 | 第11-13页 |
第二章 新闻信息抽取 | 第13-20页 |
§2-1 新闻网页的结构特点及表示 | 第13-15页 |
2-1-1 新闻列表页 | 第13-14页 |
2-1-2 新闻详细页 | 第14-15页 |
§2-2 新闻信息抽取方法的选取 | 第15-16页 |
2-2-1 新闻信息抽取的一般方法和比较 | 第15-16页 |
2-2-2 抽取方法的特点分析及选择 | 第16页 |
§2-3 新闻信息抽取模型 | 第16-19页 |
2-3-1 新闻信息抽取的困难及分析 | 第16-17页 |
2-3-2 系统设计的目标 | 第17-18页 |
2-3-3 新闻信息抽取的一般步骤 | 第18-19页 |
§2-4 本章小结 | 第19-20页 |
第三章 网页爬虫和网页聚类的研究 | 第20-29页 |
§3-1 网络爬虫的分析与研究 | 第20-22页 |
3-1-1 网络爬虫的概念 | 第20页 |
3-1-2 论文采用的网络爬虫 | 第20-21页 |
3-1-3 针对访问权限受限的网站解决方法 | 第21-22页 |
§3-2 网页聚类的分析与研究 | 第22-27页 |
3-2-1 聚类的概念 | 第22-24页 |
3-2-2 网页聚类和传统聚类的区别 | 第24-25页 |
3-2-3 网页相似性算法 | 第25-27页 |
§3-3 论文采用的聚类算法 | 第27-28页 |
3-3-1 基于正则表达式的页面划分 | 第27-28页 |
3-3-2 算法描述 | 第28页 |
§3-4 本章小结 | 第28-29页 |
第四章 抽取规则的构造和实现 | 第29-43页 |
§4-1 新闻网页正文信息的抽取规则 | 第29-35页 |
4-1-1 正文抽取存在的问题和困难 | 第29-30页 |
4-1-2 现有方法的分析和研究 | 第30-31页 |
4-1-3 论文采用的抽取方法 | 第31-34页 |
4-1-4 基于中文标点符号的数据源定位 | 第34-35页 |
§4-2 新闻网页标题信息的抽取规则 | 第35-40页 |
4-2-1 新闻标题在网页上的特征和结构分析 | 第35-36页 |
4-2-2 基于IKAnalyzer 的新闻标题抽取 | 第36-38页 |
4-2-3 基于标签匹配和IKAnalyzer 相结合的抽取方法的实现 | 第38-40页 |
§4-3 新闻网页其他要素的抽取规则 | 第40-41页 |
§4-4 规则的存储及调用 | 第41-42页 |
§4-5 本章小结 | 第42-43页 |
第五章 新闻网页信息抽取系统的设计与实现 | 第43-52页 |
§5-1 系统的总体框架 | 第43-45页 |
5-1-1 系统设计目标 | 第43页 |
5-1-2 系统的主要功能模块 | 第43-45页 |
§5-2 系统的设计和实现 | 第45-49页 |
5-2-1 网页分类处理 | 第45-46页 |
5-2-2 网站实时监控的实现 | 第46-47页 |
5-2-3 系统界面展示 | 第47-49页 |
§5-3 实验效果分析 | 第49-51页 |
5-3-1 聚类效果分析 | 第49-50页 |
5-3-2 抽取结果评估 | 第50-51页 |
§5-4 本章小结 | 第51-52页 |
第六章 结论 | 第52-53页 |
参考文献 | 第53-55页 |
致谢 | 第55页 |