新闻网页抽取技术的研究与实现

摘要	第1-5页
ABSTRACT	第5-9页
第一章绪论	第9-13页
§1-1 新闻信息抽取的研究背景及意义	第9页
§1-2 信息抽取概述	第9-11页
1-2-1 信息抽取的发展历程及现状	第9-10页
1-2-2 信息抽取的评价标准	第10-11页
§1-3 论文工作	第11页
§1-4 论文章节安排	第11-13页
第二章新闻信息抽取	第13-20页
§2-1 新闻网页的结构特点及表示	第13-15页
2-1-1 新闻列表页	第13-14页
2-1-2 新闻详细页	第14-15页
§2-2 新闻信息抽取方法的选取	第15-16页
2-2-1 新闻信息抽取的一般方法和比较	第15-16页
2-2-2 抽取方法的特点分析及选择	第16页
§2-3 新闻信息抽取模型	第16-19页
2-3-1 新闻信息抽取的困难及分析	第16-17页
2-3-2 系统设计的目标	第17-18页
2-3-3 新闻信息抽取的一般步骤	第18-19页
§2-4 本章小结	第19-20页
第三章网页爬虫和网页聚类的研究	第20-29页
§3-1 网络爬虫的分析与研究	第20-22页
3-1-1 网络爬虫的概念	第20页
3-1-2 论文采用的网络爬虫	第20-21页
3-1-3 针对访问权限受限的网站解决方法	第21-22页
§3-2 网页聚类的分析与研究	第22-27页
3-2-1 聚类的概念	第22-24页
3-2-2 网页聚类和传统聚类的区别	第24-25页
3-2-3 网页相似性算法	第25-27页
§3-3 论文采用的聚类算法	第27-28页
3-3-1 基于正则表达式的页面划分	第27-28页
3-3-2 算法描述	第28页
§3-4 本章小结	第28-29页
第四章抽取规则的构造和实现	第29-43页
§4-1 新闻网页正文信息的抽取规则	第29-35页
4-1-1 正文抽取存在的问题和困难	第29-30页
4-1-2 现有方法的分析和研究	第30-31页
4-1-3 论文采用的抽取方法	第31-34页
4-1-4 基于中文标点符号的数据源定位	第34-35页
§4-2 新闻网页标题信息的抽取规则	第35-40页
4-2-1 新闻标题在网页上的特征和结构分析	第35-36页
4-2-2 基于IKAnalyzer 的新闻标题抽取	第36-38页
4-2-3 基于标签匹配和IKAnalyzer 相结合的抽取方法的实现	第38-40页
§4-3 新闻网页其他要素的抽取规则	第40-41页
§4-4 规则的存储及调用	第41-42页
§4-5 本章小结	第42-43页
第五章新闻网页信息抽取系统的设计与实现	第43-52页
§5-1 系统的总体框架	第43-45页
5-1-1 系统设计目标	第43页
5-1-2 系统的主要功能模块	第43-45页
§5-2 系统的设计和实现	第45-49页
5-2-1 网页分类处理	第45-46页
5-2-2 网站实时监控的实现	第46-47页
5-2-3 系统界面展示	第47-49页
§5-3 实验效果分析	第49-51页
5-3-1 聚类效果分析	第49-50页
5-3-2 抽取结果评估	第50-51页
§5-4 本章小结	第51-52页
第六章结论	第52-53页
参考文献	第53-55页
致谢	第55页