网页主题信息抽取系统设计与实现

摘要	第4-5页
Abstract	第5页
第1章绪论	第9-16页
1.1 课题来源及背景	第9页
1.2 项目开发的目的与意义	第9-10页
1.3 与课题相关的国内外现状	第10-14页
1.4 本文的主要研究内容及创新点	第14-15页
1.6 本论文组织结构	第15-16页
第2章相关概念及关键技术	第16-23页
2.1 主题抽取相关概念	第16-18页
2.1.1 HTML	第16页
2.1.2 DOM	第16-17页
2.1.3 XPath	第17-18页
2.2 网页分割技术	第18-21页
2.3 块聚类技术	第21-22页
2.4 本章小结	第22-23页
第3章系统需求和设计	第23-37页
3.1 需求分析	第23-26页
3.1.1 业务需求	第23-24页
3.1.2 功能需求	第24-26页
3.1.3 性能需求	第26页
3.2 系统体系结构设计	第26-29页
3.2.1 搜索引擎体系结构	第26-27页
3.2.2 网页信息抽取系统体系结构设计	第27-29页
3.3 系统功能设计	第29-36页
3.3.1 网页预处理模块设计	第30-31页
3.3.2 网页解析模块设计	第31-34页
3.3.3 网页分析模块设计	第34-35页
3.3.4 网页信息抽取模块设计	第35-36页
3.4 本章小结	第36-37页
第4章系统实现	第37-71页
4.1 引言	第37页
4.2 网页预处理模块实现	第37-43页
4.2.1 文件类型检查	第37-39页
4.2.2 编码识别及转换	第39-40页
4.2.3 语言识别	第40-41页
4.2.4 繁简体识别及转换	第41-42页
4.2.5 脚本抽取及网页清洗	第42-43页
4.3 网页解析模块实现	第43-55页
4.3.1 HTML 解析器	第44-50页
4.3.2 CSS 解析器	第50-52页
4.3.3 Render Engine	第52-55页
4.4 网页分析模块实现	第55-64页
4.4.1 视觉块提取	第57-58页
4.4.2 分隔符探索	第58-60页
4.4.3 内容块构建	第60页
4.4.4 块特征向量计算	第60-62页
4.4.5 块聚类	第62-64页
4.5 主题块抽取模块实现	第64-70页
4.5.1 特殊特征块抽取	第64-66页
4.5.2 聚类质量因子计算	第66-67页
4.5.3 主题块抽取	第67页
4.5.4 主题类输出	第67-70页
4.6 本章小结	第70-71页
第5章系统测试与评估	第71-79页
5.1 测试环境及结果	第71-73页
5.1.1 系统测试环境	第71页
5.1.2 测试及结果分析	第71-73页
5.2 系统评测	第73-78页
5.2.1 评测流程及方法	第73-77页
5.2.2 测试结果及分析	第77-78页
5.3 本章小结	第78-79页
结论	第79-80页
参考文献	第80-85页
致谢	第85-86页
个人简历	第86页