网页主题信息抽取系统设计与实现
摘要 | 第4-5页 |
Abstract | 第5页 |
第1章 绪论 | 第9-16页 |
1.1 课题来源及背景 | 第9页 |
1.2 项目开发的目的与意义 | 第9-10页 |
1.3 与课题相关的国内外现状 | 第10-14页 |
1.4 本文的主要研究内容及创新点 | 第14-15页 |
1.6 本论文组织结构 | 第15-16页 |
第2章 相关概念及关键技术 | 第16-23页 |
2.1 主题抽取相关概念 | 第16-18页 |
2.1.1 HTML | 第16页 |
2.1.2 DOM | 第16-17页 |
2.1.3 XPath | 第17-18页 |
2.2 网页分割技术 | 第18-21页 |
2.3 块聚类技术 | 第21-22页 |
2.4 本章小结 | 第22-23页 |
第3章 系统需求和设计 | 第23-37页 |
3.1 需求分析 | 第23-26页 |
3.1.1 业务需求 | 第23-24页 |
3.1.2 功能需求 | 第24-26页 |
3.1.3 性能需求 | 第26页 |
3.2 系统体系结构设计 | 第26-29页 |
3.2.1 搜索引擎体系结构 | 第26-27页 |
3.2.2 网页信息抽取系统体系结构设计 | 第27-29页 |
3.3 系统功能设计 | 第29-36页 |
3.3.1 网页预处理模块设计 | 第30-31页 |
3.3.2 网页解析模块设计 | 第31-34页 |
3.3.3 网页分析模块设计 | 第34-35页 |
3.3.4 网页信息抽取模块设计 | 第35-36页 |
3.4 本章小结 | 第36-37页 |
第4章 系统实现 | 第37-71页 |
4.1 引言 | 第37页 |
4.2 网页预处理模块实现 | 第37-43页 |
4.2.1 文件类型检查 | 第37-39页 |
4.2.2 编码识别及转换 | 第39-40页 |
4.2.3 语言识别 | 第40-41页 |
4.2.4 繁简体识别及转换 | 第41-42页 |
4.2.5 脚本抽取及网页清洗 | 第42-43页 |
4.3 网页解析模块实现 | 第43-55页 |
4.3.1 HTML 解析器 | 第44-50页 |
4.3.2 CSS 解析器 | 第50-52页 |
4.3.3 Render Engine | 第52-55页 |
4.4 网页分析模块实现 | 第55-64页 |
4.4.1 视觉块提取 | 第57-58页 |
4.4.2 分隔符探索 | 第58-60页 |
4.4.3 内容块构建 | 第60页 |
4.4.4 块特征向量计算 | 第60-62页 |
4.4.5 块聚类 | 第62-64页 |
4.5 主题块抽取模块实现 | 第64-70页 |
4.5.1 特殊特征块抽取 | 第64-66页 |
4.5.2 聚类质量因子计算 | 第66-67页 |
4.5.3 主题块抽取 | 第67页 |
4.5.4 主题类输出 | 第67-70页 |
4.6 本章小结 | 第70-71页 |
第5章 系统测试与评估 | 第71-79页 |
5.1 测试环境及结果 | 第71-73页 |
5.1.1 系统测试环境 | 第71页 |
5.1.2 测试及结果分析 | 第71-73页 |
5.2 系统评测 | 第73-78页 |
5.2.1 评测流程及方法 | 第73-77页 |
5.2.2 测试结果及分析 | 第77-78页 |
5.3 本章小结 | 第78-79页 |
结论 | 第79-80页 |
参考文献 | 第80-85页 |
致谢 | 第85-86页 |
个人简历 | 第86页 |