摘要 | 第8-9页 |
ABSTRACT | 第9页 |
第一章 绪论 | 第10-17页 |
1.1 研究背景 | 第10-13页 |
1.1.1 网络敏感信息与检索技术 | 第10-11页 |
1.1.2 敏感信息检索的挑战与机遇 | 第11-13页 |
1.2 研究现状 | 第13-14页 |
1.3 本文主要研究内容与论文结构 | 第14-17页 |
1.3.1 本文主要研究内容 | 第14-15页 |
1.3.2 本文结构安排 | 第15-17页 |
第二章 网络爬虫相关技术综述 | 第17-24页 |
2.1 引言 | 第17页 |
2.2 网络爬虫相关技术 | 第17-18页 |
2.3 主题爬虫技术 | 第18-21页 |
2.3.1 基于文本内容分析的主题爬虫技术 | 第19-20页 |
2.3.2 基于链接分析的的主题爬虫技术 | 第20-21页 |
2.4 网页内容提取技术 | 第21-22页 |
2.5 本章小结 | 第22-24页 |
第三章 面向特定主题的网页敏感内容提取模型研究 | 第24-37页 |
3.1 引言 | 第24页 |
3.2 网络敏感内容存在形式问题分析 | 第24-27页 |
3.3 面向特定主题的敏感内容爬虫模型框架的建立 | 第27-36页 |
3.3.1 主题爬虫模型框架 | 第27-30页 |
3.3.2 链接分析模型 | 第30-32页 |
3.3.3 网页内容分析模型 | 第32-36页 |
3.4 本章小结 | 第36-37页 |
第四章 面向特定主题的网页敏感内容提取关键技术 | 第37-52页 |
4.1 引言 | 第37页 |
4.2 基于链接分析的主题爬虫策略 | 第37-42页 |
4.2.1 基于PageRank算法改进后的链接分析策略 | 第39-42页 |
4.3 网页内容综合分析关键技术 | 第42-49页 |
4.3.1 基于建立DOM树模型的网页内容提取技术 | 第42-45页 |
4.3.2 关键词去干扰匹配关键技术 | 第45页 |
4.3.3 关键词动态扩展技术 | 第45-46页 |
4.3.4 关键词降噪匹配技术 | 第46-49页 |
4.4 基于链接分析的爬虫模块与内容综合分析模块间协同运行方法 | 第49-50页 |
4.5 本章小结 | 第50-52页 |
第五章 面向特定主题的网页敏感内容提取技术实现与测试 | 第52-66页 |
5.1 引言 | 第52页 |
5.2 面向特定主题的网页敏感内容提取系统总体框架设计实现 | 第52-62页 |
5.2.1 总体设计 | 第52-55页 |
5.2.2 基于PageRank策略改进的链接分析模块设计实现 | 第55-58页 |
5.2.3 网页内容综合分析技术实现 | 第58-62页 |
5.3 面向特定主题的网页敏感内容提取的测试 | 第62-65页 |
5.3.1 测试环境与测试方案 | 第62页 |
5.3.2 测试结果分析 | 第62-65页 |
5.4 本章小结 | 第65-66页 |
第六章 结束语 | 第66-69页 |
6.1 工作总结 | 第66-67页 |
6.2 研究展望 | 第67-69页 |
致谢 | 第69-71页 |
参考文献 | 第71-75页 |
作者在学期间取得的学术成果 | 第75页 |