PDF文档解析与内容脱敏技术研究

摘要	第5-6页
abstract	第6-7页
第1章绪论	第11-15页
1.1 课题研究背景及意义	第11-12页
1.2 国内外研究现状及存在问题	第12-14页
1.3 论文主要工作及内容安排	第14-15页
第2章 PDF文档格式	第15-29页
2.1 PDF对象	第15-17页
2.1.1 PDF对象的基本类型	第15-16页
2.1.2 对象分类	第16-17页
2.2 文件(物理)结构	第17-20页
2.2.1 文件头	第17-18页
2.2.2 文件体	第18页
2.2.3 交叉引用表	第18-19页
2.2.4 文件尾	第19-20页
2.3 逻辑结构	第20-23页
2.3.2 页树	第21-22页
2.3.3 页节点	第22-23页
2.4 内容流	第23-24页
2.4.1 Stream流的解/压缩方法	第23页
2.4.2 解压后的内容流	第23-24页
2.5 中文的转码	第24-28页
2.5.1 Cmap	第24-26页
2.5.2 字符码转为unicode码	第26页
2.5.3 ToUnicodeCmap的转换	第26-28页
2.6 本章小结	第28-29页
第3章 PDF文档解析及脱敏处理	第29-43页
3.1 PDF文档内容解析	第29-32页
3.2 基于Stream流的PDF文档解析	第32-36页
3.2.1 PDF文件识别	第32页
3.2.2 分段解压及封装	第32-34页
3.2.3 Stream流信息的分类	第34页
3.2.4 萃取Cmap流	第34-35页
3.2.5 正文及注释的提取	第35-36页
3.3 脱敏操作	第36-37页
3.4 PDF文件脱敏流程及实现	第37-42页
3.4.1 PDF文件整体脱敏流程	第37-40页
3.4.2 主要类和函数功能实现	第40-42页
3.5 本章小结	第42-43页
第4章模式匹配算法	第43-57页
4.1 经典单模式匹配算法	第43-48页
4.1.1 相关概念介绍	第43页
4.1.2 BM算法	第43-46页
4.1.3 QS算法	第46-48页
4.2 改进算法	第48-56页
4.2.1 算法思想	第48页
4.2.2 算法预处理及匹配过程	第48-49页
4.2.3 算法实现	第49页
4.2.4 算法实例	第49-51页
4.2.5 测试结果分析	第51-56页
4.3 本章小结	第56-57页
第5章脱敏系统的框架设计与实现	第57-72页
5.1 HTTP协议	第57-60页
5.1.1 HTTP协议简介	第57-58页
5.1.2 HTTP报文请求格式	第58页
5.1.3 HTTP报文响应消息格式	第58-60页
5.2 总体架构	第60-62页
5.3 基于反向代理的脱敏系统模块的设计与实现	第62-67页
5.3.1 TCP反向代理模块	第62-63页
5.3.2 HTTP协议解析模块	第63-65页
5.3.3 内容解析模块	第65页
5.3.4 敏感词控制模块	第65-67页
5.4 实验结果分析	第67-71页
5.4.1 实验环境搭建	第67页
5.4.2 脱敏效果测试	第67-69页
5.4.3 系统性能分析	第69-71页
5.5 本章小结	第71-72页
结论	第72-74页
致谢	第74-75页
参考文献	第75-79页
攻读硕士期间发表的论文及科研成果	第79页