首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

PDF文档解析与内容脱敏技术研究

摘要第5-6页
abstract第6-7页
第1章 绪论第11-15页
    1.1 课题研究背景及意义第11-12页
    1.2 国内外研究现状及存在问题第12-14页
    1.3 论文主要工作及内容安排第14-15页
第2章 PDF文档格式第15-29页
    2.1 PDF对象第15-17页
        2.1.1 PDF对象的基本类型第15-16页
        2.1.2 对象分类第16-17页
    2.2 文件(物理)结构第17-20页
        2.2.1 文件头第17-18页
        2.2.2 文件体第18页
        2.2.3 交叉引用表第18-19页
        2.2.4 文件尾第19-20页
    2.3 逻辑结构第20-23页
        2.3.2 页树第21-22页
        2.3.3 页节点第22-23页
    2.4 内容流第23-24页
        2.4.1 Stream流的解/压缩方法第23页
        2.4.2 解压后的内容流第23-24页
    2.5 中文的转码第24-28页
        2.5.1 Cmap第24-26页
        2.5.2 字符码转为unicode码第26页
        2.5.3 ToUnicodeCmap的转换第26-28页
    2.6 本章小结第28-29页
第3章 PDF文档解析及脱敏处理第29-43页
    3.1 PDF文档内容解析第29-32页
    3.2 基于Stream流的PDF文档解析第32-36页
        3.2.1 PDF文件识别第32页
        3.2.2 分段解压及封装第32-34页
        3.2.3 Stream流信息的分类第34页
        3.2.4 萃取Cmap流第34-35页
        3.2.5 正文及注释的提取第35-36页
    3.3 脱敏操作第36-37页
    3.4 PDF文件脱敏流程及实现第37-42页
        3.4.1 PDF文件整体脱敏流程第37-40页
        3.4.2 主要类和函数功能实现第40-42页
    3.5 本章小结第42-43页
第4章 模式匹配算法第43-57页
    4.1 经典单模式匹配算法第43-48页
        4.1.1 相关概念介绍第43页
        4.1.2 BM算法第43-46页
        4.1.3 QS算法第46-48页
    4.2 改进算法第48-56页
        4.2.1 算法思想第48页
        4.2.2 算法预处理及匹配过程第48-49页
        4.2.3 算法实现第49页
        4.2.4 算法实例第49-51页
        4.2.5 测试结果分析第51-56页
    4.3 本章小结第56-57页
第5章 脱敏系统的框架设计与实现第57-72页
    5.1 HTTP协议第57-60页
        5.1.1 HTTP协议简介第57-58页
        5.1.2 HTTP报文请求格式第58页
        5.1.3 HTTP报文响应消息格式第58-60页
    5.2 总体架构第60-62页
    5.3 基于反向代理的脱敏系统模块的设计与实现第62-67页
        5.3.1 TCP反向代理模块第62-63页
        5.3.2 HTTP协议解析模块第63-65页
        5.3.3 内容解析模块第65页
        5.3.4 敏感词控制模块第65-67页
    5.4 实验结果分析第67-71页
        5.4.1 实验环境搭建第67页
        5.4.2 脱敏效果测试第67-69页
        5.4.3 系统性能分析第69-71页
    5.5 本章小结第71-72页
结论第72-74页
致谢第74-75页
参考文献第75-79页
攻读硕士期间发表的论文及科研成果第79页

论文共79页,点击 下载论文
上一篇:城市交通中聚集模式的挖掘方法研究
下一篇:用于三维测量的结构光生成系统研究