违规外联敏感文件的全文检索及识别

致谢	第5-6页
摘要	第6-7页
ABSTRACT	第7页
1 引言	第10-14页
1.1 课题研究背景及现状	第10-11页
1.2 主要研究内容	第11-12页
1.3 论文组织结构	第12-14页
2 相关理论及技术介绍	第14-26页
2.1 全文检索概述	第14-20页
2.1.1 工作原理	第15-17页
2.1.2 关键技术分析	第17-20页
2.2 全文检索工具	第20-25页
2.2.1 文本提取工具Tika	第20-21页
2.2.2 图片文字识别Tesseract-OCR	第21-22页
2.2.3 中文分词工具IKAnalyzer	第22-23页
2.2.4 全文检索引擎Lucene	第23-25页
2.3 本章小结	第25-26页
3 系统的设计与实现	第26-68页
3.1 基于敏感关键词识别	第26-38页
3.1.1 功能设计	第26-28页
3.1.2 Tika数据提取方法	第28-30页
3.1.3 图片文字提取	第30-32页
3.1.4 创建索引	第32-35页
3.1.5 搜索索引	第35-37页
3.1.6 显示问题	第37-38页
3.2 基于自定义敏感词词典识别	第38-44页
3.2.1 功能设计	第38-39页
3.2.2 识别功能具体实现	第39-43页
3.2.3 敏感词词典操作	第43-44页
3.3 快速识别敏感文件	第44-52页
3.3.1 功能设计	第44-45页
3.3.2 同义词词林	第45-47页
3.3.3 同义词词林处理	第47-48页
3.3.4 同义词扩展方法	第48-49页
3.3.5 识别算法	第49-52页
3.4 Word文件水印识别	第52-63页
3.4.1 文本数字水印	第52-55页
3.4.2 功能设计	第55-56页
3.4.3 水印嵌入系统	第56-59页
3.4.4 水印识别算法	第59-63页
3.5 PDF文件摘要识别	第63-66页
3.5.1 功能设计	第63页
3.5.2 PDF文件摘要系统实现	第63-65页
3.5.3 摘要识别算法	第65-66页
3.6 本章小结	第66-68页
4 实验及效果分析	第68-86页
4.1 开发环境	第68页
4.2 功能测试	第68-78页
4.2.1 基于敏感关键词识别	第68-72页
4.2.2 基于敏感词词典识别及快速识别	第72-74页
4.2.3 Word文件水印识别	第74-77页
4.2.4 PDF文件摘要识别	第77-78页
4.3 性能测试	第78-84页
4.3.1 时间及空间性能测试	第78-81页
4.3.2 识别率测试	第81-84页
4.4 本章小结	第84-86页
5 总结与展望	第86-88页
5.1 论文总结	第86页
5.2 不足与展望	第86-88页
参考文献	第88-90页
作者简历及攻读硕士学位期间取得的研究成果	第90-94页
学位论文数据集	第94页