中文摘要 | 第1-6页 |
英文摘要 | 第6-7页 |
第一章 引言 | 第7-15页 |
§1.1 本课题的来源及意义 | 第7-8页 |
§1.2 网上敏感信息智能快报的技术思路和结构框架 | 第8-9页 |
§1.3 信息检索(INFORMATION RETRIEVAL,IR)技术简介 | 第9-11页 |
§1.3.1 信息检索的定义与发展 | 第9页 |
§1.3.2 布尔检索 | 第9-10页 |
§1.3.3 向量检索 | 第10页 |
§1.3.4 文本检索的基本度量 | 第10-11页 |
§1.4 WEB信息检索工具简介 | 第11-12页 |
§1.4.1 Web信息检索工具的发展 | 第11-12页 |
§1.4.2 Web信息检索工具的不足 | 第12页 |
§1.5 敏感页面发现子系统的设计 | 第12-15页 |
§1.5.1 系统的设计思想 | 第12-13页 |
§1.5.2 系统框架结构 | 第13页 |
§1.5.3 系统功能及运行方式 | 第13-15页 |
第二章 敏感信息发现的技术基础 | 第15-24页 |
§2.1 引言 | 第15页 |
§2.2 网页信息预处理技术 | 第15-17页 |
§2.2.1 普通文档信息预处理 | 第15-16页 |
§2.2.2 超文本标记信息预处理 | 第16-17页 |
§2.3 向量空间模型(VECTOR SPACE MODEL,VSM) | 第17-19页 |
§2.3.1 VSM的几个基本概念 | 第17-18页 |
§2.3.2 特征项的选择 | 第18页 |
§2.3.3 权重计算 | 第18-19页 |
§2.4 文本分类技术 | 第19-20页 |
§2.5 文本聚类技术 | 第20-21页 |
§2.6 用户描述文件的模型和获取 | 第21-24页 |
§2.6.1 用户个性信息模型 | 第21-22页 |
§2.6.2 用户个性信息获取 | 第22页 |
§2.6.3 几种常用的机器学习算法 | 第22-24页 |
第三章 信息检索的设计与实现 | 第24-36页 |
§3.1 引言 | 第24页 |
§3.2 网页预处理 | 第24-28页 |
§3.2.1 网页结构分析 | 第24-25页 |
§3.2.2 文本链长比的引入 | 第25-27页 |
§3.2.3 文本预处理 | 第27-28页 |
§3.3 文本索引的设计与实现 | 第28-32页 |
§3.3.1 改进的TF算法 | 第28-29页 |
§3.3.2 索引数据结构设计 | 第29-30页 |
§3.3.3 文本索引的实现 | 第30-32页 |
§3.4 信息检索的实现 | 第32-33页 |
§3.4.1 文档相关度计算公式的确定 | 第32页 |
§3.4.2 阈值的确定 | 第32-33页 |
§3.4.3 信息检索的实现 | 第33页 |
§3.5 检索结果的提交 | 第33-34页 |
§3.6 文档数据库管理 | 第34-36页 |
第四章 用户信息个性化的实现 | 第36-41页 |
§4.1 概述 | 第36页 |
§4.2 用户界面的设计和实现 | 第36-37页 |
§4.3 信息推送方式的实现 | 第37-39页 |
§4.4 用户反馈模块的设计和实现 | 第39-40页 |
§4.4.1 用户个性化信息的表示 | 第59-39页 |
§4.4.2 用户特征向量更新算法 | 第39-40页 |
§4.5 系统工作小结 | 第40-41页 |
第五章 系统性能测试 | 第41-44页 |
§5.1 系统性能测试参数的确定 | 第41页 |
§5.2 系统测试结果 | 第41-43页 |
§5.3 系统测试结果分析 | 第43-44页 |
第六章 进一步的工作 | 第44-46页 |
§6.1 系统性能的改进 | 第44页 |
§6.1.1 系统性能优化 | 第44页 |
§6.1.2 多用户处理 | 第44页 |
§6.2 超链接信息分析和处理 | 第44-45页 |
§6.3 汉语信息处理 | 第45-46页 |
结束语 | 第46-47页 |
致谢 | 第47-48页 |
参考文献 | 第48-50页 |
附录A 系统所用的停止词表 | 第50-52页 |
附录B 去后缀条件规则表 | 第52-53页 |