基于信息搜集与内容分析的互联网不良信息监测技术研究
中文摘要 | 第1-4页 |
Abstract | 第4-9页 |
引言 | 第9-11页 |
第一章 绪论 | 第11-20页 |
·互联网的发展与信息安全 | 第11-14页 |
·我国互联网发展现状 | 第11-12页 |
·互联网上的不良信息问题 | 第12-13页 |
·内容安全简述 | 第13-14页 |
·本课题研究现状 | 第14-17页 |
·研究内容 | 第17-18页 |
·本文组织结构 | 第18-19页 |
·本章小结 | 第19-20页 |
第二章 WEB 站点结构分析 | 第20-31页 |
·WEB 的构成 | 第20-25页 |
·HTML 简介 | 第20-21页 |
·超链接分析 | 第21-24页 |
·HTTP 概况 | 第24-25页 |
·站点结构复杂性 | 第25-27页 |
·网站层次化模型 | 第27-30页 |
·网站树形结构 | 第27-28页 |
·最小生成树算法相关问题 | 第28-29页 |
·层次结构的遍历 | 第29-30页 |
·本章小结 | 第30-31页 |
第三章 页面信息获取 | 第31-44页 |
·信息采集 | 第31-35页 |
·信息采集一般框架 | 第31-33页 |
·爬虫基本问题 | 第33页 |
·爬虫工作原理 | 第33-35页 |
·基于内容评价的搜索策略 | 第35-39页 |
·搜索策略简述 | 第35-36页 |
·链接价值构成 | 第36-38页 |
·内容相似度 | 第38-39页 |
·链接管理相关问题 | 第39-41页 |
·历史链接处理 | 第39-40页 |
·多线程问题 | 第40页 |
·站内地址确定 | 第40-41页 |
·链接有效性 | 第41页 |
·实验与结果分析 | 第41-43页 |
·本章小结 | 第43-44页 |
第四章 不良信息特征提取 | 第44-57页 |
·文档与文档特征 | 第44-46页 |
·文档向量模型 | 第44-45页 |
·文档特征提取 | 第45-46页 |
·分词概述 | 第46页 |
·不良信息关键词形式分析 | 第46-47页 |
·重复串概念与性质 | 第47-50页 |
·文档主题与重复串 | 第48页 |
·重复串相关性质 | 第48-50页 |
·串频统计方法 | 第50-53页 |
·KMP 算法 | 第50-51页 |
·LDM 算法 | 第51-53页 |
·重复串提取 | 第53-55页 |
·算法描述 | 第53-54页 |
·约束条件 | 第54-55页 |
·实验与结果分析 | 第55-56页 |
·本章小结 | 第56-57页 |
第五章 实时文本分类研究 | 第57-71页 |
·文本分类技术 | 第57-59页 |
·文本分类概述 | 第57-58页 |
·实时分类研究 | 第58-59页 |
·贝叶斯理论概述 | 第59-60页 |
·快速特征匹配 | 第60-63页 |
·Wu-Manber 算法 | 第60-62页 |
·IntMatch 算法 | 第62-63页 |
·实时文本分类器设计 | 第63-66页 |
·总体结构 | 第64页 |
·工作原理 | 第64-66页 |
·反馈机制 | 第66-69页 |
·反馈的提出 | 第67-68页 |
·工作原理 | 第68-69页 |
·实验与结果分析 | 第69-70页 |
·本章小结 | 第70-71页 |
第六章 不良信息监测平台总体设计 | 第71-78页 |
·设计目标 | 第71-72页 |
·总体结构设计 | 第72-73页 |
·主要模块概要设计 | 第73-76页 |
·数据获取模块 | 第73-74页 |
·特征提取模块 | 第74-75页 |
·内容检测模块 | 第75-76页 |
·用户接口模块 | 第76页 |
·开发环境 | 第76-77页 |
·本章小结 | 第77-78页 |
第七章 总结和展望 | 第78-82页 |
·总结 | 第78-79页 |
·展望 | 第79-82页 |
参考文献 | 第82-87页 |
攻读硕士学位期间公开发表的论文 | 第87-88页 |
攻读硕士学位期间参与的科研项目 | 第88-89页 |
致谢 | 第89-90页 |
详细摘要 | 第90-93页 |