基于互联网的话题分类及敏感话题发现技术研究与实现
摘要 | 第1-5页 |
ABSTRACT | 第5-9页 |
第一章 绪论 | 第9-13页 |
·课题的背景与意义 | 第9-10页 |
·话题发现技术的现状及未来 | 第10-11页 |
·课题研究的主要工作及内容 | 第11-12页 |
·本论文的论述结构 | 第12-13页 |
第二章 本论文涉及基础知识及技术介绍 | 第13-31页 |
·话题爬虫介绍 | 第13-19页 |
·什么是话题爬虫 | 第13-14页 |
·话题爬虫搜索策略 | 第14-15页 |
·页面去重算法布隆过滤器 | 第15-19页 |
·全文检索引擎Lucene | 第19-24页 |
·什么是Lucene | 第20-21页 |
·Lucene 系统结构分析 | 第21-24页 |
·WEB 文本挖掘技术 | 第24-30页 |
·WEB 文本挖掘的含义 | 第24页 |
·WEB 文本挖掘的方法 | 第24-26页 |
·WEB 文本挖掘中算法介绍 | 第26-30页 |
·PageRank 算法 | 第26-28页 |
·文本分类算法介绍 | 第28-30页 |
·本章小结 | 第30-31页 |
第三章 系统整体框架设计 | 第31-39页 |
·话题发现系统所面临重点与难点 | 第31-32页 |
·重点研究课题 | 第31页 |
·难点问题 | 第31-32页 |
·相关解决方法 | 第32页 |
·解析具体框架 | 第32-38页 |
·话题发现与爬取框架 | 第34-35页 |
·话题索引与分类框架 | 第35-36页 |
·话题查询与推送框架 | 第36-38页 |
·本章小结 | 第38-39页 |
第四章系统详细设计与代码实现 | 第39-63页 |
·话题爬取模块设计与实现 | 第39-51页 |
·URL 地址整理与过滤 | 第39-42页 |
·实质爬取设计与实现 | 第42-49页 |
·建立连接,发送请求,接受数据 | 第42-44页 |
·链接提取及网页分析 | 第44-46页 |
·去重模块设计与实现 | 第46-49页 |
·爬取模块性能与效率讨论 | 第49-51页 |
·话题索引与分类模块设计 | 第51-60页 |
·话题索引建立设计 | 第54-58页 |
·话题分类模块设计 | 第58-60页 |
·话题查询与推送模块 | 第60-62页 |
·话题查询模块设计 | 第60-61页 |
·结果排序模块设计 | 第61页 |
·推送模块设计 | 第61-62页 |
·本章小结 | 第62-63页 |
第五章系统测试 | 第63-67页 |
·测试环境 | 第63页 |
·测试流程 | 第63页 |
·测试结果 | 第63-66页 |
·本章小结 | 第66-67页 |
第六章总结与展望 | 第67-68页 |
·本论文工作总结 | 第67页 |
·今后展望 | 第67-68页 |
致谢 | 第68-69页 |
参考文献 | 第69-71页 |
攻硕期间取得的研究成果 | 第71-72页 |