基于MySQL新闻搜索引擎的设计与实现
摘要 | 第4-5页 |
ABSTRACT | 第5-6页 |
第一章 绪论 | 第7-11页 |
1.1 本文研究背景 | 第7-9页 |
1.2 本文所研究的内容 | 第9页 |
1.3 课题研究意义 | 第9-10页 |
1.4 本文的章节安排 | 第10-11页 |
第二章 搜索引擎基本概念 | 第11-20页 |
2.1 搜索引擎发展历史 | 第11-12页 |
2.2 搜索引擎的工作原理 | 第12-16页 |
2.3 搜索引擎的构成 | 第16页 |
2.4 搜索引擎的工作步骤 | 第16-17页 |
2.5 搜索引擎的关键技术 | 第17-18页 |
2.5.1 超文本传输协议 | 第17页 |
2.5.2 Web采集器技术 | 第17-18页 |
2.6 新闻搜索引擎 | 第18-19页 |
2.7 本章小结 | 第19-20页 |
第三章 新闻搜索引擎网络爬虫 | 第20-46页 |
3.1 网络爬虫的分类 | 第20-23页 |
3.2 网页爬取策略 | 第23-30页 |
3.2.1 宽度优先搜索算法 | 第24-25页 |
3.2.2 深度优先搜索算法 | 第25-26页 |
3.2.3 网页爬取代码实现 | 第26-30页 |
3.3 多线程爬虫技术 | 第30-33页 |
3.4 网页内容分析与提取 | 第33-45页 |
3.4.1 网页净化 | 第33页 |
3.4.2 URL提取与去重 | 第33-37页 |
3.4.3 链接分析算法 | 第37-38页 |
3.4.4 C++代码实现 | 第38-45页 |
3.5 本章小结 | 第45-46页 |
第四章 新闻搜索引擎索引的建立 | 第46-55页 |
4.1 对新闻内容分词 | 第46-48页 |
4.2 计算TF-IDF | 第48-50页 |
4.3 建立倒排索引 | 第50-53页 |
4.3.1 正排索引 | 第50-51页 |
4.3.2 倒排索引 | 第51-53页 |
4.4 将倒排文件存入MYSQL数据库 | 第53-54页 |
4.5 本章小结 | 第54-55页 |
第五章 新闻搜索引擎查询 | 第55-63页 |
5.1 查询模块的结构设计 | 第55-56页 |
5.2 用户查询日志实现 | 第56-58页 |
5.3 查询服务的实现 | 第58-60页 |
5.4 搜索引擎质量的评价方法 | 第60-62页 |
5.5 本章小结 | 第62-63页 |
第六章 新闻搜索引擎系统截图 | 第63-70页 |
6.1 后台实现部分截图 | 第63-66页 |
6.2 前台查询部分截图 | 第66-70页 |
第七章 总结与展望 | 第70-72页 |
参考文献 | 第72-75页 |
致谢 | 第75-76页 |