中文资讯搜索引擎产品技术的研究和应用
一、绪论 | 第1-13页 |
·搜索引擎的历史 | 第8-10页 |
·搜索引擎的分类 | 第10-13页 |
二、 搜索引擎的架构 | 第13-16页 |
·中文资讯搜索引擎的实例架构 | 第13页 |
·搜索引擎的一般架构 | 第13-16页 |
三、 网络爬虫技术 | 第16-40页 |
·爬虫抓取策略 | 第16-20页 |
·基于立即回报价值评价搜索策略 | 第18-20页 |
·基于内容的评价搜索策略 | 第18-19页 |
·基于链接结构的搜索策略 | 第19-20页 |
·基于未来回报价值评价搜索策略 | 第20页 |
·Web 信息的抽取 | 第20-24页 |
·Web 信息的特点 | 第20-21页 |
·html 文件的树型化 | 第21-24页 |
·中文资讯爬虫系统实例 | 第24-40页 |
·资讯爬虫系统的整体结构 | 第24-26页 |
·进程控制和任务分配 | 第26-30页 |
·网页搜索解析 | 第30-34页 |
·新闻url 消重 | 第34-36页 |
·信息提交模块 | 第36-37页 |
·其他的注意事项以及未来的工作 | 第37-40页 |
四、 索引引擎 | 第40-52页 |
·索引引擎的倒排结构原理 | 第40-42页 |
·分词技术 | 第42-48页 |
·英文分词 | 第42-43页 |
·中文分词 | 第43-45页 |
·中文分词在实际中的引用 | 第45-48页 |
·中文资讯索引引擎 | 第48-52页 |
五、 搜索排序 | 第52-61页 |
·PageRank 算法 | 第52-58页 |
·PageRank 的基本原理 | 第52-55页 |
·PageRank 的实际计算 | 第55-58页 |
·RelenvenceRank 算法 | 第58-59页 |
·总结 | 第59-61页 |
六. 结束及展望 | 第61-62页 |
摘要 | 第62-65页 |
Abstract | 第65-67页 |
参考文献 | 第67-69页 |
致谢 | 第69-70页 |
导师及作者简介 | 第70页 |