中文资讯搜索引擎产品技术的研究和应用
| 一、绪论 | 第1-13页 |
| ·搜索引擎的历史 | 第8-10页 |
| ·搜索引擎的分类 | 第10-13页 |
| 二、 搜索引擎的架构 | 第13-16页 |
| ·中文资讯搜索引擎的实例架构 | 第13页 |
| ·搜索引擎的一般架构 | 第13-16页 |
| 三、 网络爬虫技术 | 第16-40页 |
| ·爬虫抓取策略 | 第16-20页 |
| ·基于立即回报价值评价搜索策略 | 第18-20页 |
| ·基于内容的评价搜索策略 | 第18-19页 |
| ·基于链接结构的搜索策略 | 第19-20页 |
| ·基于未来回报价值评价搜索策略 | 第20页 |
| ·Web 信息的抽取 | 第20-24页 |
| ·Web 信息的特点 | 第20-21页 |
| ·html 文件的树型化 | 第21-24页 |
| ·中文资讯爬虫系统实例 | 第24-40页 |
| ·资讯爬虫系统的整体结构 | 第24-26页 |
| ·进程控制和任务分配 | 第26-30页 |
| ·网页搜索解析 | 第30-34页 |
| ·新闻url 消重 | 第34-36页 |
| ·信息提交模块 | 第36-37页 |
| ·其他的注意事项以及未来的工作 | 第37-40页 |
| 四、 索引引擎 | 第40-52页 |
| ·索引引擎的倒排结构原理 | 第40-42页 |
| ·分词技术 | 第42-48页 |
| ·英文分词 | 第42-43页 |
| ·中文分词 | 第43-45页 |
| ·中文分词在实际中的引用 | 第45-48页 |
| ·中文资讯索引引擎 | 第48-52页 |
| 五、 搜索排序 | 第52-61页 |
| ·PageRank 算法 | 第52-58页 |
| ·PageRank 的基本原理 | 第52-55页 |
| ·PageRank 的实际计算 | 第55-58页 |
| ·RelenvenceRank 算法 | 第58-59页 |
| ·总结 | 第59-61页 |
| 六. 结束及展望 | 第61-62页 |
| 摘要 | 第62-65页 |
| Abstract | 第65-67页 |
| 参考文献 | 第67-69页 |
| 致谢 | 第69-70页 |
| 导师及作者简介 | 第70页 |