首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于网络爬虫的搜索引擎的设计与实现

摘要第4-5页
Abstract第5页
第1章 绪论第8-12页
    1.1 选题背景及意义第8页
    1.2 国内外研究现状第8-10页
    1.3 主要研究内容第10页
    1.4 论文章节安排第10-12页
第2章 关键技术介绍第12-17页
    2.1 搜索引擎相关知识第12-15页
        2.1.1 搜索引擎基本工作原理第12-13页
        2.1.2 集中式爬虫工作方式第13-14页
        2.1.3 分布式爬虫的工作方式第14-15页
    2.2 分布式网络爬虫第15-16页
    2.3 本章小结第16-17页
第3章 系统设计第17-34页
    3.1 分布式网络爬虫的设计要求第17-18页
    3.2 系统基本结构设计第18-23页
        3.2.1 网络拓扑结构设计第18-19页
        3.2.2 爬行节点结构设计第19-21页
        3.2.3 控制节点结构设计第21页
        3.2.4 搜索引擎架构设计第21-23页
    3.3 搜索引擎设计第23-33页
        3.3.1 网页结构化信息抽取的设计第23-27页
        3.3.2 中文分词模块设计第27-29页
        3.3.3 URL判重模块设计第29-30页
        3.3.4 搜索引擎索引设计第30-33页
    3.4 本章小结第33-34页
第4章 搜索引擎网络爬虫详细设计与实现第34-62页
    4.1 网络爬虫详细设计与实现第34-36页
        4.1.1 可配置的URL链接抽取组件第34-35页
        4.1.2 结构化信息提取第35-36页
    4.2 任务分配模块的设计与实现第36-42页
        4.2.1 分配策略分类第37-38页
        4.2.2 动态任务分配策略具体算法第38-40页
        4.2.3 任务分配粒度的选择第40-42页
    4.3 通信模块的设计与实现第42-44页
        4.3.1 URL传输方法设计第42-43页
        4.3.2 非阻塞套接字结构设计第43-44页
    4.4 各子系统详细设计与实现第44-59页
        4.4.1 改进的网络爬虫抓取第44-49页
        4.4.2 民政新闻正文抽取第49-50页
        4.4.3 网页排序第50-54页
        4.4.4 网页去重第54-56页
        4.4.5 数据存储和缓存系统第56-59页
    4.5 系统测试第59-61页
        4.5.1 测试用例第59-60页
        4.5.2 测试结果第60-61页
    4.6 本章小结第61-62页
第5章 总结与展望第62-64页
    5.1 总结第62-63页
    5.2 展望第63-64页
参考文献第64-66页

论文共66页,点击 下载论文
上一篇:G省高中教师培训管理调查研究--基于参与式管理视角
下一篇:油菜种子发育过程中基于动态QTL和时序转录组的含油量遗传解析