首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

中英文政策垂直搜索引擎研究与实现

中文摘要第4-5页
英文摘要第5-6页
1 绪论第10-15页
    1.1 研究背景及意义第10页
    1.2 国内外研究现状第10-13页
        1.2.1 政策数据库研究现状第10-11页
        1.2.2 网络定向爬虫研究现状第11页
        1.2.3 全文检索技术研究现状第11-12页
        1.2.4 Web文本挖掘研究现状第12页
        1.2.5 在线翻译研究现状第12-13页
    1.3 研究目的及主要内容第13-15页
2 搜索引擎实现的主要技术第15-21页
    2.1 定向爬虫技术介绍第15-16页
        2.1.1 定向爬虫WebMagic第15-16页
        2.1.2 基于WebMagic的分布式爬虫第16页
        2.1.3 应对反爬虫策略第16页
    2.2 全文检索技术(Lucene)介绍第16-17页
        2.2.1 全文索引技术第16-17页
        2.2.2 全文检索技术第17页
    2.3 文本挖掘主要算法介绍第17-19页
        2.3.1 关键词提取算法第17-19页
        2.3.2 文本分类算法第19页
    2.4 在线翻译技术介绍第19-20页
    2.5 小结第20-21页
3 基于词共现的关键词提取算法研究与改进第21-28页
    3.1 基于词共现的关键词提取算法改进原理介绍第21-22页
    3.2 基于词共现的关键词提取算法的实现第22-24页
    3.3 基于词共现的关键词提取算法实验结果分析第24-27页
        3.3.1 实验评估标准第24页
        3.3.2 实验数据准备第24-25页
        3.3.3 实验结果分析第25-27页
    3.4 小结第27-28页
4 基于特征词加权的政策文本分类算法研究与实现第28-34页
    4.1 网页文本内容提取第28页
    4.2 关键技术的选取第28页
    4.3 基于特征词加权的相似度阈值计算方法第28-31页
    4.4 政策文本分类算法研究与实现第31-32页
    4.5 基于特征词加权的政策文本分类算法实现结果分析第32-33页
        4.5.1 实验结果的评估标准第32页
        4.5.2 实验数据准备第32页
        4.5.3 实验结果分析第32-33页
    4.6 小结第33-34页
5 中英文政策垂直搜索引擎设计与实现第34-42页
    5.1 系统总体结构设计第34-35页
    5.2 系统各模块设计与实现第35-41页
        5.2.1 分布式爬虫模块第35-36页
        5.2.2 应对反爬虫策略模块第36-37页
        5.2.3 舆情及英文政策爬虫模块第37-39页
        5.2.4 舆情及英文全文检索模块第39-40页
        5.2.5 “人有我无”检索模块第40页
        5.2.6 英文网页在线翻译模块第40-41页
    5.3 小结第41-42页
6 系统测试第42-50页
    6.1 实验环境第42页
    6.2 模块测试第42-46页
        6.2.1 分布式爬虫效率测试第42-43页
        6.2.2 应对反爬虫策略测试第43页
        6.2.3 舆情及英文政策爬虫测试第43-44页
        6.2.4 舆情及英文全文检索测试第44-45页
        6.2.5 英文网页在线翻译测试第45-46页
    6.3 系统总体测试第46-49页
    6.4 小结第49-50页
7 总结与展望第50-52页
    7.1 总结第50页
    7.2 不足及展望第50-52页
参考文献第52-55页
致谢第55-56页
攻读学位期间取得的科研成果清单第56页

论文共56页,点击 下载论文
上一篇:基于URL+文本的网页主题分类模型研究
下一篇:基于深度学习的中文微博人物关系图谱的研究与实现