首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于Web检索的小型学习资源语料库的建设

摘要第1-4页
Abstract第4-7页
第一章 绪论第7-11页
   ·课题的背景及意义第7-8页
   ·国内外研究现状第8-9页
   ·本文的主要研究工作第9-11页
第二章 语料库在学习资源建设中的应用第11-21页
   ·语料库理论基础第11-13页
     ·语料库的定义第11页
     ·语料库的分类第11-12页
     ·语料库的类型第12-13页
   ·学习资源理论基础第13-16页
     ·学习资源理论概述第13-14页
     ·学习资源的组成第14-15页
     ·学习资源建设的内容第15页
     ·语料库在学习资源建设中的启示第15-16页
   ·搜索引擎理论基础第16-19页
     ·搜索引擎发展概述第16-17页
     ·搜索引擎原理第17-19页
     ·网页权限与更新周期第19页
   ·本章小结第19-21页
第三章 自然语言处理第21-31页
   ·自然语言处理过程第21-24页
     ·自然语言处理概述第21页
     ·中文文本的分类第21-23页
     ·中文分词器第23-24页
   ·网页消重第24-27页
     ·文本表示模型第24页
     ·文本特征的抽取第24-25页
     ·相似距离第25-26页
     ·网页消重的算法第26-27页
   ·网页净化第27-29页
     ·单一页面的网页净化第27-28页
     ·基于视觉特征的净化方法第28页
     ·同一模板网页净化第28-29页
   ·本章小结第29-31页
第四章 小型学习资源语料库的系统设计第31-43页
   ·小型学习资源语料库系统模型第31-33页
     ·资源语料库需求分析第31页
     ·小型学习资源语料库的流程第31-32页
     ·资源语料库功能模块第32-33页
   ·功能模块实现的技术原理第33-39页
     ·平台软硬件环境第33-34页
     ·主题网页抓取第34页
     ·Heritrix 架构简述第34-37页
     ·Lucene 功能原理简述第37-39页
   ·多线程优化 Heritrix 爬虫性能第39-41页
   ·本章小结第41-43页
第五章 资源语料库核心模块实现第43-55页
   ·主题网页的抓取第43-46页
     ·利用 Heritrix 实现主题网页抓取第43-45页
     ·实际抓取效果图第45-46页
   ·网页消重算法实现第46-47页
     ·算法实现第46-47页
     ·性能测试第47页
   ·文档预处理第47-49页
     ·Lucene 对文档的处理过程第47-49页
     ·运行效果第49页
   ·语料检索的实现第49-53页
     ·建立索引第49-50页
     ·检索目标文档第50-51页
     ·高亮处理第51-53页
     ·运行效果第53页
   ·本章小结第53-55页
第六章 总结与展望第55-57页
致谢第57-59页
参考文献第59-63页
攻读学位期间的主要成果第63-64页

论文共64页,点击 下载论文
上一篇:基于云计算的远程教育资源共享技术研究与实现
下一篇:独立学院大学生思想政治教育工作研究