首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于网页挖掘的搜索引擎若干技术的研究

摘要第1-4页
Abstract第4-7页
第1章 绪论第7-14页
   ·课题背景第7-8页
   ·网页挖掘内容第8-11页
     ·时间信息挖掘第10页
     ·结构信息挖掘第10-11页
     ·指纹信息挖掘第11页
   ·本文研究的内容第11-14页
     ·本文的组织第11-12页
     ·研究的意义第12-14页
第2章 基于时间挖掘的增量信息采集技术第14-27页
   ·信息采集技术第14-20页
     ·总体的框架第14-16页
     ·信息采集技术中若干问题的分析第16-20页
     ·实验结果及分析第20页
   ·增量采集技术第20-26页
     ·增量采集技术的理论基础第21-22页
     ·面向新闻搜索的基于时间挖掘的增量下载技术第22-25页
     ·实验结果及分析第25-26页
   ·本章小结第26-27页
第3章 基于结构信息挖掘的网页净化技术第27-34页
   ·网页分析的方法第27-28页
   ·中文标点符号在网页的布局第28-29页
   ·结构信息挖掘与中文标点符号数相结合的网页净化第29-32页
     ·识别正文网页与导航网页第29-30页
     ·结构信息挖掘与中文标点符号数相结合的网页净化第30-32页
   ·实验结果及分析第32-33页
   ·本章小结第33-34页
第4章 基于指纹信息挖掘的网页去重技术第34-42页
   ·自然语言文本去重第34-35页
   ·网页去重第35-39页
     ·去重方法的选择第36-37页
     ·指纹信息的选择第37-38页
     ·基于网页净化的去重算法第38-39页
   ·实验结果及分析第39-41页
   ·本章小结第41-42页
第5章 去重思想在变异短文本聚类中的应用第42-53页
   ·变异短文本的概念第42-43页
   ·一般聚类算法第43-44页
     ·一般的聚类算法第43-44页
     ·一般聚类算法失效第44页
   ·面向大规模短文本快速聚类算法第44-47页
     ·短文本规范化第44-45页
     ·特征选择第45-46页
     ·压缩编码第46页
     ·建立检索系统查找匹配第46-47页
   ·算法分析第47-48页
     ·算法的正确性分析第47-48页
     ·算法的效率分析第48页
   ·实验结果及分析第48-52页
   ·本章小结第52-53页
结论第53-54页
参考文献第54-58页
攻读学位期间发表的学术论文第58-59页
哈尔滨工业大学硕士学位论文原创性声明第59-60页
哈尔滨工业大学硕士学位论文使用授权书第60页
哈尔滨工业大学硕士学位涉密论文管理第60-61页
致谢第61页

论文共61页,点击 下载论文
上一篇:我国上市公司盈余管理相关问题研究
下一篇:企业并购中人力资源整合管理研究