首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--软件工程论文

新闻信息采集系统的设计与实现

摘要第1-10页
ABSTRACT第10-11页
第一章 绪论第11-22页
   ·问题提出的背景及意义第11-12页
   ·国内外研究现状第12-19页
     ·元搜索引擎第12-16页
     ·信息抽取第16-19页
   ·本文主要工作第19-20页
   ·论文结构第20-22页
第二章 新闻信息采集系统的设计第22-29页
   ·系统框架结构第22-23页
     ·浏览器/服务器(B/S)模式第22页
     ·系统架构第22-23页
   ·系统模块设计第23-26页
     ·信息规整模块第24-25页
     ·链接独立搜索引擎模块第25页
     ·结果抽取模块第25页
     ·正文文本抽取模块第25页
     ·去重排序模块第25-26页
     ·结果展示模块第26页
   ·系统工作原理及数据流程第26-28页
     ·工作原理第26页
     ·数据流程第26-28页
   ·本章小结第28-29页
第三章 元搜索引擎子系统关键技术的实现第29-42页
   ·与搜索源的链接第29-30页
   ·网页解析第30-35页
     ·页面结构第31页
     ·正则表达式解析页面第31-32页
     ·各独立搜索引擎检索结果页面的解析过程及步骤第32-35页
   ·检索信息的去重优化及重排序第35-37页
     ·各独立搜索引擎检索结果重复判断第35-36页
     ·各独立搜索引擎新闻检索结果排序与去重第36-37页
   ·基于多线程技术的并行搜索第37-39页
     ·多线程创建第37-38页
     ·线程调度第38页
     ·线程同步第38-39页
     ·总结第39页
   ·系统性能评价第39-41页
     ·覆盖范围第39页
     ·查准率第39-40页
     ·检索时间第40-41页
   ·本章小结第41-42页
第四章 信息抽取子系统关键技术的实现第42-54页
   ·信息抽取第42页
   ·网页结构分析与数据预处理第42-45页
     ·网页结构分析第42-45页
     ·数据预处理第45页
   ·正文抽取第45-52页
     ·网页信息表示第45-48页
     ·基于贝叶斯理论的新闻正文抽取方法第48-49页
     ·正文抽取过程第49-52页
   ·实验与结果分析第52-53页
   ·本章小结第53-54页
第五章 总结与展望第54-56页
   ·本文总结第54页
   ·工作展望第54-56页
致谢第56-57页
参考文献第57-60页
攻读硕士期间发表的论文第60-61页
附录A 判断两条信息是否是重复信息第61-63页
附录B 计算一条信息的相关度权值第63-64页
附录C 调用并启动独立搜索引擎第64-66页
附录D 线程同步类第66-67页
附录E 构建页面的table标签树主要源码第67-68页

论文共68页,点击 下载论文
上一篇:个性化元搜索引擎若干关键技术研究
下一篇:COSMIC方法客观性风险评估方法的研究与应用