新闻信息采集系统的设计与实现

摘要	第1-10页
ABSTRACT	第10-11页
第一章绪论	第11-22页
·问题提出的背景及意义	第11-12页
·国内外研究现状	第12-19页
·元搜索引擎	第12-16页
·信息抽取	第16-19页
·本文主要工作	第19-20页
·论文结构	第20-22页
第二章新闻信息采集系统的设计	第22-29页
·系统框架结构	第22-23页
·浏览器/服务器(B/S)模式	第22页
·系统架构	第22-23页
·系统模块设计	第23-26页
·信息规整模块	第24-25页
·链接独立搜索引擎模块	第25页
·结果抽取模块	第25页
·正文文本抽取模块	第25页
·去重排序模块	第25-26页
·结果展示模块	第26页
·系统工作原理及数据流程	第26-28页
·工作原理	第26页
·数据流程	第26-28页
·本章小结	第28-29页
第三章元搜索引擎子系统关键技术的实现	第29-42页
·与搜索源的链接	第29-30页
·网页解析	第30-35页
·页面结构	第31页
·正则表达式解析页面	第31-32页
·各独立搜索引擎检索结果页面的解析过程及步骤	第32-35页
·检索信息的去重优化及重排序	第35-37页
·各独立搜索引擎检索结果重复判断	第35-36页
·各独立搜索引擎新闻检索结果排序与去重	第36-37页
·基于多线程技术的并行搜索	第37-39页
·多线程创建	第37-38页
·线程调度	第38页
·线程同步	第38-39页
·总结	第39页
·系统性能评价	第39-41页
·覆盖范围	第39页
·查准率	第39-40页
·检索时间	第40-41页
·本章小结	第41-42页
第四章信息抽取子系统关键技术的实现	第42-54页
·信息抽取	第42页
·网页结构分析与数据预处理	第42-45页
·网页结构分析	第42-45页
·数据预处理	第45页
·正文抽取	第45-52页
·网页信息表示	第45-48页
·基于贝叶斯理论的新闻正文抽取方法	第48-49页
·正文抽取过程	第49-52页
·实验与结果分析	第52-53页
·本章小结	第53-54页
第五章总结与展望	第54-56页
·本文总结	第54页
·工作展望	第54-56页
致谢	第56-57页
参考文献	第57-60页
攻读硕士期间发表的论文	第60-61页
附录A 判断两条信息是否是重复信息	第61-63页
附录B 计算一条信息的相关度权值	第63-64页
附录C 调用并启动独立搜索引擎	第64-66页
附录D 线程同步类	第66-67页
附录E 构建页面的table标签树主要源码	第67-68页