新闻信息采集系统的设计与实现
| 摘要 | 第1-10页 |
| ABSTRACT | 第10-11页 |
| 第一章 绪论 | 第11-22页 |
| ·问题提出的背景及意义 | 第11-12页 |
| ·国内外研究现状 | 第12-19页 |
| ·元搜索引擎 | 第12-16页 |
| ·信息抽取 | 第16-19页 |
| ·本文主要工作 | 第19-20页 |
| ·论文结构 | 第20-22页 |
| 第二章 新闻信息采集系统的设计 | 第22-29页 |
| ·系统框架结构 | 第22-23页 |
| ·浏览器/服务器(B/S)模式 | 第22页 |
| ·系统架构 | 第22-23页 |
| ·系统模块设计 | 第23-26页 |
| ·信息规整模块 | 第24-25页 |
| ·链接独立搜索引擎模块 | 第25页 |
| ·结果抽取模块 | 第25页 |
| ·正文文本抽取模块 | 第25页 |
| ·去重排序模块 | 第25-26页 |
| ·结果展示模块 | 第26页 |
| ·系统工作原理及数据流程 | 第26-28页 |
| ·工作原理 | 第26页 |
| ·数据流程 | 第26-28页 |
| ·本章小结 | 第28-29页 |
| 第三章 元搜索引擎子系统关键技术的实现 | 第29-42页 |
| ·与搜索源的链接 | 第29-30页 |
| ·网页解析 | 第30-35页 |
| ·页面结构 | 第31页 |
| ·正则表达式解析页面 | 第31-32页 |
| ·各独立搜索引擎检索结果页面的解析过程及步骤 | 第32-35页 |
| ·检索信息的去重优化及重排序 | 第35-37页 |
| ·各独立搜索引擎检索结果重复判断 | 第35-36页 |
| ·各独立搜索引擎新闻检索结果排序与去重 | 第36-37页 |
| ·基于多线程技术的并行搜索 | 第37-39页 |
| ·多线程创建 | 第37-38页 |
| ·线程调度 | 第38页 |
| ·线程同步 | 第38-39页 |
| ·总结 | 第39页 |
| ·系统性能评价 | 第39-41页 |
| ·覆盖范围 | 第39页 |
| ·查准率 | 第39-40页 |
| ·检索时间 | 第40-41页 |
| ·本章小结 | 第41-42页 |
| 第四章 信息抽取子系统关键技术的实现 | 第42-54页 |
| ·信息抽取 | 第42页 |
| ·网页结构分析与数据预处理 | 第42-45页 |
| ·网页结构分析 | 第42-45页 |
| ·数据预处理 | 第45页 |
| ·正文抽取 | 第45-52页 |
| ·网页信息表示 | 第45-48页 |
| ·基于贝叶斯理论的新闻正文抽取方法 | 第48-49页 |
| ·正文抽取过程 | 第49-52页 |
| ·实验与结果分析 | 第52-53页 |
| ·本章小结 | 第53-54页 |
| 第五章 总结与展望 | 第54-56页 |
| ·本文总结 | 第54页 |
| ·工作展望 | 第54-56页 |
| 致谢 | 第56-57页 |
| 参考文献 | 第57-60页 |
| 攻读硕士期间发表的论文 | 第60-61页 |
| 附录A 判断两条信息是否是重复信息 | 第61-63页 |
| 附录B 计算一条信息的相关度权值 | 第63-64页 |
| 附录C 调用并启动独立搜索引擎 | 第64-66页 |
| 附录D 线程同步类 | 第66-67页 |
| 附录E 构建页面的table标签树主要源码 | 第67-68页 |