新闻信息采集系统的设计与实现
摘要 | 第1-10页 |
ABSTRACT | 第10-11页 |
第一章 绪论 | 第11-22页 |
·问题提出的背景及意义 | 第11-12页 |
·国内外研究现状 | 第12-19页 |
·元搜索引擎 | 第12-16页 |
·信息抽取 | 第16-19页 |
·本文主要工作 | 第19-20页 |
·论文结构 | 第20-22页 |
第二章 新闻信息采集系统的设计 | 第22-29页 |
·系统框架结构 | 第22-23页 |
·浏览器/服务器(B/S)模式 | 第22页 |
·系统架构 | 第22-23页 |
·系统模块设计 | 第23-26页 |
·信息规整模块 | 第24-25页 |
·链接独立搜索引擎模块 | 第25页 |
·结果抽取模块 | 第25页 |
·正文文本抽取模块 | 第25页 |
·去重排序模块 | 第25-26页 |
·结果展示模块 | 第26页 |
·系统工作原理及数据流程 | 第26-28页 |
·工作原理 | 第26页 |
·数据流程 | 第26-28页 |
·本章小结 | 第28-29页 |
第三章 元搜索引擎子系统关键技术的实现 | 第29-42页 |
·与搜索源的链接 | 第29-30页 |
·网页解析 | 第30-35页 |
·页面结构 | 第31页 |
·正则表达式解析页面 | 第31-32页 |
·各独立搜索引擎检索结果页面的解析过程及步骤 | 第32-35页 |
·检索信息的去重优化及重排序 | 第35-37页 |
·各独立搜索引擎检索结果重复判断 | 第35-36页 |
·各独立搜索引擎新闻检索结果排序与去重 | 第36-37页 |
·基于多线程技术的并行搜索 | 第37-39页 |
·多线程创建 | 第37-38页 |
·线程调度 | 第38页 |
·线程同步 | 第38-39页 |
·总结 | 第39页 |
·系统性能评价 | 第39-41页 |
·覆盖范围 | 第39页 |
·查准率 | 第39-40页 |
·检索时间 | 第40-41页 |
·本章小结 | 第41-42页 |
第四章 信息抽取子系统关键技术的实现 | 第42-54页 |
·信息抽取 | 第42页 |
·网页结构分析与数据预处理 | 第42-45页 |
·网页结构分析 | 第42-45页 |
·数据预处理 | 第45页 |
·正文抽取 | 第45-52页 |
·网页信息表示 | 第45-48页 |
·基于贝叶斯理论的新闻正文抽取方法 | 第48-49页 |
·正文抽取过程 | 第49-52页 |
·实验与结果分析 | 第52-53页 |
·本章小结 | 第53-54页 |
第五章 总结与展望 | 第54-56页 |
·本文总结 | 第54页 |
·工作展望 | 第54-56页 |
致谢 | 第56-57页 |
参考文献 | 第57-60页 |
攻读硕士期间发表的论文 | 第60-61页 |
附录A 判断两条信息是否是重复信息 | 第61-63页 |
附录B 计算一条信息的相关度权值 | 第63-64页 |
附录C 调用并启动独立搜索引擎 | 第64-66页 |
附录D 线程同步类 | 第66-67页 |
附录E 构建页面的table标签树主要源码 | 第67-68页 |