摘要 | 第3-4页 |
ABSTRACT | 第4页 |
第一章 绪论 | 第8-11页 |
1.1 课题研究背景和意义 | 第8-9页 |
1.2 国内外研究现状 | 第9页 |
1.2.1 国内外网络爬虫研究现状 | 第9页 |
1.2.2 国内外数据异构集成技术研究现状 | 第9页 |
1.3 研究内容 | 第9-11页 |
1.3.1 基于语义分析的网络爬虫 | 第9-10页 |
1.3.2 网络文本数据自动分析技术 | 第10页 |
1.3.3 数据异构集成技术 | 第10-11页 |
第二章 相关理论和技术概念 | 第11-14页 |
2.1 网络爬虫技术 | 第11页 |
2.2 数据异构集成技术 | 第11-12页 |
2.3 典型数据集成技术 | 第12-14页 |
2.3.1 联邦数据库系统 | 第12页 |
2.3.2 数据仓库系统(DataWarehouse) | 第12-13页 |
2.3.3 面向消息的中间件技术 | 第13页 |
2.3.4 XML技术 | 第13-14页 |
第三章 方案设计概念 | 第14-18页 |
3.1 数据采集模块 | 第14-15页 |
3.1.1 数据抓取模块 | 第14-15页 |
3.1.2 语义分析模块 | 第15页 |
3.2 数据处理模块 | 第15页 |
3.2.1 数据存储 | 第15页 |
3.2.2 文件索引 | 第15页 |
3.3 数据集成模块 | 第15-18页 |
3.3.1 XML生成模块 | 第16页 |
3.3.2 XML分析模块 | 第16-17页 |
3.3.3 XML关系映射模块 | 第17页 |
3.3.4 XML整合模块 | 第17-18页 |
第四章 TF-IDF改进算法的聚焦网络爬虫研究 | 第18-26页 |
4.1 聚焦主题网络爬虫 | 第18页 |
4.2 基于语义分析的聚焦主题网络爬虫 | 第18-19页 |
4.3 TF-IDF算法改进 | 第19-22页 |
4.4 基于语义分析的聚焦主题网络爬虫设计 | 第22-26页 |
4.4.1 语义库 | 第22-24页 |
4.4.2 数据下载模块 | 第24页 |
4.4.3 爬行控制模块 | 第24-26页 |
第五章 数据异构集成技术 | 第26-29页 |
5.1 网络文档数据结构特征提取 | 第26-27页 |
5.2 XML文档生成实现 | 第27-28页 |
5.3 基于XML数据集成 | 第28-29页 |
第六章 软件实现 | 第29-47页 |
6.1 数据抓取 | 第29-41页 |
6.1.1 语义解析器 | 第31-35页 |
6.1.2 数据分析和抽取 | 第35页 |
6.1.3 TF-IDF改进算法实现 | 第35-41页 |
6.2 文件系统和索引系统服务 | 第41-45页 |
6.2.1 文件系统服务 | 第42页 |
6.2.2 索引系统服务 | 第42-43页 |
6.2.3 文件和索引系统服务核心代码 | 第43-45页 |
6.3 数据异构集成 | 第45-47页 |
6.3.1 XML文件生成 | 第46页 |
6.3.2 XML文件分析 | 第46页 |
6.3.3 XML文件整合 | 第46-47页 |
第七章 系统测试和结果分析 | 第47-49页 |
7.1 系统测试 | 第47-48页 |
7.2 结果分析 | 第48-49页 |
第八章 结论与展望 | 第49-50页 |
8.1 总结和展望 | 第49-50页 |
参考文献 | 第50-53页 |
在学期间的研究成果 | 第53-54页 |
致谢 | 第54页 |