智能新闻采集处理系统的设计与实现
摘要 | 第8-9页 |
ABSTRACT | 第9-10页 |
第1章 绪论 | 第11-19页 |
1.1.研究背景及意义 | 第11-13页 |
1.2.国内外研究现状 | 第13-15页 |
1.3.系统解决的主要问题 | 第15-17页 |
1.4.论文的主要内容 | 第17页 |
1.5.论文组织结构 | 第17-19页 |
第2章 系统需求分析 | 第19-29页 |
2.1.系统概述及目标 | 第19页 |
2.2.系统应用场景实例分析 | 第19-20页 |
2.3.系统功能性需求分析 | 第20-29页 |
2.3.1.网站信息管理模块 | 第21-22页 |
2.3.2.微博信息管理模块 | 第22-24页 |
2.3.3.贴吧信息管理模块 | 第24-25页 |
2.3.4.标签及规则管理 | 第25-27页 |
2.3.5.网站抓取 | 第27页 |
2.3.6.微博抓取 | 第27-28页 |
2.3.7.贴吧抓取 | 第28-29页 |
第3章 系统概要设计 | 第29-37页 |
3.1.系统架构设计 | 第29-30页 |
3.2.系统功能架构设计 | 第30-32页 |
3.3.数据库设计 | 第32-37页 |
3.3.1.数据库概念设计 | 第32页 |
3.3.2.数据库详细设计 | 第32-37页 |
第4章 系统关键技术与算法设计 | 第37-48页 |
4.1.可视化抓取规则配置工具 | 第37-38页 |
4.2.数据抓取 | 第38-42页 |
4.2.1.网页抓取 | 第38-39页 |
4.2.2.新闻信息智能提取 | 第39-40页 |
4.2.3.采集频率智能调节 | 第40-42页 |
4.3.新闻自动分类 | 第42-48页 |
4.3.1.新词与词组发现 | 第43-44页 |
4.3.2.关键词提取 | 第44-46页 |
4.3.3.建立分类关键词词库 | 第46-47页 |
4.3.4.新闻分类 | 第47-48页 |
第5章 系统详细功能设计及实现 | 第48-67页 |
5.1.网站信息管理 | 第48-60页 |
5.1.1.网站信息配置 | 第48-54页 |
5.1.2.抓取结果查询 | 第54-55页 |
5.1.3.可视化抓取规则配置工具 | 第55-60页 |
5.2.微博和贴吧信息管理 | 第60-61页 |
5.2.1.账号管理 | 第60-61页 |
5.2.2.抓取结果查询 | 第61页 |
5.3.标签与规则管理 | 第61-64页 |
5.4.数据抓取 | 第64-67页 |
5.4.1.网站新闻页面抓取 | 第64-65页 |
5.4.2.微博与贴吧信息抓取 | 第65-67页 |
第6章 系统测试 | 第67-72页 |
第7章 结论 | 第72-74页 |
7.1.全文总结 | 第72页 |
7.2.系统不足与前景展望 | 第72-74页 |
参考文献 | 第74-76页 |
致谢 | 第76-77页 |
学位论义评阅及答辩情况表 | 第77页 |