面向新闻领域的文本数据获取系统的设计与实现

摘要	第1-5页
ABSTRACT	第5-9页
第一章绪论	第9-13页
·引言	第9页
·文本数据获取系统的现状及其发展方向	第9-11页
·课题的提出及意义	第11页
·本论文的研究任务	第11-12页
·论文的组织	第12-13页
第二章研究综述	第13-19页
·J2EE技术的简介	第13页
·J2EE关键技术	第13-16页
·J2EE结构分析	第13-15页
·对象持久化技术	第15-16页
·文本分类概述	第16页
·Web文本分类的重要意义	第16页
·文本分类技术研究现状	第16-18页
·国外文本分类研究现状	第16-17页
·国内文本分类研究现状	第17页
·中文Web文本分类研究	第17-18页
·小结	第18-19页
第三章系统的需求分析	第19-23页
·系统需求分析	第19-22页
·各系统间的关系	第22页
·小结	第22-23页
第四章面向新闻领域的文本数据获取系统的设计	第23-41页
·系统的总体设计	第23-26页
·系统的设计目标	第23页
·系统的设计思路	第23-24页
·系统的平台模式	第24-25页
·系统的总体模块	第25-26页
·系统的详细设计	第26-35页
·新闻管理程序模块	第26页
·主题管理模块	第26页
·图片管理模块	第26-27页
·网络爬虫模块	第27-29页
·网页内容抽取模块	第29-31页
·中文分词	第31-33页
·文本特征提取	第33-34页
·训练模块	第34-35页
·分类模块	第35页
·系统数据库设计	第35-37页
·逻辑结构设计	第35-36页
·核心表结构设计	第36-37页
·系统核心类图设计	第37-40页
·系统包图设计	第37-38页
·爬虫模块的类图设计	第38-39页
·网页内容提取的类图设计	第39页
·文本特征提取类图设计	第39-40页
·小结	第40-41页
第五章面向新闻领域的文本数据获取系统的实现和测试	第41-48页
·系统开发环境	第41页
·系统的具体实现	第41-43页
·实现说明	第41-42页
·中文分类的实现方案	第42-43页
·系统测试	第43-47页
·单元测试和JUnit框架	第43-45页
·网络爬虫的测试及分析	第45页
·网页内容提取的测试	第45-46页
·新闻分类的测试	第46-47页
·小结	第47-48页
第六章结束语	第48-50页
·工作总结	第48页
·下一步工作	第48-50页
参考文献	第50-52页
致谢	第52-53页
攻读学位期间发表的学术论文	第53页