摘要 | 第1-7页 |
Abstract | 第7-11页 |
1 绪论 | 第11-16页 |
·课题研究背景 | 第11-12页 |
·国内外发展状况 | 第12-13页 |
·目标及任务 | 第13-14页 |
·本文研究内容 | 第14-15页 |
·论文结构 | 第15-16页 |
2 WEB 信息抽取研究综述 | 第16-26页 |
·信息抽取的概念和发展状况 | 第16-18页 |
·网页信息抽取的方法 | 第18-24页 |
·基于知识工程的方法 | 第19页 |
·自动训练的方法 | 第19-21页 |
·基于DOM 的WEB 抽取技术 | 第21-24页 |
·信息抽取的问题与改进 | 第24-25页 |
·本章小结 | 第25-26页 |
3 关键技术与算法分析 | 第26-37页 |
·DOM 技术研究 | 第26-30页 |
·HTML 文档的树模型 | 第27-28页 |
·文档树结构的编程接口 | 第28-30页 |
·文本自动分类 | 第30-36页 |
·文本分类概念和一般性描述 | 第31-33页 |
·向量空间模型 | 第33-35页 |
·KNN(K Nearest Neighbor,KNN)分类方法 | 第35页 |
·支持向量机SVM(Support Vector Machine)方法 | 第35-36页 |
·本章小结 | 第36-37页 |
4 网页主体信息抽取方法设计 | 第37-55页 |
·基于DOM 分析器的网页预处理 | 第38-40页 |
·网页预处理 | 第39-40页 |
·文本预处理的设计方法 | 第40页 |
·特征提取与选择 | 第40-44页 |
·标准特征向量的生成 | 第41-43页 |
·评估函数 | 第43-44页 |
·文本分类 | 第44-49页 |
·KNN-SVM 分类算法分析 | 第45-46页 |
·文本分类子系统结构图 | 第46-47页 |
·分类结果 | 第47-49页 |
·页面区域信息分割与抽取 | 第49-54页 |
·网页结构分析 | 第49-50页 |
·建立映射表 | 第50-51页 |
·网页区域分割与识别 | 第51-54页 |
·本章小结 | 第54-55页 |
5 实验结果与性能分析 | 第55-58页 |
·开发环境 | 第55页 |
·系统界面 | 第55-56页 |
·数据抽取实验评估 | 第56-58页 |
6 结论和展望 | 第58-59页 |
参考文献 | 第59-62页 |
致谢 | 第62-63页 |
个人简历 | 第63页 |
在学期间发表的论文 | 第63页 |