Web数据抽取在商业银行信用风险监控系统中的应用

摘要	第3-5页
ABSTRACT	第5-6页
第一章绪论	第10-14页
1.1 论文研究背景	第10-11页
1.2 论文研究的意义	第11-12页
1.3 国内外研究现状及发展趋势	第12-14页
第二章相关理论研究	第14-22页
2.1 XML 语言	第14-16页
2.1.1 XML 的产生背景	第14-15页
2.1.2 XML 语言的主要特点	第15-16页
2.2 数据挖掘	第16-18页
2.2.1 Web 数据挖掘	第16-17页
2.2.2 XML 与Web 数据挖掘	第17-18页
2.3 WEB 信息搜索	第18-20页
2.3.1 搜索引擎工作流程	第18页
2.3.2 主题搜索	第18-19页
2.3.3 垂直搜索	第19-20页
2.4 HTML TIDY	第20页
2.5 SpringFrameWork	第20-21页
2.6 本章小结	第21-22页
第三章系统设计	第22-39页
3.1 信用风险监控系统体系	第22-23页
3.2 WEB 信息抽取	第23-25页
3.2.1 数据采集	第24-25页
3.2.2 结构化信息抽取	第25页
3.3 WEB 数据定位	第25-26页
3.3.1 信息定位的优化方法	第25-26页
3.3.2 基于树路径的定位	第26页
3.3.3 基于文本的定位方式	第26页
3.4 核心模块	第26-29页
3.4.1 模块说明	第27-28页
3.4.2 流程说明	第28-29页
3.5 WEB 数据处理框架	第29-30页
3.6 系统架构	第30-38页
3.6.1 Html2DB 组件	第31-36页
3.6.2 针对系统开发的考虑	第36页
3.6.3 针对外部系统的变化考虑	第36-37页
3.6.4 性能考虑	第37-38页
3.7 本章小结	第38-39页
第四章系统实现	第39-55页
4.1 系统术语	第39页
4.2 实现思路	第39-40页
4.3 总体框架	第40-41页
4.4 页面抓取	第41-43页
4.4.1 模拟用户操作	第41-42页
4.4.2 辅助处理类	第42页
4.4.3 信息存储	第42-43页
4.5 页面解析	第43-46页
4.5.1 HTML 语法分析	第43-44页
4.5.2 页面清洗	第44页
4.5.3 正文提取	第44-46页
4.6 功能实现	第46-51页
4.6.1 功能列表	第46-47页
4.6.2 功能描述	第47-51页
4.7 系统测试与分析	第51-53页
4.7.1 压力测试	第52页
4.7.2 测试结果分析	第52-53页
4.8 本章小结	第53-55页
第五章总结与展望	第55-58页
5.1 主要结论	第55-56页
5.2 研究展望	第56-58页
参考文献	第58-60页
致谢	第60页