面向统计数据的网络信息抓取系统设计与实现--以上海市社会经济决策咨询GIS系统数据更新为例

摘要	第1-7页
ABSTRACT	第7-10页
第一章绪论	第10-14页
·研究背景	第10页
·研究内容	第10-11页
·研究意义	第11-12页
·系统框架	第12页
·组织结构	第12-14页
第二章相关研究进展	第14-18页
·上海市社会经济决策咨询GIS系统	第14-15页
·网络信息抓取技术研究现状	第15-18页
·网页解析器	第15页
·网络爬虫	第15-16页
·中文分词	第16-18页
第三章社会经济统计数据特征分析	第18-21页
·总体特征分析	第18页
·系统数据特征分析	第18-19页
·数据抓取来源特点分析	第19-21页
第四章网页解析	第21-41页
·网页的DOM树	第21-22页
·核心技术：Parser类	第22-23页
·Parser类的过滤器：Filter类	第23-24页
·网页解析流程	第24-25页
·结构化网页解析	第25-34页
·统计年鉴目录获取	第26-27页
·表格网页的结构	第27-28页
·TableRow和TableColumn	第28-30页
·rowspan和colspan	第30页
·表格数据解析和提取	第30-34页
·普通文本网页解析	第34-41页
·统计公报列表获取	第36页
·网页主体内容抽取	第36-39页
·统计公报数据提取	第39-41页
第五章文本信息提取	第41-46页
·中文分词技术	第41-43页
·分词词典	第41-42页
·基于统计的分词算法	第42-43页
·社会经济指标数据提取	第43-46页
·简单匹配	第43-44页
·前瞻搜索和后视搜索	第44-45页
·指标数据特殊情况处理	第45-46页
第六章异构数据解析	第46-49页
·异构数据表现形式	第46页
·DOC文档解析	第46-47页
·PDF文档解析	第47-49页
第七章系统运行情况及分析	第49-53页
·系统数据更新	第49-51页
·统计年鉴数据更新	第49-50页
·统计公报数据更新	第50-51页
·系统运行结果	第51-53页
第八章总结与展望	第53-54页
·论文成果总结	第53页
·未来展望	第53-54页
参考文献	第54-57页
后记	第57页