首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

面向统计数据的网络信息抓取系统设计与实现--以上海市社会经济决策咨询GIS系统数据更新为例

摘要第1-7页
ABSTRACT第7-10页
第一章 绪论第10-14页
   ·研究背景第10页
   ·研究内容第10-11页
   ·研究意义第11-12页
   ·系统框架第12页
   ·组织结构第12-14页
第二章 相关研究进展第14-18页
   ·上海市社会经济决策咨询GIS系统第14-15页
   ·网络信息抓取技术研究现状第15-18页
     ·网页解析器第15页
     ·网络爬虫第15-16页
     ·中文分词第16-18页
第三章 社会经济统计数据特征分析第18-21页
   ·总体特征分析第18页
   ·系统数据特征分析第18-19页
   ·数据抓取来源特点分析第19-21页
第四章 网页解析第21-41页
   ·网页的DOM树第21-22页
   ·核心技术:Parser类第22-23页
   ·Parser类的过滤器:Filter类第23-24页
   ·网页解析流程第24-25页
   ·结构化网页解析第25-34页
     ·统计年鉴目录获取第26-27页
     ·表格网页的结构第27-28页
     ·TableRow和TableColumn第28-30页
     ·rowspan和colspan第30页
     ·表格数据解析和提取第30-34页
   ·普通文本网页解析第34-41页
     ·统计公报列表获取第36页
     ·网页主体内容抽取第36-39页
     ·统计公报数据提取第39-41页
第五章 文本信息提取第41-46页
   ·中文分词技术第41-43页
     ·分词词典第41-42页
     ·基于统计的分词算法第42-43页
   ·社会经济指标数据提取第43-46页
     ·简单匹配第43-44页
     ·前瞻搜索和后视搜索第44-45页
     ·指标数据特殊情况处理第45-46页
第六章 异构数据解析第46-49页
   ·异构数据表现形式第46页
   ·DOC文档解析第46-47页
   ·PDF文档解析第47-49页
第七章 系统运行情况及分析第49-53页
   ·系统数据更新第49-51页
     ·统计年鉴数据更新第49-50页
     ·统计公报数据更新第50-51页
   ·系统运行结果第51-53页
第八章 总结与展望第53-54页
   ·论文成果总结第53页
   ·未来展望第53-54页
参考文献第54-57页
后记第57页

论文共57页,点击 下载论文
上一篇:教育资源云平台的研究与应用
下一篇:基于信息增益的互联网二元关系抽取