面向政府的网络信息自动抓取的系统设计与实现

摘要	第1-5页
ABSTRACT	第5-7页
第一章绪论	第7-11页
·研究背景与选题意义	第7-9页
·研究的内容和目的	第9页
·本文所做工作	第9-10页
·论文组织	第10-11页
第二章相关技术	第11-26页
·搜索引擎的原理	第11-12页
·网页评价算法	第12-19页
·URL评价算法	第19-20页
·更新间隔估算法	第20-21页
·内容更新判断	第21-24页
·页面去重判断	第24-26页
·重复URL判断	第24页
·页面相似度判断	第24-26页
第三章系统设计	第26-48页
·体系结构	第26-29页
·数据结构	第29-31页
·数据存储	第31-34页
·几个关键问题	第34-46页
·线程管理	第34-36页
·网络爬虫以及Ajax处理	第36-44页
·网页清洗	第44-46页
·系统配置	第46-48页
第四章系统实现	第48-57页
·网页下载	第48-51页
·内容解析	第51-52页
·锚文本	第52页
·链接分析器	第52-53页
·异常处理策略	第53页
·对象动态注入	第53-54页
·事件记录	第54-55页
·在实际系统中的应用	第55-57页
第五章结束语	第57-59页
·本文总结	第57-58页
·改进方向	第58-59页
参考文献	第59-61页
致谢	第61-62页