用于个性推荐系统的文本爬虫设计与实现

摘要	第1-6页
Abstract	第6-8页
目录	第8-10页
第一章绪论	第10-20页
·研究背景与意义	第10-12页
·本课题的研究进展	第12-17页
·通用网络爬虫发展现状	第12-14页
·主题网络爬虫发展现状	第14-17页
·本文主要研究内容	第17页
·研究目标	第17页
·研究内容	第17页
·论文的组织结构	第17-20页
第二章网络爬虫关键技术分析	第20-34页
·体系结构	第20-23页
·基本组成	第20-21页
·网络爬虫的工作流程	第21-23页
·相关工作概念	第23-24页
·网页的分布特性	第24-25页
·Hub/Authority特性	第24页
·Linkage/Sibling Locality特性	第24-25页
·隧道特性	第25页
·站点主题特性	第25页
·搜索策略	第25-30页
·robots.txt文件和META标签	第25-26页
·搜索策略概述	第26-30页
·网页正文提取算法	第30-32页
·基于DOM树的网页正文提取方法	第30-31页
·基于文本及标签分布的网页正文提取技术	第31-32页
·URL消重算法	第32-33页
·小结	第33-34页
第三章个性推荐系统中文本爬虫的设计与实现	第34-62页
·网络爬虫的概要设计	第34-36页
·系统详细设计	第36-47页
·系统运行流程与各模块功能	第36-38页
·系统分步流程设计	第38-43页
·数据库设计	第43-44页
·用户界面的设计	第44-47页
·系统主要模块的实现	第47-59页
·URL相关度计算	第48-51页
·网页编码转换	第51-54页
·URL提取	第54-56页
·URL消重	第56-57页
·标签节点的过滤	第57-58页
·网页正文提取	第58-59页
·小结	第59-62页
第四章爬虫系统测试及效果分析	第62-68页
·测试准备	第62-63页
·结果与分析	第63-67页
·小结	第67-68页
第五章结论与展望	第68-70页
·结论	第68-69页
·展望	第69-70页
参考文献	第70-74页
致谢	第74-76页
个人简历、在学期间发表的论文与研究成果	第76页