Web信息抽取在书签系统中的应用研究与实现

摘要	第1-4页
Abstract	第4-5页
目录	第5-7页
1 绪论	第7-12页
·研究背景	第7-9页
·研究现状	第9-10页
·本文的主要内容与论文结构	第10-12页
2 相关知识与技术	第12-25页
·Web书签	第12-15页
·传统浏览器书签	第12-13页
·浏览器书签同步服务	第13-14页
·社会化书签系统	第14-15页
·系统实现中的相关技术	第15-18页
·Python语言	第16页
·Tornado Web Server	第16-17页
·MongoDB	第17页
·Web前端	第17-18页
·Web网页信息抽取	第18-21页
·HTML简介	第19-20页
·网页信息抽取方法	第20-21页
·标记系统	第21-24页
·标记的价值	第21-22页
·标记陷阱	第22-23页
·标签推荐	第23-24页
·本章小结	第24-25页
3 Web网页信息抽取的实现	第25-49页
·Web信息处理流程	第25-26页
·Goose项目及其存在的问题	第26-27页
·将Goose移植到Python3	第27-28页
·引入中文分词系统	第28-30页
·Web数据抓取	第30-33页
·基本的Web数据抓取与存在的问题	第30-31页
·Tornado异步Web请求	第31-32页
·Tornado网页抓取	第32-33页
·字符编码问题	第33-38页
·字符集与编码	第34-36页
·编码识别	第36-38页
·改进的Goose信息抽取算法	第38-46页
·lxml与ElementTree	第38-39页
·预处理	第39-42页
·获取网页元数据	第42页
·正文抽取过程	第42-43页
·正文格式化处理	第43页
·测试信息抽取	第43-46页
·标签推荐	第46-47页
·网页摘要	第47-48页
·本章小结	第48-49页
4 书签系统设计与实现	第49-69页
·系统设计	第49-50页
·Web服务设计	第50-52页
·数据库设计	第52-55页
·开发环境	第55-60页
·基本环境安装	第56-58页
·MongoDB安装	第58-60页
·Web客户端实现	第60-64页
·浏览器插件实现	第64-65页
·全文搜索实现	第65-68页
·本章小结	第68-69页
5 总结与展望	第69-72页
·总结	第69-70页
·展望	第70-72页
致谢	第72-73页
参考文献	第73-75页