Web信息抽取在书签系统中的应用研究与实现
| 摘要 | 第1-4页 |
| Abstract | 第4-5页 |
| 目录 | 第5-7页 |
| 1 绪论 | 第7-12页 |
| ·研究背景 | 第7-9页 |
| ·研究现状 | 第9-10页 |
| ·本文的主要内容与论文结构 | 第10-12页 |
| 2 相关知识与技术 | 第12-25页 |
| ·Web书签 | 第12-15页 |
| ·传统浏览器书签 | 第12-13页 |
| ·浏览器书签同步服务 | 第13-14页 |
| ·社会化书签系统 | 第14-15页 |
| ·系统实现中的相关技术 | 第15-18页 |
| ·Python语言 | 第16页 |
| ·Tornado Web Server | 第16-17页 |
| ·MongoDB | 第17页 |
| ·Web前端 | 第17-18页 |
| ·Web网页信息抽取 | 第18-21页 |
| ·HTML简介 | 第19-20页 |
| ·网页信息抽取方法 | 第20-21页 |
| ·标记系统 | 第21-24页 |
| ·标记的价值 | 第21-22页 |
| ·标记陷阱 | 第22-23页 |
| ·标签推荐 | 第23-24页 |
| ·本章小结 | 第24-25页 |
| 3 Web网页信息抽取的实现 | 第25-49页 |
| ·Web信息处理流程 | 第25-26页 |
| ·Goose项目及其存在的问题 | 第26-27页 |
| ·将Goose移植到Python3 | 第27-28页 |
| ·引入中文分词系统 | 第28-30页 |
| ·Web数据抓取 | 第30-33页 |
| ·基本的Web数据抓取与存在的问题 | 第30-31页 |
| ·Tornado异步Web请求 | 第31-32页 |
| ·Tornado网页抓取 | 第32-33页 |
| ·字符编码问题 | 第33-38页 |
| ·字符集与编码 | 第34-36页 |
| ·编码识别 | 第36-38页 |
| ·改进的Goose信息抽取算法 | 第38-46页 |
| ·lxml与ElementTree | 第38-39页 |
| ·预处理 | 第39-42页 |
| ·获取网页元数据 | 第42页 |
| ·正文抽取过程 | 第42-43页 |
| ·正文格式化处理 | 第43页 |
| ·测试信息抽取 | 第43-46页 |
| ·标签推荐 | 第46-47页 |
| ·网页摘要 | 第47-48页 |
| ·本章小结 | 第48-49页 |
| 4 书签系统设计与实现 | 第49-69页 |
| ·系统设计 | 第49-50页 |
| ·Web服务设计 | 第50-52页 |
| ·数据库设计 | 第52-55页 |
| ·开发环境 | 第55-60页 |
| ·基本环境安装 | 第56-58页 |
| ·MongoDB安装 | 第58-60页 |
| ·Web客户端实现 | 第60-64页 |
| ·浏览器插件实现 | 第64-65页 |
| ·全文搜索实现 | 第65-68页 |
| ·本章小结 | 第68-69页 |
| 5 总结与展望 | 第69-72页 |
| ·总结 | 第69-70页 |
| ·展望 | 第70-72页 |
| 致谢 | 第72-73页 |
| 参考文献 | 第73-75页 |