摘要 | 第4-5页 |
Abstract | 第5页 |
第一章 绪论 | 第8-14页 |
1.1 选题背景、来源及意义 | 第8-9页 |
1.2 国内外研究概况 | 第9-12页 |
1.2.1 网页采集研究状况 | 第9-11页 |
1.2.2 网络藏文信息处理发展状况 | 第11-12页 |
1.3 论文主要内容及组织结构 | 第12-14页 |
1.3.1 论文主要内容 | 第12-13页 |
1.3.2 组织结构 | 第13-14页 |
第二章 网页定题采集概述 | 第14-21页 |
2.1 网页采集概述 | 第14-18页 |
2.1.1 网页采集的流程 | 第14-15页 |
2.1.2 网络爬虫工作基本原理 | 第15-17页 |
2.1.3 主题网页的采集 | 第17-18页 |
2.2 藏文网页定题采集设计思路 | 第18-19页 |
2.3 本章小结 | 第19-21页 |
第三章 藏文网页定题采集方法研究 | 第21-52页 |
3.1 藏文网页的判断 | 第21-30页 |
3.1.1 藏文基础知识 | 第21-23页 |
3.1.2 网页格式分析及判断 | 第23-25页 |
3.1.3 藏文网页的判断方法 | 第25-30页 |
3.2 藏文网页编码的判断方法 | 第30-33页 |
3.2.1 藏文编码介绍 | 第30-32页 |
3.2.2 藏文编码判断方法 | 第32-33页 |
3.3 藏文主题网页的抓取方法 | 第33-45页 |
3.3.1 采集主题的确定 | 第34-35页 |
3.3.2 网页的主题特征 | 第35-36页 |
3.3.3 藏文分词 | 第36-38页 |
3.3.4 主题相关性判定方法 | 第38-41页 |
3.3.5 网络爬虫爬行策略 | 第41-45页 |
3.4 藏文网页信息提取 | 第45-48页 |
3.4.1 网页主题抽取与信息的提取 | 第46页 |
3.4.2 正则表达式 | 第46-48页 |
3.4.3 网页解析工具 HTMLParse | 第48页 |
3.5 藏文网页编码转换 | 第48页 |
3.6 藏文网页存储 | 第48-51页 |
3.7 本章小结 | 第51-52页 |
第四章 藏文主题新闻网站采集方法的实现 | 第52-86页 |
4.1 系统的开发环境 | 第52-53页 |
4.2 HERITRIX功能模块 | 第53-55页 |
4.3 HERITRIX关键模块的改进与扩展 | 第55-67页 |
4.3.1 藏文网页的站内抓取-设计解析特定网站的解析器 Extractor | 第56-59页 |
4.3.2 藏文网页主题信息筛选-扩展 Frontierscheduler: | 第59-64页 |
4.3.3 提升网页抓取效率,消除 robots.txt 的影响 | 第64-65页 |
4.3.4 实现爬虫多线程抓取-扩展 Queue-assignment-policy | 第65-67页 |
4.4 藏文网页信息提取模块设计 | 第67-75页 |
4.4.1. 网页编码提取 | 第69-70页 |
4.4.2. 网页标题提取 | 第70-71页 |
4.4.3 网页发布时间及来源的提取 | 第71-73页 |
4.4.4 网页正文提取 | 第73-75页 |
4.5 藏文网页信息存储 | 第75-77页 |
4.6 实验与测试 | 第77-85页 |
4.6.1 网络爬虫测试 | 第77-80页 |
4.6.2 爬虫采集算法的测试 | 第80-83页 |
4.6.3 主题爬虫采集过程发现的藏文网页 | 第83-84页 |
4.6.4 藏文网页文本编码转化截图 | 第84-85页 |
4.7 本章小结 | 第85-86页 |
第五章 总结与展望 | 第86-88页 |
5.1 本文主要工作总结 | 第86页 |
5.2 下一步的工作 | 第86-88页 |
参考文献 | 第88-91页 |
读硕期间的科研情况 | 第91-92页 |
致谢 | 第92-93页 |
附录 | 第93-95页 |
附录 1 | 第93-94页 |
附录 2 | 第94-95页 |