藏文网页定题采集方法研究

摘要	第4-5页
Abstract	第5页
第一章绪论	第8-14页
1.1 选题背景、来源及意义	第8-9页
1.2 国内外研究概况	第9-12页
1.2.1 网页采集研究状况	第9-11页
1.2.2 网络藏文信息处理发展状况	第11-12页
1.3 论文主要内容及组织结构	第12-14页
1.3.1 论文主要内容	第12-13页
1.3.2 组织结构	第13-14页
第二章网页定题采集概述	第14-21页
2.1 网页采集概述	第14-18页
2.1.1 网页采集的流程	第14-15页
2.1.2 网络爬虫工作基本原理	第15-17页
2.1.3 主题网页的采集	第17-18页
2.2 藏文网页定题采集设计思路	第18-19页
2.3 本章小结	第19-21页
第三章藏文网页定题采集方法研究	第21-52页
3.1 藏文网页的判断	第21-30页
3.1.1 藏文基础知识	第21-23页
3.1.2 网页格式分析及判断	第23-25页
3.1.3 藏文网页的判断方法	第25-30页
3.2 藏文网页编码的判断方法	第30-33页
3.2.1 藏文编码介绍	第30-32页
3.2.2 藏文编码判断方法	第32-33页
3.3 藏文主题网页的抓取方法	第33-45页
3.3.1 采集主题的确定	第34-35页
3.3.2 网页的主题特征	第35-36页
3.3.3 藏文分词	第36-38页
3.3.4 主题相关性判定方法	第38-41页
3.3.5 网络爬虫爬行策略	第41-45页
3.4 藏文网页信息提取	第45-48页
3.4.1 网页主题抽取与信息的提取	第46页
3.4.2 正则表达式	第46-48页
3.4.3 网页解析工具 HTMLParse	第48页
3.5 藏文网页编码转换	第48页
3.6 藏文网页存储	第48-51页
3.7 本章小结	第51-52页
第四章藏文主题新闻网站采集方法的实现	第52-86页
4.1 系统的开发环境	第52-53页
4.2 HERITRIX功能模块	第53-55页
4.3 HERITRIX关键模块的改进与扩展	第55-67页
4.3.1 藏文网页的站内抓取-设计解析特定网站的解析器 Extractor	第56-59页
4.3.2 藏文网页主题信息筛选-扩展 Frontierscheduler:	第59-64页
4.3.3 提升网页抓取效率，消除 robots.txt 的影响	第64-65页
4.3.4 实现爬虫多线程抓取-扩展 Queue-assignment-policy	第65-67页
4.4 藏文网页信息提取模块设计	第67-75页
4.4.1. 网页编码提取	第69-70页
4.4.2. 网页标题提取	第70-71页
4.4.3 网页发布时间及来源的提取	第71-73页
4.4.4 网页正文提取	第73-75页
4.5 藏文网页信息存储	第75-77页
4.6 实验与测试	第77-85页
4.6.1 网络爬虫测试	第77-80页
4.6.2 爬虫采集算法的测试	第80-83页
4.6.3 主题爬虫采集过程发现的藏文网页	第83-84页
4.6.4 藏文网页文本编码转化截图	第84-85页
4.7 本章小结	第85-86页
第五章总结与展望	第86-88页
5.1 本文主要工作总结	第86页
5.2 下一步的工作	第86-88页
参考文献	第88-91页
读硕期间的科研情况	第91-92页
致谢	第92-93页
附录	第93-95页
附录 1	第93-94页
附录 2	第94-95页