藏文网页自动发现与采集技术研究

摘要	第1-5页
Abstract	第5-10页
第一章绪论	第10-14页
·课题背景及研究的目的和意义	第10页
·课题在国内外研究状况	第10-12页
·国外的研究状况	第10-11页
·国内的研究状况	第11-12页
·新研究需求的产生	第12页
·论文的主要研究内容	第12-13页
·论文的技术路线	第12页
·论文的主要工作难点	第12-13页
·试验设计方案	第13页
·论文的组织结构	第13-14页
第二章工作基础	第14-26页
·分析网页自动发现与采集面临的主要问题	第14-16页
·网页的规模	第14页
·采集的效率	第14-15页
·网页信息的提取	第15页
·网页的识别和判定	第15页
·网页编码的多样性	第15-16页
·分析网页信息采集的关键技术	第16-21页
·网页主题相关性判定	第16-18页
·网页信息采集策略	第18-20页
·网页采集线程调度策略	第20-21页
·网页采集系统的基本原理与功能结构	第21-25页
·基本原理	第21-22页
·功能需求	第22页
·体系结构	第22-23页
·访问规范	第23-24页
·网页采集流程	第24-25页
·本章小结	第25-26页
第三章藏文网页自动发现与采集技术	第26-50页
·藏文的特点	第26-27页
·藏文网页的识别	第27-30页
·基于藏文网页文本节点特征的识别方法	第27页
·基于藏文文字音节点特征的识别方法	第27-28页
·基于藏文高频音节统计学特征的识别方法	第28-29页
·识别方案的构建和分析	第29-30页
·藏文网页编码的识别与转换	第30-41页
·藏文网页编码转换的必要性	第30页
·藏文编码类型与范围	第30-32页
·藏文编码模式分析	第32页
·藏文网页编码的识别方法	第32-35页
·藏文网页编码的转换方案设计	第35-41页
·藏文网页的判定	第41-44页
·阈值的选取	第41-43页
·藏文网页的判定算法	第43页
·算法的性能和对比分析	第43-44页
·藏文网页自动发现与采集技术	第44-49页
·藏文网页种子URL 的选取	第44页
·藏文网页采集策略	第44-45页
·藏文网页HTML 解析	第45-47页
·藏文网页存储技术	第47-49页
·本章小结	第49-50页
第四章藏文网页自动发现与采集系统的初步实现	第50-67页
·TS 系统框架	第50页
·各功能模块的设计与实现	第50-59页
·TS 系统网络模块	第51-52页
·系统数据库模块	第52-53页
·藏文网页识别模块	第53-55页
·藏文网页编码转换模块	第55-58页
·其他辅助模块	第58-59页
·系统测试结果	第59-67页
·藏文网页采集和搜索测试	第59-61页
·藏文网页存储测试	第61-63页
·藏文网页识别和编码转换测试	第63-67页
第五章结束语	第67-69页
·总结	第67-68页
·展望	第68-69页
参考文献	第69-72页
在校期间研究成果	第72-73页
致谢	第73页