蒙古文网页抓取及编码识别转换研究

摘要	第1-5页
ABSTRACT	第5-9页
引言	第9-11页
第一章网络蜘蛛SPIDER的工作原理	第11-27页
·搜索引擎概述	第11-12页
·网络蜘蛛基本原理	第12-13页
·网络蜘蛛搜索策略	第13-16页
·宽度优先搜索策略	第14页
·深度优先搜索策略	第14-15页
·垂直搜索策略	第15-16页
·网络蜘蛛组成部分	第16-27页
·URL解析	第16-20页
·获取远程Web服务器的页面	第20-22页
·网页分析算法	第22-24页
·去除网页中的标签	第24-27页
第二章蒙古文编码的多样性	第27-29页
·蒙古文编码多样性	第27-28页
·蒙古文编码多样实例化说明	第28-29页
第三章不同蒙古文网页编码识别	第29-39页
·不同蒙古文编码的范围	第29-30页
·蒙古文编码识别原则	第30页
·蒙古文网页识别算法	第30-37页
·基于蒙古文编码非重叠区域的编码识别方法	第31-32页
·基于蒙古文助词与标点特征字符识别	第32-33页
·基于字频分布的编码识别	第33-36页
·基于贝叶斯分类的编码识别	第36-37页
·几种编码识别方法比较	第37-39页
第四章蒙古文网页编码转换	第39-43页
·蒙古文编码转换由来	第39页
·蒙古文转换的原则	第39-41页
·蒙古文编码转换	第41-43页
第五章总结和展望	第43-46页
参考文献	第46-49页
致谢	第49页