蒙古文网页抓取及编码识别转换研究
摘要 | 第1-5页 |
ABSTRACT | 第5-9页 |
引言 | 第9-11页 |
第一章 网络蜘蛛SPIDER的工作原理 | 第11-27页 |
·搜索引擎概述 | 第11-12页 |
·网络蜘蛛基本原理 | 第12-13页 |
·网络蜘蛛搜索策略 | 第13-16页 |
·宽度优先搜索策略 | 第14页 |
·深度优先搜索策略 | 第14-15页 |
·垂直搜索策略 | 第15-16页 |
·网络蜘蛛组成部分 | 第16-27页 |
·URL解析 | 第16-20页 |
·获取远程Web服务器的页面 | 第20-22页 |
·网页分析算法 | 第22-24页 |
·去除网页中的标签 | 第24-27页 |
第二章 蒙古文编码的多样性 | 第27-29页 |
·蒙古文编码多样性 | 第27-28页 |
·蒙古文编码多样实例化说明 | 第28-29页 |
第三章 不同蒙古文网页编码识别 | 第29-39页 |
·不同蒙古文编码的范围 | 第29-30页 |
·蒙古文编码识别原则 | 第30页 |
·蒙古文网页识别算法 | 第30-37页 |
·基于蒙古文编码非重叠区域的编码识别方法 | 第31-32页 |
·基于蒙古文助词与标点特征字符识别 | 第32-33页 |
·基于字频分布的编码识别 | 第33-36页 |
·基于贝叶斯分类的编码识别 | 第36-37页 |
·几种编码识别方法比较 | 第37-39页 |
第四章 蒙古文网页编码转换 | 第39-43页 |
·蒙古文编码转换由来 | 第39页 |
·蒙古文转换的原则 | 第39-41页 |
·蒙古文编码转换 | 第41-43页 |
第五章 总结和展望 | 第43-46页 |
参考文献 | 第46-49页 |
致谢 | 第49页 |