AntiSpam中全文分词技术的实现与应用研究

摘要	第1-4页
Abstract	第4-8页
第一章绪论	第8-12页
·研究背景概述	第8-9页
·论文的选题意义	第9-10页
·课题来源及主要研究内容	第10页
·课题的来源	第10页
·主要研究内容	第10页
·本文的结构	第10-12页
第二章垃圾邮件的由来及技术现状	第12-21页
·垃圾邮件的产生	第12-13页
·邮件协议及其漏洞	第13-16页
·电子邮件的工作原理	第13-14页
·SMTP协议及漏洞	第14-16页
·Open Relay	第16页
·垃圾邮件过滤技术的现状	第16-19页
·服务器端和客户端的邮件过滤	第16-17页
·基于IP地址过滤	第17-18页
·基于信封和信头过滤	第18页
·基于内容的过滤技术	第18-19页
·本章小结	第19-21页
第三章汉语词法分析技术综述	第21-33页
·汉语词法分析	第21-31页
·汉语词法分析的任务	第22页
·数据结构:词图(Word Graph)	第22-23页
·词典查询与重叠词、离合词和前后缀的处理	第23页
·不考虑未定义词的切分排歧	第23-26页
·未定义词识别	第26-29页
·考虑未定义词的切分排歧	第29页
·词性标注	第29-30页
·词法分析的流程	第30-31页
·现有的汉语分词方法	第31-33页
第四章全文分词系统设计与算法	第33-51页
·相关算法与原理简介	第33-35页
·隐马尔可夫模型	第33-34页
·Viterbi算法	第34页
·贪心(婪)算法	第34-35页
·大数定理	第35页
·贝叶斯公式	第35页
·动态规划	第35页
·系统总体设计	第35-40页
·隐马尔可夫模型在分词中的应用	第37页
·层叠隐马模型和汉语词法分析	第37-40页
·基于 N-最短路径方法的中文词语粗分模型	第40-44页
·基本思想	第40页
·模型求解	第40-41页
·N-最短路径求解与复杂度分析	第41-42页
·基于 N-最短路径的统计粗分模型	第42-44页
·基于角色标注的嵌套未登录词识别	第44-49页
·简介	第44-46页
·基于角色标注的中文机构名自动识别方法	第46-48页
·角色信息的自动抽取	第48-49页
·自动识别的最终实现	第49页
·结论	第49-51页
第五章全文分词系统的测试及分析	第51-60页
·汉语自动分词的难点	第51页
·分词系统性能评价	第51-52页
·训练语料库的选择	第52-54页
·实验与分析	第54-58页
·系统集成测试	第54-56页
·粗分模型测试	第56-58页
·语料库加工的标记实例	第58-60页
第六章总结与展望	第60-61页
·研究结论	第60页
·研究展望	第60-61页
致谢	第61-62页
参考文献	第62-64页
攻读硕士学位期间发表论文情况	第64页