摘要 | 第1-4页 |
ABSTRACT | 第4-7页 |
第一章 引言 | 第7-10页 |
·研究背景 | 第7-8页 |
·研究现状 | 第8页 |
·本文的研究内容 | 第8-9页 |
·本文的结构安排 | 第9-10页 |
第二章 信息抽取技术 | 第10-27页 |
·WEB信息抽取 | 第10-15页 |
·Web信息抽取背景及其分类 | 第10-13页 |
·Web信息抽取的任务 | 第13-15页 |
·中文命名实体识别 | 第15-20页 |
·命名实体识别的任务 | 第15页 |
·中文命名实体识别的困难 | 第15-18页 |
·前人的相关工作 | 第18-20页 |
·基于规则的方法 | 第18-19页 |
·基于统计的方法 | 第19页 |
·统计与规则相结合的方法 | 第19-20页 |
·语言模型 | 第20-27页 |
·N元模型 | 第21-23页 |
·基于类的语言模型 | 第23-24页 |
·马尔可夫模型 | 第24-25页 |
·隐马尔可夫模型 | 第25-27页 |
第三章 WEB招聘信息抽取系统设计 | 第27-51页 |
·系统目标和分析 | 第27-29页 |
·系统目标 | 第27页 |
·系统分析 | 第27-29页 |
·SPIDER的构建 | 第29-31页 |
·Spider的工作原理 | 第29-30页 |
·Spider的实现 | 第30-31页 |
·预处理 | 第31-37页 |
·HTML/XML标签过滤 | 第31-35页 |
·词性标注 | 第35-37页 |
·机构名识别 | 第37-41页 |
·机构名识别现状 | 第37页 |
·机构名识别理论基础 | 第37-39页 |
·知识库的获取 | 第39-40页 |
·机构名识别 | 第40-41页 |
·地名识别 | 第41-45页 |
·中文地名识别的现状 | 第41页 |
·中文地名的特点 | 第41页 |
·中文地名识别模型 | 第41-45页 |
·基本定义 | 第41-43页 |
·识别资源 | 第43页 |
·算法模型 | 第43-45页 |
·联系方式识别 | 第45-47页 |
·联系方式识别 | 第47-49页 |
·电话号码的识别 | 第47-48页 |
·E-mail的识别 | 第48-49页 |
·关系抽取 | 第49-51页 |
第四章 系统的实现与测试 | 第51-58页 |
·系统的实现 | 第51-53页 |
·系统的测试 | 第53-58页 |
·Spider部分 | 第53-54页 |
·Name Entity Recognition部分 | 第54-58页 |
第五章 总结与展望 | 第58-60页 |
·论文工作总结 | 第58页 |
·展望 | 第58-60页 |
参考文献 | 第60-63页 |
硕士期间参加的课题与发表的文章 | 第63-64页 |
致谢 | 第64-65页 |
附录 | 第65-70页 |
附录一(汉语文本词性标注标记集) | 第65-67页 |
附录二(部分公司名录) | 第67-68页 |
附录三(部分机构名后缀) | 第68-69页 |
附录四(部分职位名) | 第69-70页 |
附录五(部分区号列表) | 第70页 |