基于CRF的Web机构实体信息抽取系统

摘要	第1-6页
Abstract	第6-10页
第1章绪论	第10-14页
·搜索引擎与抽取技术	第10-11页
·研究现状	第11-12页
·本文研究内容及组织架构	第12-14页
第2章关键技术	第14-17页
·网页分类	第14-15页
·条件随机场	第15-17页
第3章机构实体信息抽取系统的需求和框架设计	第17-21页
·系统需求分析	第17-19页
·元数据抽取	第17-18页
·机构实体信息抽取系统的目标	第18-19页
·系统的框架结构	第19-21页
第4章官方机构实体信息网页分类模块	第21-37页
·特征的选择和表示	第22-26页
·网页特征的选择	第22-24页
·特征及其表示方法	第24-26页
·分类过程的实现方法	第26-29页
·建立模型	第26-27页
·分类过程	第27-29页
·实验结果	第29-37页
·数据的准备	第29-30页
·分类器的准确率	第30-32页
·置信度阈值的选取	第32-33页
·地址特征的分析	第33-35页
·锚特征的效果验证	第35页
·与基于规则的分类器进行对比	第35-37页
第5章基于层叠条件随机场的网页抽取模块	第37-47页
·网页抽取面临的困难	第37-38页
·层叠条件随机场模型	第38-46页
·高层基于树形的条件随机场模型	第40-44页
·低层属性标注条件随机场模型	第44-46页
·实验结果	第46-47页
第6章总结与展望	第47-49页
·本文总结	第47-48页
·展望	第48-49页
参考文献	第49-51页
作者简介及在学期间所取得的科研成果	第51-52页
致谢	第52页