网站自动摘要及其若干关键技术研究

摘要	第6-8页
ABSTRACT	第8-10页
第一章绪论	第13-20页
1.1 引言	第13页
1.2 研究的背景与意义	第13-14页
1.3 研究发展现状	第14-16页
1.4 关键问题	第16-17页
1.5 本文的主要工作	第17页
1.6 本文的特色与创新之处	第17-18页
1.7 本文的组织结构	第18-20页
第二章相关研究工作	第20-28页
2.1 文本自动摘要	第20-24页
2.1.1 文本自动摘要的分类	第20-21页
2.1.2 传统文本自动摘要的主流技术	第21-23页
2.1.3 Web文本自动摘要的主流技术	第23-24页
2.2 网页正文抽取技术	第24-27页
2.3 本章小结	第27-28页
第三章网站内容抽取	第28-40页
3.1 方法提出的背景	第29-32页
3.2 网站内容抽取算法	第32-36页
3.2.1 宽度优先网页抓取策略	第32-33页
3.2.2 网页文本抽取技术	第33-35页
3.2.3 网站内容抽取算法	第35-36页
3.3 实验	第36-39页
3.3.1 实验平台和数据	第36-37页
3.3.2 实验流程	第37页
3.3.3 实验结果和分析	第37-39页
3.4 本章小结	第39-40页
第四章基于网站层次结构和主题模型LDA的学术机构网站摘要算法	第40-53页
4.1 主题模型LDA	第40-42页
4.2 文本的物理结构特征	第42-43页
4.3 文本的网站结构特征	第43-44页
4.4 基于网站层次结构和主题模型LDA的学术机构网站摘要算法	第44-47页
4.4.1 句子的LDA主题特征	第45-46页
4.4.2 句子的网站结构特征	第46-47页
4.5 H-LDA算法流程	第47-48页
4.6 实验	第48-49页
4.7 评测方法	第49-52页
4.8 本章小结	第52-53页
第五章基于搜索引擎和主题模型LDA的大型综合网站摘要算法	第53-62页
5.1 方法提出的背景	第54-55页
5.2 网站描述信息获取方法	第55-56页
5.3 SE-LDA算法流程	第56-58页
5.4 实验	第58-60页
5.5 本章小结	第60-62页
第六章总结和展望	第62-64页
6.1 全文工作总结	第62-63页
6.2 未来工作展望	第63-64页
参考文献	第64-67页
附录一作者攻读硕士学位期间发表的学术论文	第67-68页
附录二作者攻读硕士学位期间获得的知识产权	第68-69页
附录三作者攻读硕士学位期间参与的科研项目	第69-70页
后记	第70页