首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

从HTML文档中基于模式的信息提取

ACKNOWLEDGEMENT第5-6页
ABSTRACT第6页
摘要第7-10页
1 Introduction第10-15页
    1.1 Motivation第10-13页
    1.2 Goal第13页
    1.3 Trends in the Field of Information Extraction第13-15页
2 Information Extraction Techniques第15-23页
    2.1 Pattern-Based Extraction of Named Entities第15-17页
        2.1.1 Named Entity Recognition第15-16页
        2.1.2 Entity Relation Detection第16-17页
    2.2 Regular Expression第17-19页
    2.3 Analyses of HTML Documents第19-23页
        2.3.1 Document Code Modeling第19-20页
        2.3.2 HTML Code Analysis第20-21页
        2.3.3 Conceptual Modeling第21页
        2.3.4 Visual Analysis of HTML Documents第21-23页
3 Visual Modeling Approach to Information Extraction第23-30页
    3.1 Visual Information Analysis第24-28页
        3.1.1 Page Layout Model第24-25页
        3.1.2 Text Attribute Model第25-27页
        3.1.3 Logical Document Structure第27-28页
    3.2 Information Extraction from the Logical Structure第28-30页
4 Design and Implementation Pattern-Based IE System第30-49页
    4.1 Technologies Analysis第30-33页
        4.1.1 HTML Retrieval API第30-32页
        4.1.2 HTML Parser API第32-33页
    4.2 System Design第33-39页
        4.2.1 User Interaction第34页
        4.2.2 User Interface Interaction第34-35页
        4.2.3 Download HTML Documents第35-36页
        4.2.4 Extract Data第36-38页
        4.2.5 Interaction Process第38-39页
    4.3 System Implementation第39-44页
        4.3.1 Generate Search URL第39-40页
        4.3.2 Download HTML Files第40-41页
        4.3.3 Implement Data Extraction第41-43页
        4.3.4 Global Interaction第43-44页
    4.4 Input/Output of Pattern-Based IE System第44-49页
5 Evaluation of Results第49-52页
6 Conclusion and Future Possibilities第52-54页
    6.1 Summary第52-53页
    6.2 Future Possibilities第53-54页
References第54-57页
Curriculum Vitae of Author第57-59页
学位论文数据集第59页

论文共59页,点击 下载论文
上一篇:基于双目立体视觉的眼球突出度测量方法研究
下一篇:MapReduce环境下的Top-k Skyline查询处理方法研究