中文摘要 | 第1-4页 |
英文摘要 | 第4-7页 |
1 Introduction | 第7-21页 |
·Motivation and Background | 第7-8页 |
·Overview of Information Extraction | 第8-18页 |
·MUC Tasks and Evaluations | 第9-11页 |
·Approaches and Systems employed in Information Extraction | 第11-16页 |
·Information Extraction from Web Data | 第16-18页 |
·Parallel Bilingual data acquisition | 第18-20页 |
·Extract bilingual translation pair from parallel corpus | 第19页 |
·Bilingual translation pair extraction from the web | 第19-20页 |
·Organization of This Paper | 第20-21页 |
2 Collective bilingual translation Pair acquisition from web | 第21-32页 |
·Problem Definition | 第21-22页 |
·Challenge | 第22页 |
·Overview of method employed | 第22-23页 |
·Related Work | 第23-32页 |
·Web Page Segmentation | 第23-25页 |
·Text categorization | 第25-26页 |
·Learning to Rank | 第26-28页 |
·Support Vector Machine in Text Categorization and ranking | 第28-32页 |
3 Integration extraction scheme for mining collective translation pair | 第32-43页 |
·System Architecture | 第32-33页 |
·Collective Translation Pairs Block (CTPB) Identification | 第33-34页 |
·Criteria for Detection of CTPB | 第34页 |
·Pattern Learning | 第34-41页 |
·Repeated Patterns Discovery | 第35-37页 |
·Repeated Patterns Ranking | 第37-38页 |
·Extraction Patterns Generation | 第38-41页 |
·Translation Pairs Extraction and Verification | 第41-43页 |
·Features for Translation Pairs Verification | 第41-43页 |
4 Experimental Results and Evaluation | 第43-51页 |
·Experimental Setup | 第43-44页 |
·Evaluation on Overall framework | 第44-45页 |
·Evaluation on Mining Efficiency | 第44页 |
·Evaluation on Mining Accuracy | 第44-45页 |
·Evaluation on CTPB Identification | 第45-47页 |
·Evaluation on Pattern Learning | 第47-49页 |
·Performance Evaluation | 第47-48页 |
·Pattern Ranking Evaluation | 第48-49页 |
·Evaluation on Translation Pairs Verification | 第49-51页 |
·Baseline System | 第49页 |
·Experimental Results | 第49-51页 |
5 Discussion | 第51-53页 |
6 Conclusions and Future Work | 第53-54页 |
Acknowledgements | 第54-55页 |
Reference | 第55-60页 |
Appendix | 第60页 |