ABSTRACT | 第5-6页 |
摘要 | 第7-9页 |
ACKNOWLEDGEMENTS | 第9-10页 |
DEDICATION | 第10-16页 |
LIST OF ABBREVIATIONS | 第16-17页 |
Chapter ONE: INTRODUCTION | 第17-21页 |
1. Background | 第17-21页 |
1.1 Thesis Structure | 第19-21页 |
Chapter TWO: TEXT PREPROCESSING | 第21-29页 |
2. Cleaning and Preparing Text Data | 第21-29页 |
2.1 Removal of Punctuation Marks | 第22-23页 |
2.2 Stop-word Removal | 第23-24页 |
2.3 Stemming-determining the base form of a word | 第24-26页 |
2.4 Lemmatization-determining the base form of a word using dictionary | 第26-27页 |
2.5 Tokenization-extracting word tokens | 第27页 |
2.6 Tagging-syntax highlighting | 第27-28页 |
2.7 Text Chunking-grouping words | 第28页 |
2.8 Parsing | 第28-29页 |
Chapter THREE: LANGUAGE MODELING | 第29-77页 |
3. Methods of Language Modeling | 第29-77页 |
3.1 Term Frequency-Inverse Document Frequency (TF-IDF) | 第29-32页 |
3.2 N-grams | 第32-35页 |
3.3 Singular Value Decomposition (SVD) | 第35-40页 |
3.4 Neural Network Based Language Modeling | 第40-49页 |
3.5 Convolutional Neural Network Language Models | 第49-57页 |
3.6 Recurrent Neural Network Language Models | 第57-67页 |
3.7 Word2vec-Vector Representation of Words | 第67-73页 |
3.8 Glo Ve-Global Vectors for Word Representation | 第73-77页 |
Chapter FOUR: CLUSTERING TEXT DATA | 第77-91页 |
4. Methods for Clustering Texts | 第77-91页 |
4.1 K-means Algorithm | 第77-80页 |
4.2 Hierarchical Clustering | 第80-81页 |
4.3 Spectral clustering | 第81-83页 |
4.4 Clustering using RNNs | 第83-88页 |
4.5 Convolutional Clustering | 第88-91页 |
Chapter FIVE: IMPLEMENTING THE LANGUAGE MODEL | 第91-104页 |
5. Clustering Scientific Papers Based on Word Vectors | 第91-104页 |
5.1 Data Collection | 第91-92页 |
5.2 Technical Specification | 第92-93页 |
5.3 Cleaning and Preparing the Text Data | 第93-94页 |
5.4 Creating the Language Model | 第94-95页 |
5.5 Capturing Linguistic Similarity Between Papers | 第95-96页 |
5.6 Results | 第96-104页 |
Conclusion | 第104-106页 |
REFERENCES | 第106-110页 |