摘要 | 第5-6页 |
ABSTRACT | 第6-7页 |
Chapter 1 Introduction | 第18-30页 |
1.1 Research Background and Significance | 第18-26页 |
1.2 Research Content | 第26-28页 |
1.3 Organization | 第28-30页 |
Chapter 2 Literature Review | 第30-44页 |
2.1 Introduction | 第30页 |
2.2 Datasets | 第30-34页 |
2.2.1 The Weizmann Human Action Dataset | 第30-31页 |
2.2.2 The KTH Human Action Dataset | 第31-32页 |
2.2.3 The UCF-101 Action Recognition Dataset | 第32页 |
2.2.4 The HMDB-51 Dataset | 第32-34页 |
2.3 Global Features Representation | 第34-36页 |
2.4 Local Features Representation | 第36-38页 |
2.5 Binary Motion Feature Extraction (Dynamic Texture) | 第38-40页 |
2.5.1 Local Binary Patterns-Based Motion Descriptors | 第38页 |
2.5.2 Patch-based Motion Descriptors | 第38-39页 |
2.5.3 Combination of Binary Descriptors with Floating-Point Descriptors | 第39-40页 |
2.6 Deep Learning Architectures | 第40-43页 |
2.6.1 3D CNN Networks | 第40-41页 |
2.6.2 Two-Stream Networks | 第41-42页 |
2.6.3 Temporal Dynamic Modeling with Temporal Pooling | 第42页 |
2.6.4 Temporal Evolution Captured with RNN | 第42-43页 |
2.7 Summary | 第43-44页 |
Chapter 3 Binary Motion Description for Action Recognition in Videos | 第44-71页 |
3.1 Introduction | 第44页 |
3.2 The Proximity Patches Pattern | 第44-47页 |
3.3 BPPEM Descriptor | 第47-49页 |
3.3.1 Overview | 第47-48页 |
3.3.2 Computation of BPPEM | 第48-49页 |
3.4 Proximity Patches Similarity Motion Descriptor | 第49-51页 |
3.4.1 Introduction to PPSM | 第49-51页 |
3.4.2 Computation of PPSM | 第51页 |
3.5 Experiment Setup | 第51-55页 |
3.5.1 Framework,Hardware and Software Specifications | 第51-53页 |
3.5.2 Evaluation Metrics | 第53-55页 |
3.6 Results and Analysis | 第55-70页 |
3.6.1 Number of Surrounding Patches | 第55-57页 |
3.6.2 SSD vs FND | 第57-58页 |
3.6.3 Temporal Distance Between two Consecutive Frames | 第58页 |
3.6.4 BPPEM | 第58-60页 |
3.6.5 eBPPEM | 第60页 |
3.6.6 PPSM | 第60-61页 |
3.6.7 ePPSM | 第61-64页 |
3.6.8 BPPEM-PPSM,and eBPPEM-ePPSM Fusions | 第64-65页 |
3.6.9 Comparision with the State-of-the-art | 第65-70页 |
3.7 Summary | 第70-71页 |
Chapter 4 Spatial Binary Descriptors for Human Action Recogni-tion | 第71-84页 |
4.1 Introduction | 第71-72页 |
4.2 FREAK, BinBoost, LATCH | 第72-77页 |
4.3 Action Recognition with FREAK,BinBoost, LATCH Appearance De-scriptors | 第77-81页 |
4.4 Binary Spatio-Temporal Descriptors with FREAK 8,BinBoost 16 andLATCH 8 as Appearance Descriptors | 第81-83页 |
4.4.1 Analysis | 第81-83页 |
4.5 Summary | 第83-84页 |
Chapter 5 3D Spatio-Temporal Binary CNNs | 第84-96页 |
5.1 Introduction | 第84页 |
5.2 Related Works | 第84-87页 |
5.2.1 3D Convolutional Networks | 第84-87页 |
5.3 Proposed Model: 3D Spatio-Temporal Binary Convolutional Network | 第87-88页 |
5.3.1 Binarized ConvNets | 第87-88页 |
5.4 3D Spatio-Temporal Binary CNNs (3D ST- BCNN) | 第88-90页 |
5.4.1 Basic Components of the 3D Spatio-Temporal Binary CNNs | 第88-89页 |
5.4.2 Binary Operations | 第89-90页 |
5.4.3 Proposed Framework | 第90页 |
5.5 Experimental Results and Analysis | 第90-95页 |
5.5.1 Evaluation with Train and Validation Sets | 第91-92页 |
5.5.2 Evaluation with Train,Validation and Test Sets | 第92-95页 |
5.6 Summary | 第95-96页 |
Chapter 6 Conclusion and Future Works | 第96-100页 |
6.1 Summary | 第96-98页 |
6.2 Future Works | 第98-100页 |
Bibliography | 第100-109页 |
Acknowledgements | 第109-110页 |
Publications | 第110-111页 |