×
Time can be your best friend and your worst enemy depending on whether you use it or waste it.

# Note for Machine Learning and Data Mining

• Machine Learning - ML
• Other
• 447 Views
0 User(s)

#### Text from page-1

Machine Learning and Data Mining Lecture Notes CSC 411/D11 Computer Science Department University of Toronto Version: February 6, 2012 c 2010 Aaron Hertzmann and David Fleet Copyright

#### Text from page-2

CONTENTS CSC 411 / CSC D11 Contents Conventions and Notation iv 1 Introduction to Machine Learning 1.1 Types of Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 A simple problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 2 2 Linear Regression 2.1 The 1D case . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Multidimensional inputs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Multidimensional outputs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 6 8 3 Nonlinear Regression 3.1 Basis function regression . . . 3.2 Overfitting and Regularization 3.3 Artificial Neural Networks . . 3.4 K-Nearest Neighbors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 . 9 . 11 . 13 . 15 4 Quadratics 17 4.1 Optimizing a quadratic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 5 Basic Probability Theory 5.1 Classical logic . . . . . . . . . . . . . . 5.2 Basic definitions and rules . . . . . . . 5.3 Discrete random variables . . . . . . . 5.4 Binomial and Multinomial distributions 5.5 Mathematical expectation . . . . . . . . 6 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 21 22 24 25 26 Probability Density Functions (PDFs) 6.1 Mathematical expectation, mean, and variance 6.2 Uniform distributions . . . . . . . . . . . . . 6.3 Gaussian distributions . . . . . . . . . . . . . 6.3.1 Diagonalization . . . . . . . . . . . . 6.3.2 Conditional Gaussian distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 28 29 29 31 33 . . . . . 35 35 37 37 38 39 Estimation 7.1 Learning a binomial distribution . . . . 7.2 Bayes’ Rule . . . . . . . . . . . . . . . 7.3 Parameter estimation . . . . . . . . . . 7.3.1 MAP, ML, and Bayes’ Estimates 7.4 Learning Gaussians . . . . . . . . . . . c 2011 Aaron Hertzmann and David Fleet Copyright . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i

#### Text from page-3

CONTENTS CSC 411 / CSC D11 7.5 8 9 MAP nonlinear regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 Classification 8.1 Class Conditionals . . . . . . . . . . 8.2 Logistic Regression . . . . . . . . . . 8.3 Artificial Neural Networks . . . . . . 8.4 K-Nearest Neighbors Classification . 8.5 Generative vs. Discriminative models 8.6 Classification by LS Regression . . . 8.7 Na¨ıve Bayes . . . . . . . . . . . . . . 8.7.1 Discrete Input Features . . . . 8.7.2 Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 42 44 46 46 47 48 49 49 51 Gradient Descent 53 9.1 Finite differences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 10 Cross Validation 56 10.1 Cross-Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 11 Bayesian Methods 11.1 Bayesian Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Hyperparameters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3 Bayesian Model Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 60 63 63 12 Monte Carlo Methods 12.1 Sampling Gaussians . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.2 Importance Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.3 Markov Chain Monte Carlo (MCMC) . . . . . . . . . . . . . . . . . . . . . . . . 69 70 70 73 13 Principal Components Analysis 13.1 The model and learning . . 13.2 Reconstruction . . . . . . 13.3 Properties of PCA . . . . . 13.4 Whitening . . . . . . . . . 13.5 Modeling . . . . . . . . . 13.6 Probabilistic PCA . . . . . . . . . . . 75 75 76 77 78 79 79 . . . . 83 84 87 90 90 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Lagrange Multipliers 14.1 Examples . . . . . . . . . . . . . . . 14.2 Least-Squares PCA in one-dimension 14.3 Multiple constraints . . . . . . . . . . 14.4 Inequality constraints . . . . . . . . . c 2011 Aaron Hertzmann and David Fleet Copyright . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii

#### Text from page-4

CONTENTS CSC 411 / CSC D11 15 Clustering 15.1 K-means Clustering . . . . . . . . 15.2 K-medoids Clustering . . . . . . . 15.3 Mixtures of Gaussians . . . . . . . 15.3.1 Learning . . . . . . . . . . 15.3.2 Numerical issues . . . . . . 15.3.3 The Free Energy . . . . . . 15.3.4 Proofs . . . . . . . . . . . . 15.3.5 Relation to K-means . . . . 15.3.6 Degeneracy . . . . . . . . . 15.4 Determining the number of clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 92 94 95 96 97 98 99 101 101 101 16 Hidden Markov Models 16.1 Markov Models . . . . . . . . . . . . . . 16.2 Hidden Markov Models . . . . . . . . . . 16.3 Viterbi Algorithm . . . . . . . . . . . . . 16.4 The Forward-Backward Algorithm . . . . 16.5 EM: The Baum-Welch Algorithm . . . . 16.5.1 Numerical issues: renormalization 16.5.2 Free Energy . . . . . . . . . . . . 16.6 Most likely state sequences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 103 104 106 107 110 110 112 114 . . . . . . 115 115 117 118 120 121 122 . . . . . . . . . . . . . . . . . . . . 17 Support Vector Machines 17.1 Maximizing the margin . . . . . . . . . . . 17.2 Slack Variables for Non-Separable Datasets 17.3 Loss Functions . . . . . . . . . . . . . . . 17.4 The Lagrangian and the Kernel Trick . . . . 17.5 Choosing parameters . . . . . . . . . . . . 17.6 Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 AdaBoost 123 18.1 Decision stumps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 18.2 Why does it work? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 18.3 Early stopping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 c 2011 Aaron Hertzmann and David Fleet Copyright iii