×
Failure will never overtake me if my determination to succeed is strong enough.
--Your friends at LectureNotes
Close

Note for Data Minining - DM By Akash Sharma

  • Data Minining - DM
  • Note
  • Computer Science Engineering
  • 885 Views
  • 3 Offline Downloads
  • Uploaded 11 months ago
0 User(s)
Download PDFOrder Printed Copy

Share it with your friends

Leave your Comments

Text from page-2

2

Text from page-3

Contents 1 Introduction 1.1 Who Is This Book For? . . . . . . . . . . . 1.2 What Is Data Mining? . . . . . . . . . . . . 1.3 Where Is Data Mining Used? . . . . . . . . 1.4 The Origins of Data Mining . . . . . . . . . 1.5 The Rapid Growth of Data Mining . . . . . 1.6 Why are there so many different methods? . 1.7 Terminology and Notation . . . . . . . . . . 1.8 Road Maps to This Book . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 2 3 3 4 5 5 7 2 Overview of the Data Mining Process 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Core Ideas in Data Mining . . . . . . . . . . . . . . . . . 2.2.1 Classification . . . . . . . . . . . . . . . . . . . . 2.2.2 Prediction . . . . . . . . . . . . . . . . . . . . . . 2.2.3 Association Rules . . . . . . . . . . . . . . . . . . 2.2.4 Predictive Analytics . . . . . . . . . . . . . . . . 2.2.5 Data Reduction . . . . . . . . . . . . . . . . . . . 2.2.6 Data Exploration . . . . . . . . . . . . . . . . . . 2.2.7 Data Visualization . . . . . . . . . . . . . . . . . 2.3 Supervised and Unsupervised Learning . . . . . . . . . . 2.4 The Steps in Data Mining . . . . . . . . . . . . . . . . . 2.5 Preliminary Steps . . . . . . . . . . . . . . . . . . . . . 2.5.1 Organization of Datasets . . . . . . . . . . . . . 2.5.2 Sampling from a Database . . . . . . . . . . . . . 2.5.3 Oversampling Rare Events . . . . . . . . . . . . 2.5.4 Pre-processing and Cleaning the Data . . . . . . 2.5.5 Use and Creation of Partitions . . . . . . . . . . 2.6 Building a Model - An Example with Linear Regression 2.7 Using Excel For Data Mining . . . . . . . . . . . . . . . 2.8 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 9 9 9 9 10 10 10 10 10 11 11 12 12 13 13 13 18 20 27 30 3 Data Exploration and Dimension Reduction 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Practical Considerations . . . . . . . . . . . . . . . . . . . . 3.3 Data Summaries . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Data Visualization . . . . . . . . . . . . . . . . . . . . . . . 3.5 Correlation Analysis . . . . . . . . . . . . . . . . . . . . . . 3.6 Reducing the Number of Categories in Categorical Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 33 33 34 36 38 39 i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Text from page-4

ii CONTENTS 3.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 39 43 44 46 47 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 49 49 49 52 55 59 62 67 68 70 5 Multiple Linear Regression 5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Explanatory Vs. Predictive Modeling . . . . . . . . . . . . . . . . . . . . . . 5.3 Estimating the Regression Equation and Prediction . . . . . . . . . . . . . . 5.3.1 Example: Predicting the Price of Used Toyota Corolla Automobiles 5.4 Variable Selection in Linear Regression . . . . . . . . . . . . . . . . . . . . . 5.4.1 Reducing the Number of Predictors . . . . . . . . . . . . . . . . . . 5.4.2 How to Reduce the Number of Predictors . . . . . . . . . . . . . . . 5.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 73 73 74 75 78 78 79 83 6 Three Simple Classification Methods 6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 Example 1: Predicting Fraudulent Financial Reporting . . . . . . . 6.1.2 Example 2: Predicting Delayed Flights . . . . . . . . . . . . . . . . 6.2 The Naive Rule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3.1 Bayes Theorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3.2 A Practical Difficulty and a Solution: From Bayes to Naive Bayes 6.3.3 Advantages and Shortcomings of the Naive Bayes Classifier . . . . 6.4 k-Nearest Neighbor (k-NN) . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4.1 Example 3: Riding Mowers . . . . . . . . . . . . . . . . . . . . . . 6.4.2 Choosing k . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4.3 k-NN for a Quantitative Response . . . . . . . . . . . . . . . . . . 6.4.4 Advantages and Shortcomings of k-NN Algorithms . . . . . . . . . 6.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 . 87 . 87 . 88 . 88 . 89 . 89 . 90 . 94 . 97 . 98 . 99 . 100 . 100 . 102 7 Classification and Regression Trees 7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . 7.2 Classification Trees . . . . . . . . . . . . . . . . . . 7.3 Recursive Partitioning . . . . . . . . . . . . . . . . 7.4 Example 1: Riding Mowers . . . . . . . . . . . . . 7.4.1 Measures of Impurity . . . . . . . . . . . . 7.5 Evaluating the Performance of a Classification Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8 Principal Components Analysis . . . . . . . . . . . . . . . . . . . . . 3.7.1 Example 2: Breakfast Cereals . . . . . . . . . . . . . . . . . . 3.7.2 The Principal Components . . . . . . . . . . . . . . . . . . . 3.7.3 Normalizing the Data . . . . . . . . . . . . . . . . . . . . . . 3.7.4 Using Principal Components for Classification and Prediction Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Evaluating Classification and Predictive Performance 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Judging Classification Performance . . . . . . . . . . . . 4.2.1 Accuracy Measures . . . . . . . . . . . . . . . . . 4.2.2 Cutoff For Classification . . . . . . . . . . . . . . 4.2.3 Performance in Unequal Importance of Classes . 4.2.4 Asymmetric Misclassification Costs . . . . . . . . 4.2.5 Oversampling and Asymmetric Costs . . . . . . . 4.2.6 Classification Using a Triage Strategy . . . . . . 4.3 Evaluating Predictive Performance . . . . . . . . . . . . 4.4 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 105 105 105 106 108 113

Text from page-5

CONTENTS iii 7.5.1 Example 2: Acceptance of Personal Loan Avoiding Overfitting . . . . . . . . . . . . . . . . 7.6.1 Stopping Tree Growth: CHAID . . . . . . 7.6.2 Pruning the Tree . . . . . . . . . . . . . . 7.7 Classification Rules from Trees . . . . . . . . . . 7.8 Regression Trees . . . . . . . . . . . . . . . . . . 7.8.1 Prediction . . . . . . . . . . . . . . . . . . 7.8.2 Measuring Impurity . . . . . . . . . . . . 7.8.3 Evaluating Performance . . . . . . . . . . 7.9 Advantages, Weaknesses, and Extensions . . . . . 7.10 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 114 117 117 122 122 122 125 125 125 127 8 Logistic Regression 8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 The Logistic Regression Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2.1 Example: Acceptance of Personal Loan . . . . . . . . . . . . . . . . . . . . . 8.2.2 A Model with a Single Predictor . . . . . . . . . . . . . . . . . . . . . . . . . 8.2.3 Estimating the Logistic Model From Data: Computing Parameter Estimates 8.2.4 Interpreting Results in Terms of Odds . . . . . . . . . . . . . . . . . . . . . . 8.3 Why Linear Regression is Inappropriate for a Categorical Response . . . . . . . . . . 8.4 Evaluating Classification Performance . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4.1 Variable Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5 Evaluating Goodness-of-Fit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.6 Example of Complete Analysis: Predicting Delayed Flights . . . . . . . . . . . . . . 8.7 Logistic Regression for More than 2 Classes . . . . . . . . . . . . . . . . . . . . . . . 8.7.1 Ordinal Classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.7.2 Nominal Classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.8 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 131 132 133 135 137 139 140 140 143 143 145 153 153 154 155 9 Neural Nets 9.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2 Concept and Structure of a Neural Network . . . . . . . . . . 9.3 Fitting a Network to Data . . . . . . . . . . . . . . . . . . . . 9.3.1 Example 1: Tiny Dataset . . . . . . . . . . . . . . . . 9.3.2 Computing Output of Nodes . . . . . . . . . . . . . . 9.3.3 Preprocessing the Data . . . . . . . . . . . . . . . . . 9.3.4 Training the Model . . . . . . . . . . . . . . . . . . . . 9.3.5 Example 2: Classifying Accident Severity . . . . . . . 9.3.6 Using the Output for Prediction and Classification . . 9.4 Required User Input . . . . . . . . . . . . . . . . . . . . . . . 9.5 Exploring the Relationship Between Predictors and Response 9.6 Advantages and Weaknesses of Neural Networks . . . . . . . 9.7 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 159 159 160 160 161 163 164 167 169 173 174 174 175 10 Discriminant Analysis 10.1 Introduction . . . . . . . . . . . . . . . . . 10.2 Example 1: Riding Mowers . . . . . . . . 10.3 Example 2: Personal Loan Acceptance . . 10.4 Distance of an Observation from a Class . 10.5 Fisher’s Linear Classification Functions . 10.6 Classification Performance of Discriminant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 177 177 177 178 180 184 7.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Lecture Notes