×
DREAM IT. BELIEVE IT. ACHIEVE IT.
--Your friends at LectureNotes
Close

Note for Data Minining - DM By Akash Sharma

  • Data Minining - DM
  • Note
  • Computer Science Engineering
  • 796 Views
  • 3 Offline Downloads
  • Uploaded 10 months ago
0 User(s)
Download PDFOrder Printed Copy

Share it with your friends

Leave your Comments

Text from page-1

Data Mining In Excel: Lecture Notes and Cases Draft December 30, 2005 Galit Shmueli Nitin R. Patel Peter C. Bruce (c) 2005 Galit Shmueli, Nitin R. Patel, Peter C. Bruce Distributed by: Resampling Stats, Inc. 612 N. Jackson St. Arlington, VA 22201 USA info@xlminer.com www.xlminer.com

Text from page-2

2

Text from page-3

Contents 1 Introduction 1.1 Who Is This Book For? . . . . . . . . . . . 1.2 What Is Data Mining? . . . . . . . . . . . . 1.3 Where Is Data Mining Used? . . . . . . . . 1.4 The Origins of Data Mining . . . . . . . . . 1.5 The Rapid Growth of Data Mining . . . . . 1.6 Why are there so many different methods? . 1.7 Terminology and Notation . . . . . . . . . . 1.8 Road Maps to This Book . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 2 3 3 4 5 5 7 2 Overview of the Data Mining Process 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Core Ideas in Data Mining . . . . . . . . . . . . . . . . . 2.2.1 Classification . . . . . . . . . . . . . . . . . . . . 2.2.2 Prediction . . . . . . . . . . . . . . . . . . . . . . 2.2.3 Association Rules . . . . . . . . . . . . . . . . . . 2.2.4 Predictive Analytics . . . . . . . . . . . . . . . . 2.2.5 Data Reduction . . . . . . . . . . . . . . . . . . . 2.2.6 Data Exploration . . . . . . . . . . . . . . . . . . 2.2.7 Data Visualization . . . . . . . . . . . . . . . . . 2.3 Supervised and Unsupervised Learning . . . . . . . . . . 2.4 The Steps in Data Mining . . . . . . . . . . . . . . . . . 2.5 Preliminary Steps . . . . . . . . . . . . . . . . . . . . . 2.5.1 Organization of Datasets . . . . . . . . . . . . . 2.5.2 Sampling from a Database . . . . . . . . . . . . . 2.5.3 Oversampling Rare Events . . . . . . . . . . . . 2.5.4 Pre-processing and Cleaning the Data . . . . . . 2.5.5 Use and Creation of Partitions . . . . . . . . . . 2.6 Building a Model - An Example with Linear Regression 2.7 Using Excel For Data Mining . . . . . . . . . . . . . . . 2.8 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 9 9 9 9 10 10 10 10 10 11 11 12 12 13 13 13 18 20 27 30 3 Data Exploration and Dimension Reduction 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Practical Considerations . . . . . . . . . . . . . . . . . . . . 3.3 Data Summaries . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Data Visualization . . . . . . . . . . . . . . . . . . . . . . . 3.5 Correlation Analysis . . . . . . . . . . . . . . . . . . . . . . 3.6 Reducing the Number of Categories in Categorical Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 33 33 34 36 38 39 i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Text from page-4

ii CONTENTS 3.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 39 43 44 46 47 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 49 49 49 52 55 59 62 67 68 70 5 Multiple Linear Regression 5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Explanatory Vs. Predictive Modeling . . . . . . . . . . . . . . . . . . . . . . 5.3 Estimating the Regression Equation and Prediction . . . . . . . . . . . . . . 5.3.1 Example: Predicting the Price of Used Toyota Corolla Automobiles 5.4 Variable Selection in Linear Regression . . . . . . . . . . . . . . . . . . . . . 5.4.1 Reducing the Number of Predictors . . . . . . . . . . . . . . . . . . 5.4.2 How to Reduce the Number of Predictors . . . . . . . . . . . . . . . 5.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 73 73 74 75 78 78 79 83 6 Three Simple Classification Methods 6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 Example 1: Predicting Fraudulent Financial Reporting . . . . . . . 6.1.2 Example 2: Predicting Delayed Flights . . . . . . . . . . . . . . . . 6.2 The Naive Rule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3.1 Bayes Theorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3.2 A Practical Difficulty and a Solution: From Bayes to Naive Bayes 6.3.3 Advantages and Shortcomings of the Naive Bayes Classifier . . . . 6.4 k-Nearest Neighbor (k-NN) . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4.1 Example 3: Riding Mowers . . . . . . . . . . . . . . . . . . . . . . 6.4.2 Choosing k . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4.3 k-NN for a Quantitative Response . . . . . . . . . . . . . . . . . . 6.4.4 Advantages and Shortcomings of k-NN Algorithms . . . . . . . . . 6.5 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 . 87 . 87 . 88 . 88 . 89 . 89 . 90 . 94 . 97 . 98 . 99 . 100 . 100 . 102 7 Classification and Regression Trees 7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . 7.2 Classification Trees . . . . . . . . . . . . . . . . . . 7.3 Recursive Partitioning . . . . . . . . . . . . . . . . 7.4 Example 1: Riding Mowers . . . . . . . . . . . . . 7.4.1 Measures of Impurity . . . . . . . . . . . . 7.5 Evaluating the Performance of a Classification Tree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8 Principal Components Analysis . . . . . . . . . . . . . . . . . . . . . 3.7.1 Example 2: Breakfast Cereals . . . . . . . . . . . . . . . . . . 3.7.2 The Principal Components . . . . . . . . . . . . . . . . . . . 3.7.3 Normalizing the Data . . . . . . . . . . . . . . . . . . . . . . 3.7.4 Using Principal Components for Classification and Prediction Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Evaluating Classification and Predictive Performance 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Judging Classification Performance . . . . . . . . . . . . 4.2.1 Accuracy Measures . . . . . . . . . . . . . . . . . 4.2.2 Cutoff For Classification . . . . . . . . . . . . . . 4.2.3 Performance in Unequal Importance of Classes . 4.2.4 Asymmetric Misclassification Costs . . . . . . . . 4.2.5 Oversampling and Asymmetric Costs . . . . . . . 4.2.6 Classification Using a Triage Strategy . . . . . . 4.3 Evaluating Predictive Performance . . . . . . . . . . . . 4.4 Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 105 105 105 106 108 113

Lecture Notes