34
MDM 4U Data Management Grade 12 University Mitchell District High School Unit 3 Statistical Analysis 7 Video Lessons Lesson # Lesson Title Questions to Ask About 1 Measures of Central Tendency 2 Measures of Spread 3 Visual Displays of Data 4 Scatter Plots and Linear Correlations 5 Linear Regression 6 Non – Linear Regression 8 Applications of Regression and Critical Analysis Review Test Written on : _______________________________________

MDM 4U - PBworks

  • Upload
    others

  • View
    22

  • Download
    0

Embed Size (px)

Citation preview

Page 1: MDM 4U - PBworks

MDM 4U Data Management

Grade 12 University Mitchell District High School

Unit 3 Statistical Analysis 7 Video Lessons

Lesson # Lesson Title Questions to Ask About

1 Measures of Central Tendency

2 Measures of Spread

3 Visual Displays of Data

4 Scatter Plots and Linear Correlations

5 Linear Regression

6 Non – Linear Regression

8 Applications of Regression and Critical Analysis

Review

Test Written on : _______________________________________

Page 2: MDM 4U - PBworks

Lesson15.notebook July 08, 2013

Topic:  Measures of Central Tendancy

Today's Learning goal:  I can explain and calculate all measures of central tendency when given raw data.In statistics, the three most commonly used measures of central tendancy are:

1)

2)

3)

Unit 3 ­ Statistical Analysis

Formulae

Mean (population and sample)

Median

Mode

Example:  Two classes wrote the same exam and had the following results.

Answer the following:A)  Determine the measures of central tendency for both classes.B)  Using your results from part A, compare the two classes.C)  What is the effect of any outliers on the mean and median?

Class A 71   82   55   76   66   71   90   84   95   64   71   70   8345   73   51   68

Class B 54   80   12   61   73   69   92   81   80   61   75   74   1544   91   63   50   84   78   64   90   66   96   39   78   73

The Affect of Outliers

Keigh See
MDM4U U3L1 Measures of Central Tendancy
Page 3: MDM 4U - PBworks

Lesson15.notebook July 08, 2013

Summary

Mean vs. Median

Mode

Weighted Mean

Example:  A teacher has collected a seriesof assignments and graded them. Eachassignment has a different weight in termsof importance.  Answer the following:A)  Determine the weighted mean.B)  Determine the unweighted mean.C)  Compare parts A and B.D)  Which assignment holds the most value?E)  Explain, in terms of the teacher, why      weighted means are important.

Assignment Mark Weight

Silly little English essay 85% 2

Newspaper article 95% 1

Billy Shakespeare thing 60% 2

Big bad essay 75% 5

Content test 50% 4

Keigh See
MDM4U U3L1 Measures of Central Tendancy
Page 4: MDM 4U - PBworks

Lesson15.notebook July 08, 2013

Interval Data

When data is arranged in intervals we can still approximate a mean.Example

Formulae

Example:  100 students wrote a university exam.  The class results are shown below.  Answer the following:A)  Determine mean and median.B)  Explain why part A is simply an approximation.

Mark Number of Students91 ­ 100 1281 ­ 90 1871 ­ 80 2861 ­ 70 2251 ­ 60 841 ­ 50 631 ­ 40 4

Homework:  Textbook, pg 133, # 1 ­ 12

Keigh See
MDM4U U3L1 Measures of Central Tendancy
Page 5: MDM 4U - PBworks

Lesson16.notebook July 08, 2013

Topic:  Measures of Spread

Today's Learning goal:  I can calculate a measure of spread for a given set of data.

Recall:

We just finished talking about measures of central tendency.  They are an indicator of the central values of a set of data.

Measures of Spread ­

Similar to measures of central tendency, there are several measures of spread:1)  Standard Deviation and Variance2)  Quartiles and Interquartile Ranges3)  Percentiles4)  Z ­ Scores

Standard Deviation and Variance

A deviation is the difference (or distance) of an individual value from your data and the calculated mean for the data.

Formulae:

Population Sample Legend:

Population Variance is the mean (average) of the squares of the deviations.

Formula:

Keigh See
MDM4U U3L2 Measures of Spread
Page 6: MDM 4U - PBworks

Lesson16.notebook July 08, 2013

Example:  Determine the standard deviation for the height of people in MDM 4U.Person Height (cm)Sami 160Shannon 170Ellyn 150Claire 150Raul 175Olivia 205Brandon 180Sam 165Dylan 205Kelly 165Kristen 180Laura 170Mariah 195Stacie 160

If the MHF 4U class has a mean height of 180 cm with a standard deviation of 10.5 cm, compare the results of our class with them.

Quartiles and Interquartile Range

Quartiles ­

Interquartile range is ­

Semi­Interquartile range is ­

Box ­ and ­ Whisker plot is ­

Keigh See
MDM4U U3L2 Measures of Spread
Page 7: MDM 4U - PBworks

Lesson16.notebook July 08, 2013

Example:  Determine the Quartile and Interquartile range for the height of people in MDM 4U.Person Height (cm)Sami 160Shannon 170Ellyn 150Claire 150Raul 175Olivia 205Brandon 180Sam 165Dylan 205Kelly 165Kristen 180Laura 170Mariah 195Stacie 160

Create a box ­ and ­ whisker plot to illustrate your answer.

PercentilesPercentiles are similar to quartiles, however, they divide the data into 100 intervals instead of 4.

Example: Answer the following.A)  Betty is entering the class and she ranks in the 20th percentile.  What is her approximate height.B)  Mr. Agar is 177.5 cm tall.  Determine his place in the class.C)  Determine the 70th percentile for this data.

Person Height (cm)Sami 160Shannon 170Ellyn 150Claire 150Raul 175Olivia 205Brandon 180Sam 165Dylan 205Kelly 165Kristen 180Laura 170Mariah 195Stacie 160

Keigh See
MDM4U U3L2 Measures of Spread
Page 8: MDM 4U - PBworks

Lesson16.notebook July 08, 2013

Z ­ Scores

A z ­ score tells you

Formulae:

Person Height (cm)Sami 160Shannon 170Ellyn 150Claire 150Raul 175Olivia 205Brandon 180Sam 165Dylan 205Kelly 165Kristen 180Laura 170Mariah 195Stacie 160

Example:  Determine the following:A)  Mr. Agar's z­score if he is 177.5 cm tall.B)  Betty's height if her z ­ score is ­0.15.

Homework:  Textbook pg 148, #1 ­ 13

Keigh See
MDM4U U3L2 Measures of Spread
Page 9: MDM 4U - PBworks

Visual Data.notebook

Topic:  Visual Displays of Data

Today's Goal:  I can structure and organize data to allow the use of a spreadsheet to create a graphical display for the data.

Terminology

Frequency ­

Frequency table ­

Cumulative frequency ­

Relative frequency ­

Histogram ­

The number of times an event occurs or the number of items in a given category.

A table listing a variable together with the frequency of each value.

The running total of items or number of times a variable has occurred.

Table or diagram that shows the frequency of the data as a fraction or percent of the whole data set.

A special form of bar graph in which the areas represent the frequency that an item or variable occurs.

Example:  The following is a survey of what day students were born.  Use the data to complete the following:A)  Create a frequency table.B)  Create a histogram. C)  Create a pictograph.D)  Create a pie chart or circle graph.E)  Determine relative frequency.F)   Graph relative frequency.G)  Determine cumulative frequency.H)  Graph cumulative frequency.

Mon. Fri. Fri. Wed.Tues. Tues. Tues. Thurs.Wed. Thurs. Wed. Thurs.Thurs. Wed. Sat. Tues.Mon. Sat. Mon. Wed.Fri. Thurs. Wed. Tues.Sun. Mon. Sun. Fri.Wed. Tues. Wed. Sun.

Keigh See
MDM4U U3L3 Visual Displays of Data
Page 10: MDM 4U - PBworks

Visual Data.notebook

More terminology...

Continuous variable ­

Discrete variable ­

Grouping Data or Interval Data

A variable that can have any value within a given range (decimals).  Ex.  height, weight, etc..

A variable that can have only whole or integer values (no decimals).  Ex. People, tickets, cars, etc..

What happens if our data has TOO MANY different entries?  Marks range from 0 ­ 100% or height can range from 30 cm to 200+ cm!

For large ranges in data we need to use INTERVALS for the data.

 For intervals you must have:

A ­ Intervals of equal size.

B ­ ALL the data must fit or have a place

How do you determine interval size?

The general rule of thumb is 5 or more intervals.

Interval size =  (always rounded up)

Keigh See
MDM4U U3L3 Visual Displays of Data
Page 11: MDM 4U - PBworks

Visual Data.notebook

Example:  The following is a survey of MDM 4U midterm marks.  Use the given data to complete the following:A)  Create a frequency table.B)  Create a histogram. C)  Create a pictograph.D)  Create a pie chart or circle graph.E)  Determine relative frequency.F)   Graph relative frequency.G)  Determine cumulative frequency.H)  Graph cumulative frequency.

62 55 41 85 76 6555 88 65 72 73 9287 68 78 79 99 6862 71 28 47 68 5652 37 83 81 59 77

Keigh See
MDM4U U3L3 Visual Displays of Data
Page 12: MDM 4U - PBworks

Lesson17.notebook July 08, 2013

Topic:  Scatter Plots and Linear Correlations

Today's Learning goal:  I can critically assess a scatter plot and determine the type of relationship, specifically linear correlations.

Relationships

Does smoking cause lung cancer?  Does your height effect your ability to estimate other people's height?  Does marks and sports have a relationship?  Sometimes relationships between two variables are not clear cut and we need an effective way to determine or develop mathematical relationships.

The visual pattern in a graph or plot can often reveal the nature of the relationship between two variables.

Scatter Plots

A scatter plot is

A Quick Review

Independent variables ­

Dependent variables ­

Correlation ­

Linear correlation ­

Line of best fit ­

Keigh See
MDM4U U3L4 Scatter Plots and Linear Correlations
Page 13: MDM 4U - PBworks

Lesson17.notebook July 08, 2013

Classifying Linear Correlations

The Correlation Coefficient

In order to "numerically" measure the correlation of a relationship mathematicians defined covariance of two variables as:

sXY =         Σ(x ­ x)(y ­ y) Where:   x ­x ­y ­y ­n ­

The correlation coefficient, r, is then calculated using the formula:

r =  Where:

Interpret the correlation coefficient (r):

sXYsX sYx

1n ­ 1

Keigh See
MDM4U U3L4 Scatter Plots and Linear Correlations
Page 14: MDM 4U - PBworks

Lesson17.notebook July 08, 2013

Example:  A farmer wants to determine whether there is a relationship between the mean temperature during the growing season and the size of his wheat crop.  Answer the following using the given information.A)  Determine the correlation of the data.B)  Determine the correlation coefficient.C)  Determine what conclusions can be

 made based on your results.

Mean Temp. Yield (tonnes/hec.)4 1.68 2.410 2.09 2.611 2.16 2.2

Example:  The following information was collected by a series of tests on popular cars.  Answer the following:A)  Determine the correlation between

 the two variables.B)  Determine the correlation coefficient.C)  Determine what conclusions can be

 drawn from the analysis.

Vehicle Power (hp) Fuel used (L/100 km)

Midsize sedan 105 6.7Minivan 170 9.2

Small SUV 124 5.9

Midsize motorbike 17 3.4

Luxury sports car 296 8.4

Homework, pg 168 # 1 ­ 3, 5, 6

Keigh See
MDM4U U3L4 Scatter Plots and Linear Correlations
Page 15: MDM 4U - PBworks

Topic:  Linear Regression

Today's Learning goal:  I can use technology to obtain an algebraic model for a set of data using the concept of linear regression.

Regression is 

Interpolation is

Extrapolation is

Regression uses

How Regression Works

The least ­ squares method is used to determine the slope and y ­ intercept of the equation of a line.

Formula:

For the line of best fit y = ax + b:

a = n(  xy) ­ (  x)(  y)n(  x2) ­ (  x)2

 and 

 b = y ­ ax

Keigh See
MDM4U U3L5 Linear Regression
Page 16: MDM 4U - PBworks

Example:  The table shows data for the full­time employees of a small company.  Answer the following:A)  Create a scatter plot of the data.B)  Determine the degree of correlation.C)  Determine an equation to model the

 data.D)  Using your model, predict the income      for an employee of age:

i)  21 years.ii)  65 years.

Age (years) Annual Income ($000)33 3325 3119 1844 5650 6054 6438 44

Example:  Researchers monitoring the number of wolves and rabbits think the wolf population depend on each other.  Use the data to answer the following questions:A)  Create an appropriate scatter plot.B)  Determine the degree of correlation

 of the data.C)  Determine the linear equation for this

 relationship.D)  Does the data support the researchers'

 theory?

Year Rabbits Wolves1994 61 261995 72 331996 78 421997 76 491998 65 371999 54 302000 39 24

Keigh See
MDM4U U3L5 Linear Regression
Page 17: MDM 4U - PBworks

The Effect of outliers

Outliers can greatly effect your resulting data.  It is important to critically analyze your scatter plot prior to performing any modelling or determining the degree of correlation.

Example:  A driving instructor tabulates the number of hours of instruction and the driving­test scores for the instructor's students.  Answer the following:A)  What assumption is the instructor making?B)  Analyze the data.C)  Comment on the data.D)  Determine the effect of any outliers.

 Hours Scores    10      15    15      85    21      96    6      75    18      84    20        45    12      82

Homework:  Textbook, pg 180, #1, 2, 5 ­ 7

Keigh See
MDM4U U3L5 Linear Regression
Page 18: MDM 4U - PBworks

Topic:  Non­Linear Regression

Today's Learning goal:  I can identify non­linear correlations in data and use technology to determine an algebraic model using the concepts of regression.

Not all variable analysis will result in a linear relationship.  

Non ­ Linear Curves

Correlation

From our linear regression we determined the strength of the correlation by using the correlation coefficient, r.  When dealing with non­linear relationships we have to use the coefficient of determination, r2.

Formula:

r2 = Ʃ(yest ­ y)2Ʃ(y ­ y)2

Where: y is the mean value of yyest is the value estimated byyour curve.

Keigh See
MDM4U U3L6 Non-Linear Regression
Page 19: MDM 4U - PBworks

Example:  From the given data on bacterial growth, answer the following.A)  Create a scatter plot.B)  Determine the type of regression curve.C)  How do you know your choice was the

 best option available.D)  Determine an equation for the data.E)  Predict the population after 24 hours.

Time (h) Population

1 10

2 21

3 43

4 82

5 168

6 320

7 475

Example:  The following information was taken from a lab.  Use the data to answer the following:A)  Create a scatter plot.B)  Determine the type of regression curve.C)  Explain how you know your choice was

 the best for the data.D)  Determine an equation to model the data.E)  Determine the distance after 5 seconds.

Time (s) Distance (m)

1 4.905

2 19.620

3 44.145

4 78.480

5 122.625

6 176.580

7 240.345

Homework,  Textbook, pg. 191, #1 ­ 5Handout

Keigh See
MDM4U U3L6 Non-Linear Regression
Page 20: MDM 4U - PBworks

Topic:  Applications of Regression and Critical Analysis

Today's Learning goal:  I can apply regression to real ­ world situations and analyze the resulting regression drawing appropriate conclusions and recommendations. 

We often see news programs, newspapers and other forms of social media run stories which involve statistics.  The media uses them as a tool to shape public opinion.  It is VERY important that you, as a critical thinker, can look at statistics and provide a subjective opinion.

The following examples give you some guidelines that need to be taken into account when reflecting on the validity of the statistics presented.

The 3 ­ areas of interest for us are:

1)  Sample size and technique

2)  Extraneous variables and sample bias

3)  Detecting hidden variables

Example:  Sample size and technique.A manager wants to know if a new aptitude test accurately predicts employee productivity.  The manager had all 30 employees complete the test and then compared the scores to their observed productivity measured on their performance appraisals.  

The employer arranges the collected data alphabetically by employee surname.  He then chooses a systematic sampling technique where he uses data from every seventh employee on the list.

Based on the data the manager concludes that the company should only hire applicants who do well on the aptitude test.

Determine if the manager's analysis is valid.Collected data:

Test score 98  57  82  76  65  72  91  87  81  39  50  75  71  89  82  95Productivity  78  81  83  44  62  89  85  71  76  71  66  90  48  80  83  72  

Test score 56  71  68  77  59  83  75  66  48  61  78  70  68  64Productivity 72  90  74  51  65  47  91  77  63  58  55  73  75  69

Keigh See
MDM4U U3L7 Applications of Regression and Critical Analysis
Page 21: MDM 4U - PBworks

Example:  Extraneous variables and Sample BiasCompuWhiz, a computer training institution in London features the profiles of some of its young graduates in a newspaper.  The number of months of training that these graduates took, their job title, and their incomes appear prominently in the advertisements.  A)  Analyze the company's promotional data using techniques discussed in class.  B)  Use the model created in part A to predict a graduate with 20 months of training.C)  Does the linear correlation show that CompuWhiz's training accounts for graduate's high income?  Identify extraneous variables.D)  Discuss any problems with the sampling technique and data.

Graduate Months of training Income ($000)

Sarah, software developer 9 85

Zack, programmer 6 63

Eli, systems analyst 8 72

Yvette, computer technician 5 52

Nate, web­site designer 6 66

Lynn, network administrator 4 60

Keigh See
MDM4U U3L7 Applications of Regression and Critical Analysis
Page 22: MDM 4U - PBworks

Example:  Detecting a hidden variableAn arts council is considering whether or not to fund the start­up of a local youth orchestra.  The council has limited funds and wants to know if the investment will benefit young players.  One measure of success is the number of your­orchestra players who go on to professional orchestras.  The following data was presented to council:

Year Number of Youth OrchestrasNumber of players 

becoming Professionals

1991 10 16

1992 11 18

1993 12 20

1994 12 23

1995 14 26

1996 14 32

1997 16 13

1998 16 16

1999 18 20

2000 20 26

A)  Does a linear regression allow you to determine whether the council should fund a new youth orchestra?  Can you draw conclusions from other analysis?B)  Suppose you later discover that one of the country's professional orchestras went bankrupt in1997.  How does this information affect your analysis?

Keigh See
MDM4U U3L7 Applications of Regression and Critical Analysis
Page 23: MDM 4U - PBworks

Homework, textbook, pg 209, #1 ­ 3, 5, 8

Page 24: MDM 4U - PBworks
Page 25: MDM 4U - PBworks
Page 26: MDM 4U - PBworks
Page 27: MDM 4U - PBworks
Page 28: MDM 4U - PBworks
Page 29: MDM 4U - PBworks
Page 30: MDM 4U - PBworks
Page 31: MDM 4U - PBworks
Page 32: MDM 4U - PBworks
Page 33: MDM 4U - PBworks
Page 34: MDM 4U - PBworks