15
Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg, http://fdz.iab.de Testing the Importance of Cleansing Procedures for Overlaps in German Administrative Data. New Techniques and Technologies for Statistics, 18.- 20.2.2009 Patrycja Scioch (Research Data Centre of the BA at the IAB, Germany)

Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg,

Embed Size (px)

Citation preview

Page 1: Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg,

Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg, http://fdz.iab.de

Testing the Importance of Cleansing Procedures forOverlaps in German Administrative Data.

New Techniques and Technologies for Statistics, 18.-20.2.2009

Patrycja Scioch(Research Data Centre of the BA at the IAB, Germany)

Page 2: Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg,

Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg, http://fdz.iab.de

2

Motivation

• increasing importance of using administrative data for research• in Germany we have two types of such data:

- collected for official statistical purposes- by-product of administration (e.g. federal employment services)

• administrative data:- not collected for research- different and independent sources of data- merging may cause contradictions in information

Page 3: Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg,

Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg, http://fdz.iab.de

3

The Integrated Employment Biographies - IEB

1. combination of four different sources:• Employee History • Benefit Recipient History• Applicants Pool Data • Participants in Measure Dataset

2. subsample:• 2.2% random sample • latest update 2006

3. characteristics:• daily records• splitted into episodes• quality depends on source of information

Page 4: Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg,

Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg, http://fdz.iab.de

4

Literature

previous findings:

• concentrate on the analysis of overlaps - qualitative and quantitative (Jaenichen et. al (2005), Bernhard et. al (2006))• correction of single variables (Waller, M. (2007), Kruppe et. al (2007))

evidence: • need for data processing in the IEB• the way heavily depends on the research question

open issues:• impact on estimates• data processing by transformation of structure of dataset

Page 5: Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg,

Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg, http://fdz.iab.de

5

Identification/Method

assumptions: dataset → processing → method → result

within the Case: Wunsch/Lechner (2007)

• evaluation of labour market programmes in West Germany• analyses by comparing matching-estimates• time-dependent employment opportunities as outcome

1. step: replication of the data processing and variations of the analysis sample

2. step: replication of the evaluation study

3. step: analyses of the effects of the variations on the results

Page 6: Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg,

Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg, http://fdz.iab.de

6

Approach/Framework

IEB -data set

analysis-sample

V0

analysis-sample

V1

analysis-sample

V2

outcomeV0

outcomeV1

outcomeV2

Outcome ?

Processing - variable

‚Matching-estimatior‘ - fix

Comparison

Page 7: Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg,

Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg, http://fdz.iab.de

7

Processing rules

• time windows of two weeks • multiple possibilities of spells (different sources, overlaps)

goal: exact one state for each period

1. Sort by duration and priority of source2. Choose the two with capital importance3. Select one final state using more priority-rules

different analysis samples

Page 8: Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg,

Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg, http://fdz.iab.de

8

Rules of Priority

Priority Model V0 Model V1 Model V2

1 Programme Programme Employment

2 Benefits Employment Programme

3 Employment Benefits Benefits

4 Applicants Applicants Applicants

Differences:

• Model V1 prefers employment-spells to benefit-spells compared to V0• Model V2 downgrades participation in programmes and prefers employment

Page 9: Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg,

Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg, http://fdz.iab.de

9

Results before starting the estimation

state 1 state 2 final state

window 1 benefit employment employment

window 2 (x2) employment benefit employment

window 3 applicant employment employment

window 4 programme benefit programme

Window 5 programme employment employment

state 1 state 2 final state

window 1 (x3) benefit employment benefit

window 2 applicant employment employment

window 3 (x2) programme benefit programme

state 1 state 2 final state

window 1 benefit employment employment

window 2 (x2) employment benefit employment

window 3 applicant employment employment

window 4 programme benefit programme

Window 5 programme employment programme

IEB-data set

analysis-sample

V1

programme – employment – benefit – applicant

employment – programme – benefit – applicant

analysis-sample

V0

analysis-sample

V2

programme – benefit – employment – applicant

Page 10: Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg,

Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg, http://fdz.iab.de

10

Descriptive results

• Participants:

• differences between sample V0 and V1, V2

• different magnitudes

• insignificant

• Group of Non-Participants:

• significant differences

• not of practical importance

Page 11: Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg,

Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg, http://fdz.iab.de

11

Estimation results - 1

-.5

-.45

-.4

-.35

-.3

-.25

-.2

-.15

-.1

-.05

0

.05

.1

.15

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30

ST SCM JSA JRT GT6 GT6+ DC

ST sig. SCM sig. JSA sig. JRT sig. GT6 sig. GT6+ sig. DC sig.

Note: Dots indicate significance on the 5% level

Method V0 - unsubsidised employment

Effects of programme participation compared to non-participation

Page 12: Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg,

Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg, http://fdz.iab.de

12

Estimation results - 2

-.5

-.45

-.4

-.35

-.3

-.25

-.2

-.15

-.1

-.05

0

.05

.1

.15

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30months after programme start

V0 V1 V2 CI-V0

V0 sig. V1 sig. V2 sig. CI-V0

Note: Dots indicate significance on the 5% level

GT6+ - effects for employment - all methods

Variance in the estimation results

Page 13: Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg,

Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg, http://fdz.iab.de

13

Summary/Prospects

• large insignificant differences during lock-in-effect

• smaller at the end of observation period

=> The Effect does not depend on the procedure (only the extent)! => Rules are necessary, but time + effort should not exceed benefit!

• creation of a “naive”-model

• comparison with other countries

Page 14: Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg,

Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg, http://fdz.iab.de

14

Thank you for your attention!

[email protected]://fdz.iab.de/

Page 15: Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg,

Forschungsdatenzentrum der Bundesagentur für Arbeit im Institut für Arbeitsmarkt- und Berufsforschung, Regensburger Str. 104, 90478 Nürnberg, http://fdz.iab.de

15

Back-Up

References

Bernhard, S., Dressel, C., Fitzenberger, B. und Schnitzlein, D. (2006): Überschneidungen in der IEBS: Deskriptive Auswertung und Interpretation, FDZ Methodenreport 4/2006, Nürnberg.

Jaenichen, U., Kruppe, T., Stephan, G., Ullrich, B. und Wießner, F. (2005): You can split it if you really want: Korrekturvorschläge für ausgewählte Inkonsistenzen in IEB und MTG, FDZ Datenreport 4/2005, Nürnberg.

Kruppe, T., Müller, E., Wichert, L. und Wilke, R. (2007): On the Definition of Unemployment and ist Implementation in Register Data – The Case of Germany, FDZ Methodenreport 3/2007, Nürnberg.

Waller, M. (2007): Do Reported End Dates of Treatments Matter for Evaluation Results?, FDZ Methodenreport 1/2007, Nürnberg.

Wunsch, C. und Lechner, M. (2007): What Did All the Money Do? On the General Ineffectiveness of Recent West German Labour Market Programmes, University of St. Gallen Department of Economics working paper series 2007 2007-19, Department of Economics, University of St. Gallen.