Ιδιωτικότητα και διαχείριση δεδομένων

. Π Βασιλειάδης2010-09-09

( . βασισμένο στις διαφάνειες της Α)Πιλαλίδου

Ιδιωτικότητα και διαχείριση δεδομένων

Γιατί είναι σημαντική η ιδιωτικότητα των δεδομένων? ( , Διάφοροι οργανισμοί νοσοκομεία δημόσιοι

,…) οργανισμοί δημοσιεύουν δεδομένα με σκοπό να εξυπηρετήσουν αναλυτές που μπορεί να εξάγουν

( . ., « χρήσιμα συμπεράσματα π χ σε ποιες περιοχές ?»έχουμε αυξημένο ποσοστό καρκίνου του δέρματος

Επειδή τα δεδομένα περιέχουν προσωπικές, πληροφορίες συνήθως οι πληροφορίες αυτές

.αποκρύβονται , « » Είναι εφικτό όμως κάποιος επιτιθέμενος να

μπορέσει να συνδυάσει δημοσιευμένα δεδομένα , από διάφορες πηγές καθώς και δική του

πληροφόρηση για να σπάσει την ανωνυμοποίηση των δεδομένων

2

Ο κυβερνήτης της Μασαχουσέτης Ηπιο διάσημη περίπτωση είναι ο

συνδυασμός δημοσίων εκλογικών καταλόγων και δημοσιευθέντων

ιατρικών δεδομένων για να ανευρεθεί ο ιατρικός φάκελος του

. κυβ τηςΜασαχουσέτης Προσέξτε πώς υπάρχει μόνο μία

. 1/21/76, εγγραφή με ημ γέννησηςzipcode 53715 και φύλοMale.

Επειδή τα στοιχεία αυτά του κυβερνήτη ήταν γνωστά από τους

εκλογικούς καταλόγους + Ήταν γνωστό ότι μπήκε στονοσοκομείο

=> Μπορεί κανείς να συνάγει την

πάθησή του

3

Δημοσιοποίηση δεδομένων με απόκρυψη ευαίσθητων πληροφοριών

Detailedmicrodata

T

Anonymizedpublic data

T*

Bob (the victim) to be hidden

Ben, the benevolent data miner

Alice, the external attacker

4

Βασικοί Ορισμοί Quasi-Identifier: Πεδία τα οποία αν συνδυαστούν με

κάποιες εξωτερικές πληροφορίες μπορούν να (προσδιορίσουν μοναδικά μια εγγραφή ενός πίνακα zip

code, birth date, sex,…). Συχνά συνοδεύουμε τους quasi-identifiers με ιεραρχίεςγενίκευσης

Sensitive Attributes: Είναι πεδία των οποίων την (πληροφορία θέλουμε να αποκρύψουμε disease, salary,

…) Identifiers: ’ Είναι πεδία που αποκαλύπτουν απ ευθείας

(την ταυτότητα ενός ατόμου name, SNN,..).

5

6

Γενίκευση και ανωνυμία Για να διατηρηθεί η ιδιωτικότητα των

:δεδομένων πρέπει Να αφαιρεθούν από τα δεδομένα τα πεδία

’ εκείνα που απ ευθείας δηλώνουν σε ποιο πρόσωπο ανήκει μια εγγραφή

Οι εγγραφές και οι τιμές των πεδίων του να / / μετασχηματιστούν οργανωθούν σε ομάδες

… :με τέτοιο τρόπο ώστε Οι στατιστικές ιδιότητες του συνόλου των

δεδομένων να διατηρηθούν Ο κακόβουλος επιτιθέμενος να μη μπορεί να

« » μαντέψει σε ποιον ανήκει μια εγγραφή με στατιστικά σημαντική πιθανότητα

7

k-anonymity

Ένας πίνακας Τ είναι k-anonymous όταν κάθε

εγγραφή του πίνακα είναι ίδια ως προς ταQuasi-Identifier

πεδία του με k-1 άλλες. εγγραφές

8

l-diversity

Ένας πίνακας T ικανοποιεί την ιδιότητα του l-diversity όταν

κάθε group του πίνακα έχει τουλάχιστον l διαφορετικές τιμές

στα sensitive πεδία.

9

Παράμετροι του προβλήματος 3 Υπάρχουν παράμετροι του προβλήματος

Suppression: πόσες εγγραφές αφαιρούνται από τα δεδομένα στη διαδικασία της ανωνυμοποίησης

Generalization: πόση πληροφορία χάνεται γενικεύοντας τα δεδομένα σε κάποιο επίπεδο

γενίκευσηςAnonymity: ποιο είναι το ελάχιστο ανεκτό

μέγεθος k για κάθε group ( : παρόμοια ποιο είναι το ελάχιστο ανεκτό μέγεθος l για τη διαφοροποίηση

των ευαίσθητων τιμών σε ένα group) οι οποίες είναι ανταγωνιστικές στο πόσο

χρήσιμη πληροφορία έχω

10

Κατηγορίες γενίκευσης Global recoding

Όλες οι εμφανίσεις ενός πεδίου γενικεύονται στο ίδιοlevel στην ιεραρχία του [Swee02a] [Sama01] [LeDR05].

Multidimensional / Οι τιμές ενός χαρ κου σε διαφορετικά groups μπορούν

. να γενικεύονται σε διαφορετικά επίπεδα Αλλά η εμφάνιση ενόςQI-value γενικεύεται στην ίδια τιμή

[LeDR06]. Local recoding

/ Οι εμφανίσεις ενός χαρ κου σε διαφορετικά groups . μπορούν να γενικεύονται σε διαφορετικές τιμές Οι

εμφανίσεις ενόςQI-value μπορεί να γενικευτούν σε διαφορετική τιμή [Xu+06].

11

Αναφορές (1) [Sama01] P. Samarati. Protecting respondents’ identities in microdata

release. IEEE Trans. Knowl. Data Eng. (TKDE), 13(6):1010–1027, 2001. [Swee02a] Latanya Sweeney. k-Anonymity: A Model for Protecting

Privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems 10(5): 557-570 (2002)

[Swee02b] Latanya Sweeney. Achieving k-Anonymity Privacy Protection Using Generalization and Suppression. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems 10(5): 571-588 (2002)

[LeDR05] K. LeFevre, D. J. DeWitt, and R. Ramakrishnan. Incognito: Efficient full-domain k-anonymity. In SIGMOD, pages 49–60, 2005.

[LeDR06] Kristen LeFevre, David J. DeWitt, Raghu Ramakrishnan. Mondrian Multidimensional K-Anonymity. ICDE 2006: 25

[MaGK06] A. Machanavajjhala, J. Gehrke, and D. Kifer. l-diversity: Privacy beyond k-anonymity. ICDE, 2006.

12

Αναφορές (2) [Xu+06] Jian Xu, Wei Wang, Jian Pei, Xiaoyuan Wang, Baile

Shi, Ada Wai-Chee Fu. Utility-based anonymization using local recoding. KDD 2006: 785-790

[Agg05] Charu C.Aggarwal. On k-anonymity an the curse of Dimensionality. VLDB 2005.

[PaSh07] Hyoungmin Park, Kyuseok Shim. Approximate Algorithms for k-anonymity. SIGMOD 2007.

[UCI] U.C. Irvine Repository of Machine Learning Databases. 1998. http://www.ics.uci.edu/~mlearn

[IPUMS] Data set obtained from the web site of Y. Tao for the [XiTa07] paper http://www.cse.cuhk.edu.hk/~taoyf/paper/sigmod07.html

13

Documents

Ιδιωτικότητα και διαχείριση δεδομένων