Upload
hans
View
40
Download
0
Embed Size (px)
DESCRIPTION
Ιδιωτικότητα και διαχείριση δεδομένων. Π. Βασιλειάδης 2010-09-09 (βασισμένο στις διαφάνειες της Α. Πιλαλίδου ). Γιατί είναι σημαντική η ιδιωτικότητα των δεδομένων?. - PowerPoint PPT Presentation
Citation preview
. Π Βασιλειάδης2010-09-09
( . βασισμένο στις διαφάνειες της Α)Πιλαλίδου
Ιδιωτικότητα και διαχείριση δεδομένων
Γιατί είναι σημαντική η ιδιωτικότητα των δεδομένων? ( , Διάφοροι οργανισμοί νοσοκομεία δημόσιοι
,…) οργανισμοί δημοσιεύουν δεδομένα με σκοπό να εξυπηρετήσουν αναλυτές που μπορεί να εξάγουν
( . ., « χρήσιμα συμπεράσματα π χ σε ποιες περιοχές ?»έχουμε αυξημένο ποσοστό καρκίνου του δέρματος
Επειδή τα δεδομένα περιέχουν προσωπικές, πληροφορίες συνήθως οι πληροφορίες αυτές
.αποκρύβονται , « » Είναι εφικτό όμως κάποιος επιτιθέμενος να
μπορέσει να συνδυάσει δημοσιευμένα δεδομένα , από διάφορες πηγές καθώς και δική του
πληροφόρηση για να σπάσει την ανωνυμοποίηση των δεδομένων
2
Ο κυβερνήτης της Μασαχουσέτης Ηπιο διάσημη περίπτωση είναι ο
συνδυασμός δημοσίων εκλογικών καταλόγων και δημοσιευθέντων
ιατρικών δεδομένων για να ανευρεθεί ο ιατρικός φάκελος του
. κυβ τηςΜασαχουσέτης Προσέξτε πώς υπάρχει μόνο μία
. 1/21/76, εγγραφή με ημ γέννησηςzipcode 53715 και φύλοMale.
Επειδή τα στοιχεία αυτά του κυβερνήτη ήταν γνωστά από τους
εκλογικούς καταλόγους + Ήταν γνωστό ότι μπήκε στονοσοκομείο
=> Μπορεί κανείς να συνάγει την
πάθησή του
3
Δημοσιοποίηση δεδομένων με απόκρυψη ευαίσθητων πληροφοριών
Detailedmicrodata
T
Anonymizedpublic data
T*
Bob (the victim) to be hidden
Ben, the benevolent data miner
Alice, the external attacker
4
Βασικοί Ορισμοί Quasi-Identifier: Πεδία τα οποία αν συνδυαστούν με
κάποιες εξωτερικές πληροφορίες μπορούν να (προσδιορίσουν μοναδικά μια εγγραφή ενός πίνακα zip
code, birth date, sex,…). Συχνά συνοδεύουμε τους quasi-identifiers με ιεραρχίεςγενίκευσης
Sensitive Attributes: Είναι πεδία των οποίων την (πληροφορία θέλουμε να αποκρύψουμε disease, salary,
…) Identifiers: ’ Είναι πεδία που αποκαλύπτουν απ ευθείας
(την ταυτότητα ενός ατόμου name, SNN,..).
5
6
Γενίκευση και ανωνυμία Για να διατηρηθεί η ιδιωτικότητα των
:δεδομένων πρέπει Να αφαιρεθούν από τα δεδομένα τα πεδία
’ εκείνα που απ ευθείας δηλώνουν σε ποιο πρόσωπο ανήκει μια εγγραφή
Οι εγγραφές και οι τιμές των πεδίων του να / / μετασχηματιστούν οργανωθούν σε ομάδες
… :με τέτοιο τρόπο ώστε Οι στατιστικές ιδιότητες του συνόλου των
δεδομένων να διατηρηθούν Ο κακόβουλος επιτιθέμενος να μη μπορεί να
« » μαντέψει σε ποιον ανήκει μια εγγραφή με στατιστικά σημαντική πιθανότητα
7
k-anonymity
Ένας πίνακας Τ είναι k-anonymous όταν κάθε
εγγραφή του πίνακα είναι ίδια ως προς ταQuasi-Identifier
πεδία του με k-1 άλλες. εγγραφές
8
l-diversity
Ένας πίνακας T ικανοποιεί την ιδιότητα του l-diversity όταν
κάθε group του πίνακα έχει τουλάχιστον l διαφορετικές τιμές
στα sensitive πεδία.
9
Παράμετροι του προβλήματος 3 Υπάρχουν παράμετροι του προβλήματος
Suppression: πόσες εγγραφές αφαιρούνται από τα δεδομένα στη διαδικασία της ανωνυμοποίησης
Generalization: πόση πληροφορία χάνεται γενικεύοντας τα δεδομένα σε κάποιο επίπεδο
γενίκευσηςAnonymity: ποιο είναι το ελάχιστο ανεκτό
μέγεθος k για κάθε group ( : παρόμοια ποιο είναι το ελάχιστο ανεκτό μέγεθος l για τη διαφοροποίηση
των ευαίσθητων τιμών σε ένα group) οι οποίες είναι ανταγωνιστικές στο πόσο
χρήσιμη πληροφορία έχω
10
Κατηγορίες γενίκευσης Global recoding
Όλες οι εμφανίσεις ενός πεδίου γενικεύονται στο ίδιοlevel στην ιεραρχία του [Swee02a] [Sama01] [LeDR05].
Multidimensional / Οι τιμές ενός χαρ κου σε διαφορετικά groups μπορούν
. να γενικεύονται σε διαφορετικά επίπεδα Αλλά η εμφάνιση ενόςQI-value γενικεύεται στην ίδια τιμή
[LeDR06]. Local recoding
/ Οι εμφανίσεις ενός χαρ κου σε διαφορετικά groups . μπορούν να γενικεύονται σε διαφορετικές τιμές Οι
εμφανίσεις ενόςQI-value μπορεί να γενικευτούν σε διαφορετική τιμή [Xu+06].
11
Αναφορές (1) [Sama01] P. Samarati. Protecting respondents’ identities in microdata
release. IEEE Trans. Knowl. Data Eng. (TKDE), 13(6):1010–1027, 2001. [Swee02a] Latanya Sweeney. k-Anonymity: A Model for Protecting
Privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems 10(5): 557-570 (2002)
[Swee02b] Latanya Sweeney. Achieving k-Anonymity Privacy Protection Using Generalization and Suppression. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems 10(5): 571-588 (2002)
[LeDR05] K. LeFevre, D. J. DeWitt, and R. Ramakrishnan. Incognito: Efficient full-domain k-anonymity. In SIGMOD, pages 49–60, 2005.
[LeDR06] Kristen LeFevre, David J. DeWitt, Raghu Ramakrishnan. Mondrian Multidimensional K-Anonymity. ICDE 2006: 25
[MaGK06] A. Machanavajjhala, J. Gehrke, and D. Kifer. l-diversity: Privacy beyond k-anonymity. ICDE, 2006.
12
Αναφορές (2) [Xu+06] Jian Xu, Wei Wang, Jian Pei, Xiaoyuan Wang, Baile
Shi, Ada Wai-Chee Fu. Utility-based anonymization using local recoding. KDD 2006: 785-790
[Agg05] Charu C.Aggarwal. On k-anonymity an the curse of Dimensionality. VLDB 2005.
[PaSh07] Hyoungmin Park, Kyuseok Shim. Approximate Algorithms for k-anonymity. SIGMOD 2007.
[UCI] U.C. Irvine Repository of Machine Learning Databases. 1998. http://www.ics.uci.edu/~mlearn
[IPUMS] Data set obtained from the web site of Y. Tao for the [XiTa07] paper http://www.cse.cuhk.edu.hk/~taoyf/paper/sigmod07.html
13