تامین حریم خصوصی افراد در انتشار داده
- رشته تحصیلی
- مهندسی کامپیوتر -نرم افزار
- مقطع تحصیلی
- دکتری تخصصی PhD
- محل دفاع
- کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3084;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 78302;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3084;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 78302
- تاریخ دفاع
- ۰۳ بهمن ۱۳۹۵
- دانشجو
- فاطمه امیری
- استاد راهنما
- ناصر یزدانی, آزاده شاکری
- چکیده
- حفظ حریم خصوصی در انتشار اطلاعات به یک دغدغه اجتماعی مبدل شده است. گمنامی بهعنوان یکی از راهبردهای حفظ حریم خصوصی از یکسو ارتباط بین افراد و رکوردها در یک جدول ریزداده را پنهان میسازد و از سوی دیگر سودمندی داده را برای انجام تحلیلهای بعدی حفظ میکند. حضور دانش پیشزمینه مهاجم حفظ حریم خصوصی را سختتر مینماید. در کاربردهای عملی، منابع داده پویا هستند و لازم است دادهها بعد از بهروزرسانی مجدداً منتشر شوند. انتشار متعدد داده میتواند منجر به نقض حریم خصوصی در یکی از انتشارها یا در نتیجه پیوند اطلاعات در انتشارهای مختلف گردد. در این رساله دو سناریوی مختلف انتشار متعدد به نامهای انتشار پیوسته جدولها و انتشار پیوسته دیدها موردتوجه قرار میگیرد. در انتشار پیوسته جدولها تعداد ویژگیهای منتشرشده ثابت و تعداد رکوردها متغیر است درحالیکه در انتشار پیوسته دیدها، تعداد ویژگیهای منتشرشده نیز متغیر است. در این رساله چارچوب گمنامی برای دو سناریوی مذکور شامل مدل حریم خصوصی و الگوریتم گمنامی ارائه میشود. در هر دو سناریوی انتشار متعدد، مدل حریم خصوصی پیشنهادی مبتنی بر k-گمنامی و ?-تشابه است. به منظور ممانعت از حمله دانش پیشزمینه، اختلاف باور پیشین و پسین مهاجم درباره دادههای منتشر شده نیز در مدل منظور میشود. چارچوب گمنامی پیشنهادی سعی دارد باور پسین مهاجم درباره انتسابهای بین افراد و مقادیر حساس را تخمین بزند. برای تخمین باور پسین از تخمینگر بیزین استفاده میشود. تخمینگر پیشنهادی امکان بررسی تأثیر افشای چند رکورد بر افشای اطلاعات حساس بقیه رکوردهای منتشرشده را فراهم مینماید. دو الگوریتم گمنامی BKA و HAA برای برآورده نمودن مدل حریم خصوصی در انتشار پیوسته جدولها ارائه میشود. در ادامه چارچوب پیشنهادی برای استفاده در سناریوی انتشار پیوسته دیدها گسترش مییابد. برای این منظور، رابطه بین رکوردها به صورت گراف چندبخشی مدل میشود. KSAA، الگوریتم گمنامی در انتشار پیوسته دیدها، از تعمیم محلی برای افزایش سودمندی استفاده میکند. در این الگوریتم همه رکوردها در انتشارهای مختلف که متعلق به یک مالک هستند، یک زیرگراف کامل را تشکیل میدهند. بنابراین برای ممانعت از افشای اطلاعات لازم است تعداد کافی از زیرگرافهای کامل به هر فرد منتسب گردد. نتایج آزمایشها برتری چارچوب پیشنهادی در هر دو سناریوی انتشار متعدد را بر روشهای قبلی نمایش میدهد در حالیکه چارچوب پیشنهادی مدل حریم خصوصی قویتری را در مقایسه با پژوهشهای قبلی برآورده میکند. نتایج آزمایشها نشان میدهد در انتشار پیوسته جدولها، سودمندی داده در HAA بیشتر از BKA است. در ادامه، ارائه یک معیار سودمندی داده جهت محاسبه دقیقتر اتلاف اطلاعات حاصل از الگوریتم گمنامی موردتوجه قرارگرفته است.
- Abstract
- In many real world situations, data are updated and released over time. Privacy can be compromised due to the disclosure of information when one combines different release versions of the data. Our focus is on continuous and sequential data publishings. In continuous data publishing, the attributes are fixed but the number of records may vary and the attribute values may be modified. While the number of attributes may vary in a sequential data publishing. Preventing information disclosure becomes more difficult when the adversary possesses two kinds of background knowledge: correlations among sensitive attribute values over time and compromised records. First, we propose a Bayesian-based anonymization framework to protect against these kinds of background knowledge in a continuous data publishing setting. The proposed framework recreates the adversary's reasoning method in continuous release and estimates her posterior belief using a Bayesian approach. Moreover, we analyse threat deriving from the compromised records in the current release and the following ones. We propose two anonymization algorithms: BKA and HAA. Experimental results on two datasets show that our proposed framework outperforms the state of the art approach for continuous data publishing, in terms of the adversary's information gain as well as data utility and privacy loss. Then we extend the anonymization framework to protect against background knowledge attack in a sequential data publishing setting. We extend a strong privacy model compared to the state of the art ones in sequential releases that considers adversary's posterior beliefs. We propose a bottom-up sequential algorithm using local generalization to decrease information loss compared to other sequential anonymization algorithms using global generalization. The experimental results show that our proposed algorithm outperforms the state of the art sequential approaches, CELL(FMJ) and TDS4ASR, in terms of information loss, the adversary's information gain and average adversary confidence. Finally, as well-known information loss metrics fail to measure precisely the imposed data inaccuracies stemmed from the removal of records that cannot be published in any equivalence class. This research also introduces an extension into the Global Certainty Penalty metric that considers unpublished records. Keywords: Privacy preservation, Continuous data publishing, background knowledge, Bayesian estimator, Hierarchical anonymization algorithm, Information loss metric, Sequential data publishing, Bottom-up anonymization algorithm , Local generalization, Multipartite graph