عنوان پایان‌نامه

تامین حریم خصوصی افراد در انتشار داده



    دانشجو در تاریخ ۰۳ بهمن ۱۳۹۵ ، به راهنمایی ، پایان نامه با عنوان "تامین حریم خصوصی افراد در انتشار داده" را دفاع نموده است.


    محل دفاع
    کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3084;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 78302;کتابخانه مرکزی پردیس 2 فنی شماره ثبت: E 3084;کتابخانه مرکزی -تالار اطلاع رسانی شماره ثبت: 78302
    تاریخ دفاع
    ۰۳ بهمن ۱۳۹۵
    دانشجو
    فاطمه امیری
    استاد راهنما
    ناصر یزدانی, آزاده شاکری

    حفظ حریم خصوصی در انتشار اطلاعات به یک دغدغه اجتماعی مبدل شده است. گمنامی به‌عنوان یکی از راهبردهای حفظ حریم خصوصی از یک‌سو ارتباط بین افراد و رکوردها در یک جدول ریزداده را پنهان می‌سازد و از سوی دیگر سودمندی داده را برای انجام تحلیل‌های بعدی حفظ می‌کند. حضور دانش پیش‌زمینه مهاجم حفظ حریم خصوصی را سخت‌تر می‌نماید. در کاربردهای عملی، منابع داده پویا هستند و لازم است داده‌ها بعد از به‌روزرسانی مجدداً منتشر شوند. انتشار متعدد داده می‌تواند منجر به نقض حریم خصوصی در یکی از انتشارها یا در نتیجه پیوند اطلاعات در انتشارهای مختلف گردد. در این رساله دو سناریوی مختلف انتشار متعدد به نام‌های انتشار پیوسته جدول‌ها و انتشار پیوسته دیدها موردتوجه قرار می‌گیرد. در انتشار پیوسته جدول‌ها تعداد ویژگی‌های منتشرشده ثابت و تعداد رکوردها متغیر است درحالی‌که در انتشار پیوسته دیدها، تعداد ویژگی‌های منتشرشده نیز متغیر است. در این رساله چارچوب گمنامی برای دو سناریوی مذکور شامل مدل حریم خصوصی و الگوریتم گمنامی ارائه می‌شود. در هر دو سناریوی انتشار متعدد، مدل حریم خصوصی پیشنهادی مبتنی بر k-گمنامی و ?-تشابه است. به منظور ممانعت از حمله دانش پیش‌زمینه، اختلاف باور پیشین و پسین مهاجم درباره داده‌های منتشر شده نیز در مدل منظور می‌شود. چارچوب گمنامی پیشنهادی سعی دارد باور پسین مهاجم درباره انتساب‌های بین افراد و مقادیر حساس را تخمین بزند. برای تخمین باور پسین از تخمینگر بیزین استفاده می‌شود. تخمینگر پیشنهادی امکان بررسی تأثیر افشای چند رکورد بر افشای اطلاعات حساس بقیه رکوردهای منتشرشده را فراهم می‌نماید. دو الگوریتم گمنامی BKA‌ و HAA برای برآورده نمودن مدل حریم خصوصی در انتشار پیوسته جدول‌ها ارائه می‌شود. در ادامه چارچوب پیشنهادی برای استفاده در سناریوی انتشار پیوسته دیدها گسترش می‌یابد. برای این منظور، رابطه بین رکوردها به صورت گراف چندبخشی مدل می‌شود. KSAA، الگوریتم گمنامی در انتشار پیوسته دیدها، از تعمیم محلی برای افزایش سودمندی استفاده می‌کند. در این الگوریتم همه رکوردها در انتشارهای مختلف که متعلق به یک مالک هستند، یک زیرگراف کامل را تشکیل می‌دهند. بنابراین برای ممانعت از افشای اطلاعات لازم است تعداد کافی از زیرگراف‌های کامل به هر فرد منتسب گردد. نتایج آزمایش‌ها برتری چارچوب پیشنهادی در هر دو سناریوی انتشار متعدد را بر روش‌های قبلی نمایش می‌دهد در حالی‌که چارچوب پیشنهادی مدل حریم خصوصی قوی‌تری را در مقایسه با پژوهش‌های قبلی برآورده می‌کند. نتایج آزمایش‌ها نشان می‌دهد در انتشار پیوسته جدول‌ها، سودمندی داده در HAA‌ بیشتر از BKA‌ است. در ادامه، ارائه یک معیار سودمندی داده جهت محاسبه دقیق‌تر اتلاف اطلاعات حاصل از الگوریتم گمنامی موردتوجه قرارگرفته است.
    Abstract
    In many real world situations, data are updated and released over time. Privacy can be compromised due to the disclosure of information when one combines different release versions of the data. Our focus is on continuous and sequential data publishings. In continuous data publishing, the attributes are fixed but the number of records may vary and the attribute values may be modified. While the number of attributes may vary in a sequential data publishing. Preventing information disclosure becomes more difficult when the adversary possesses two kinds of background knowledge: correlations among sensitive attribute values over time and compromised records. First, we propose a Bayesian-based anonymization framework to protect against these kinds of background knowledge in a continuous data publishing setting. The proposed framework recreates the adversary's reasoning method in continuous release and estimates her posterior belief using a Bayesian approach. Moreover, we analyse threat deriving from the compromised records in the current release and the following ones. We propose two anonymization algorithms: BKA and HAA. Experimental results on two datasets show that our proposed framework outperforms the state of the art approach for continuous data publishing, in terms of the adversary's information gain as well as data utility and privacy loss. Then we extend the anonymization framework to protect against background knowledge attack in a sequential data publishing setting. We extend a strong privacy model compared to the state of the art ones in sequential releases that considers adversary's posterior beliefs. We propose a bottom-up sequential algorithm using local generalization to decrease information loss compared to other sequential anonymization algorithms using global generalization. The experimental results show that our proposed algorithm outperforms the state of the art sequential approaches, CELL(FMJ) and TDS4ASR, in terms of information loss, the adversary's information gain and average adversary confidence. Finally, as well-known information loss metrics fail to measure precisely the imposed data inaccuracies stemmed from the removal of records that cannot be published in any equivalence class. This research also introduces an extension into the Global Certainty Penalty metric that considers unpublished records. Keywords: Privacy preservation, Continuous data publishing, background knowledge, Bayesian estimator, Hierarchical anonymization algorithm, Information loss metric, Sequential data publishing, Bottom-up anonymization algorithm , Local generalization, Multipartite graph