ما هي تقنية إخفاء البيانات وحلها في وسيط حزم الشبكة؟

1. مفهوم إخفاء البيانات

يُعرف إخفاء البيانات أيضًا باسم إخفاء البيانات. إنها طريقة فنية لتحويل أو تعديل أو تغطية بيانات حساسة مثل رقم الهاتف المحمول ورقم البطاقة المصرفية والمعلومات الأخرى عندما نمنح قواعد وسياسات التقنيع. تستخدم هذه التقنية في المقام الأول لمنع استخدام البيانات الحساسة مباشرة في بيئات غير موثوقة.

مبدأ إخفاء البيانات: يجب أن يحافظ تقنيع البيانات على خصائص البيانات الأصلية وقواعد العمل وأهمية البيانات للتأكد من عدم تأثر التطوير والاختبار وتحليل البيانات اللاحق بالإخفاء. ضمان اتساق البيانات وصلاحية قبل وبعد التقنيع.

2. تصنيف إخفاء البيانات

يمكن تقسيم إخفاء البيانات إلى تقنيع البيانات الثابتة (SDM) وإخفاء البيانات الديناميكية (DDM).

إخفاء البيانات الثابتة (SDM): يتطلب إخفاء البيانات الثابتة إنشاء قاعدة بيانات جديدة لبيئة عدم الإنتاج لعزل عن بيئة الإنتاج. يتم استخراج البيانات الحساسة من قاعدة بيانات الإنتاج ثم تخزينها في قاعدة بيانات عدم الإنتاج. وبهذه الطريقة ، يتم عزل البيانات الحساسية عن بيئة الإنتاج ، التي تلبي احتياجات العمل وتضمن أمان بيانات الإنتاج.

SDM

إخفاء البيانات الديناميكية (DDM): يتم استخدامه بشكل عام في بيئة الإنتاج لإزالة حساسية البيانات الحساسة في الوقت الفعلي. في بعض الأحيان ، هناك حاجة إلى مستويات مختلفة من التقنيع لقراءة نفس البيانات الحساسة في مواقف مختلفة. على سبيل المثال ، قد تنفذ الأدوار والأذونات المختلفة مخططات إخفاء مختلفة.

DDM

الإبلاغ عن البيانات ومنتجات البيانات إخفاء التطبيق

تتضمن هذه السيناريوهات بشكل أساسي منتجات مراقبة البيانات الداخلية أو لوحة الإعلانات ، ومنتجات بيانات الخدمة الخارجية ، والتقارير القائمة على تحليل البيانات ، مثل تقارير الأعمال ومراجعة المشروع.

إخفاء المنتجات الإبلاغ عن البيانات

3. حل إخفاء البيانات

تشمل مخططات إخفاء البيانات الشائعة: الإبطال ، القيمة العشوائية ، استبدال البيانات ، التشفير المتماثل ، متوسط ​​القيمة ، الإزاحة والتقريب ، إلخ.

إبطال: يشير الإبطال إلى التشفير أو الاقتطاع أو إخفاء البيانات الحساسة. عادةً ما يحل هذا المخطط محل بيانات حقيقية برموز خاصة (مثل *). العملية بسيطة ، لكن لا يمكن للمستخدمين معرفة تنسيق البيانات الأصلية ، والتي قد تؤثر على تطبيقات البيانات اللاحقة.

قيمة عشوائية: تشير القيمة العشوائية إلى الاستبدال العشوائي للبيانات الحساسة (تحل الأرقام محل الأرقام ، والرسائل استبدال الحروف ، والحروف استبدال الأحرف). ستضمن طريقة التقنيع هذه تنسيق البيانات الحساسة إلى حد ما وتسهيل تطبيق البيانات اللاحقة. قد تكون هناك حاجة إلى قواميس إخفاء لبعض الكلمات ذات المغزى ، مثل أسماء الأشخاص والأماكن.

استبدال البيانات: استبدال البيانات يشبه إخفاء القيم الفارغة والعشوائية ، باستثناء أنه بدلاً من استخدام أحرف خاصة أو قيم عشوائية ، يتم استبدال بيانات التقنيع بقيمة محددة.

تشفير متماثل: التشفير المتماثل هو طريقة إخفاء عكسية خاصة. يقوم بتشفير البيانات الحساسة من خلال مفاتيح التشفير والخوارزميات. يتماشى تنسيق النص المشفر مع البيانات الأصلية في القواعد المنطقية.

متوسط: غالبًا ما يستخدم المخطط المتوسط ​​في السيناريوهات الإحصائية. بالنسبة للبيانات العددية ، نقوم أولاً بحساب متوسطها ، ثم نقوم بتوزيع القيم غير الحساسة حول الوسط ، وبالتالي الحفاظ على مجموع البيانات ثابتًا.

الإزاحة والتقريب: هذه الطريقة تغير البيانات الرقمية عن طريق التحول العشوائي. يضمن التقريب الإزاحة الأصالة التقريبية للنطاق مع الحفاظ على أمان البيانات ، وهو أقرب إلى البيانات الحقيقية من المخططات السابقة ، وله أهمية كبيرة في سيناريو تحليل البيانات الضخمة.

ML-NPB-5660- 数据脱敏

نموذج التوصية "ML-NPB-5660"من أجل إخفاء البيانات

4. تقنيات إخفاء البيانات شائعة الاستخدام

(1). التقنيات الإحصائية

أخذ عينات من البيانات وتجميع البيانات

- أخذ عينات البيانات: يعد تحليل وتقييم البيانات الأصلية من خلال تحديد مجموعة فرعية تمثيلية من مجموعة البيانات طريقة مهمة لتحسين فعالية تقنيات إلغاء تحديد الهوية.

- تجميع البيانات: كمجموعة من التقنيات الإحصائية (مثل التجميع ، العد ، المتوسط ​​، الحد الأقصى والحد الأدنى) المطبقة على السمات في microdata ، فإن النتيجة تمثل جميع السجلات في مجموعة البيانات الأصلية.

(2). التشفير

التشفير هو وسيلة شائعة لإزالة حساسية أو تعزيز فعالية إزالة الحساسية. أنواع مختلفة من خوارزميات التشفير يمكن أن تحقق تأثيرات إزالة الحساسية المختلفة.

- التشفير الحتمي: تشفير متماثل غير عشوائي. عادةً ما يقوم بمعالجة بيانات المعرف ويمكنه فك تشفير واستعادة النص المشفر إلى المعرف الأصلي عند الضرورة ، ولكن يجب حماية المفتاح بشكل صحيح.

- تشفير لا رجعة فيه: يتم استخدام وظيفة التجزئة لمعالجة البيانات ، والتي عادة ما تستخدم لبيانات المعرف. لا يمكن فك تشفيرها مباشرة ويجب حفظ علاقة التعيين. بالإضافة إلى ذلك ، بسبب ميزة وظيفة التجزئة ، قد يحدث تصادم البيانات.

- التشفير المتجانس: يتم استخدام خوارزمية الشفرات الشفوية. خاصتها هي أن نتيجة عملية النص المشفر هي نفس عملية النص العادي بعد فك التشفير. لذلك ، يتم استخدامه بشكل شائع لمعالجة الحقول العددية ، لكنه لا يستخدم على نطاق واسع لأسباب الأداء.

(3). تكنولوجيا النظام

تقنية القمع تحذف أو تحمي عناصر البيانات التي لا تفي بحماية الخصوصية ، لكنها لا تنشرها.

- التقنيع: إنه يشير إلى طريقة إزالة الحساسية الأكثر شيوعًا لإخفاء قيمة السمة ، مثل رقم الخصم ، أو يتم تمييز بطاقة ID مع النجمة ، أو يتم اقتطاع العنوان.

- القمع المحلي: يشير إلى عملية حذف قيم السمات المحددة (الأعمدة) ، وإزالة حقول البيانات غير الضرورية ؛

- قمع السجل: يشير إلى عملية حذف سجلات محددة (صفوف) ، وحذف سجلات البيانات غير الضرورية.

(4). التكنولوجيا الاسم المستعار

الكاذب هو تقنية إلغاء تحديد الهوية تستخدم اسم مستعار لاستبدال معرف مباشر (أو معرف حساس آخر). تقوم تقنيات الاسم المستعار بإنشاء معرفات فريدة لكل موضوع معلومات فردي ، بدلاً من المعرفات المباشرة أو الحساسة.

- يمكن أن يولد قيمًا عشوائية بشكل مستقل لتتوافق مع المعرف الأصلي ، وحفظ جدول التعيين ، والتحكم الصارم في الوصول إلى جدول التعيين.

- يمكنك أيضًا استخدام التشفير لإنتاج أسماء مستعارة ، ولكن تحتاج إلى الحفاظ على مفتاح فك التشفير بشكل صحيح ؛

تستخدم هذه التقنية على نطاق واسع في حالة عدد كبير من مستخدمي البيانات المستقلين ، مثل OpenID في سيناريو المنصة المفتوحة ، حيث يحصل المطورين المختلفين على OpenIDs لنفس المستخدم.

(5). تقنيات التعميم

تشير تقنية التعميم إلى تقنية إلغاء تحديد الهوية تقلل من تفاصيل السمات المحددة في مجموعة بيانات وتوفر وصفًا أكثر عمومية وتجريدية للبيانات. تكنولوجيا التعميم سهلة التنفيذ ويمكنها حماية صحة بيانات مستوى السجل. يتم استخدامه بشكل شائع في منتجات البيانات أو تقارير البيانات.

- التقريب: يتضمن اختيار قاعدة تقريب للسمات المحددة ، مثل الطب الشرعي الصعودي أو الهبوط ، وتحقيق نتائج 100 و 500 و 1K و 10K

- تقنيات الترميز العلوية والسفلية: استبدل القيم أعلاه (أو أدناه) العتبة بعتبة تمثل المستوى العلوي (أو السفلي) ، مما يؤدي إلى نتيجة "أعلاه x" أو "أدناه x"

(6). تقنيات التوزيع العشوائي

كنوع من تقنية إلغاء تحديد الهوية ، تشير تقنية التوزيع العشوائي إلى تعديل قيمة السمة من خلال التوزيع العشوائي ، بحيث تختلف القيمة بعد العشوائية عن القيمة الحقيقية الأصلية. تقلل هذه العملية من قدرة المهاجم على استخلاص قيمة السمة من قيم السمات الأخرى في نفس سجل البيانات ، ولكنها تؤثر على صحة البيانات الناتجة ، وهو أمر شائع مع بيانات اختبار الإنتاج.


وقت النشر: SEP-27-2022