ما هي تقنية إخفاء البيانات والحلول في Network Packet Broker؟

1. مفهوم إخفاء البيانات

إخفاء البيانات، المعروف أيضًا باسم إخفاء البيانات، هو أسلوب تقني لتحويل أو تعديل أو إخفاء بيانات حساسة، مثل رقم الهاتف المحمول ورقم البطاقة المصرفية وغيرها من المعلومات، وذلك عند تحديد قواعد وسياسات إخفاء محددة. تُستخدم هذه التقنية بشكل أساسي لمنع استخدام البيانات الحساسة مباشرةً في بيئات غير موثوقة.

مبدأ إخفاء البيانات: يجب أن يحافظ إخفاء البيانات على خصائص البيانات الأصلية، وقواعد العمل، وأهميتها، لضمان عدم تأثر التطوير والاختبار وتحليل البيانات اللاحقة به. تأكد من اتساق البيانات وصحتها قبل وبعد إخفاء البيانات.

2. تصنيف إخفاء البيانات

يمكن تقسيم إخفاء البيانات إلى إخفاء بيانات ثابتة (SDM) وإخفاء بيانات ديناميكية (DDM).

إخفاء البيانات الثابتة (SDM)يتطلب إخفاء البيانات الثابتة إنشاء قاعدة بيانات جديدة لبيئة غير إنتاجية لعزلها عن بيئة الإنتاج. تُستخرج البيانات الحساسة من قاعدة بيانات الإنتاج، ثم تُخزن في قاعدة البيانات غير الإنتاجية. بهذه الطريقة، تُعزل البيانات غير الحساسة عن بيئة الإنتاج، مما يُلبي احتياجات العمل ويضمن أمان بيانات الإنتاج.

إس دي إم

إخفاء البيانات الديناميكية (DDM)يُستخدم عادةً في بيئة الإنتاج لإزالة حساسية البيانات الحساسة آنيًا. أحيانًا، تتطلب قراءة نفس البيانات الحساسة في مواقف مختلفة مستويات مختلفة من التغطية. على سبيل المثال، قد تُطبّق الأدوار والأذونات المختلفة أنظمة تغطية مختلفة.

دي دي إم

تطبيق إعداد التقارير عن البيانات وإخفاء منتجات البيانات

تتضمن مثل هذه السيناريوهات بشكل أساسي منتجات مراقبة البيانات الداخلية أو اللوحات الإعلانية، ومنتجات بيانات الخدمة الخارجية، والتقارير المستندة إلى تحليل البيانات، مثل تقارير الأعمال ومراجعة المشروع.

إخفاء منتج تقارير البيانات

3. حل إخفاء البيانات

تتضمن مخططات إخفاء البيانات الشائعة ما يلي: الإبطال، والقيمة العشوائية، واستبدال البيانات، والتشفير المتماثل، والقيمة المتوسطة، والإزاحة والتقريب، وما إلى ذلك.

إبطاليشير مصطلح "الإلغاء" إلى تشفير البيانات الحساسة أو حذفها أو إخفائها. عادةً ما يستبدل هذا النظام البيانات الحقيقية برموز خاصة (مثل *). العملية بسيطة، ولكن لا يمكن للمستخدمين معرفة صيغة البيانات الأصلية، مما قد يؤثر على تطبيقات البيانات اللاحقة.

قيمة عشوائيةتشير القيمة العشوائية إلى الاستبدال العشوائي للبيانات الحساسة (الأرقام تحل محل الأرقام، والأحرف محل الحروف، والأحرف محل الأحرف). تضمن طريقة الإخفاء هذه تنسيق البيانات الحساسة إلى حد ما، وتُسهّل تطبيق البيانات لاحقًا. قد يلزم استخدام قواميس الإخفاء لبعض الكلمات ذات المعنى، مثل أسماء الأشخاص والأماكن.

استبدال البيانات:يشبه استبدال البيانات إخفاء القيم الفارغة والعشوائية، إلا أنه بدلاً من استخدام أحرف خاصة أو قيم عشوائية، يتم استبدال بيانات الإخفاء بقيمة محددة.

التشفير المتماثلالتشفير المتماثل هو أسلوب إخفاء عكسي خاص. يُشفّر البيانات الحساسة باستخدام مفاتيح وخوارزميات تشفير. يتوافق تنسيق النص المشفر مع البيانات الأصلية وفقًا للقواعد المنطقية.

متوسطيُستخدم مخطط المتوسط ​​الحسابي غالبًا في السيناريوهات الإحصائية. بالنسبة للبيانات الرقمية، نحسب متوسطها أولًا، ثم نوزع القيم غير الحساسة عشوائيًا حول المتوسط، مما يُبقي مجموع البيانات ثابتًا.

الإزاحة والتقريبتُغيّر هذه الطريقة البيانات الرقمية إزاحةً عشوائية. يضمن تقريب الإزاحة دقةً تقريبيةً للنطاق مع الحفاظ على أمان البيانات، وهو أقرب إلى البيانات الحقيقية من الطرق السابقة، وله أهميةٌ بالغة في سيناريوهات تحليل البيانات الضخمة.

ML-NPB-5660-مقياس ضغط الدم

"النموذج الموصى به"ML-NPB-5660"لإخفاء البيانات

4. تقنيات إخفاء البيانات الشائعة الاستخدام

(1). التقنيات الإحصائية

أخذ العينات من البيانات وتجميع البيانات

- أخذ العينات من البيانات: يعد تحليل وتقييم مجموعة البيانات الأصلية من خلال اختيار مجموعة فرعية تمثيلية من مجموعة البيانات طريقة مهمة لتحسين فعالية تقنيات إزالة التعريف.

- تجميع البيانات: باعتبارها مجموعة من التقنيات الإحصائية (مثل الجمع، والعد، والمتوسط، والحد الأقصى والحد الأدنى) المطبقة على السمات في البيانات الجزئية، فإن النتيجة تمثل جميع السجلات في مجموعة البيانات الأصلية.

(2). التشفير

التشفير طريقة شائعة لإزالة الحساسية أو تعزيز فعاليتها. وتختلف تأثيرات إزالة الحساسية باختلاف أنواع خوارزميات التشفير.

التشفير الحتمي: تشفير متماثل غير عشوائي. يعالج هذا التشفير عادةً بيانات الهوية، ويمكنه فك تشفير النص المشفر واستعادة هويته الأصلية عند الحاجة، ولكن يجب حماية المفتاح بشكل صحيح.

التشفير غير القابل للعكس: تُستخدم دالة التجزئة لمعالجة البيانات، وعادةً ما تُستخدم لبيانات الهوية. لا يمكن فك تشفيرها مباشرةً، ويجب حفظ علاقة التعيين. بالإضافة إلى ذلك، نظرًا لخاصية دالة التجزئة، قد يحدث تصادم في البيانات.

التشفير التماثلي: تُستخدم خوارزمية التشفير التماثلي للنص المشفر. وتتميز هذه الخوارزمية بأن نتيجة معالجة النص المشفر مطابقة لنتيجة معالجة النص العادي بعد فك التشفير. لذلك، تُستخدم عادةً لمعالجة الحقول الرقمية، ولكنها لا تُستخدم على نطاق واسع لأسباب تتعلق بالأداء.

(3). تكنولوجيا النظام

تعمل تقنية القمع على حذف أو حماية عناصر البيانات التي لا تلبي متطلبات حماية الخصوصية، ولكنها لا تنشرها.

- الإخفاء: يشير إلى طريقة إزالة التحسس الأكثر شيوعًا لإخفاء قيمة السمة، مثل رقم الخصم، أو وضع علامة النجمة على بطاقة الهوية، أو اقتطاع العنوان.

- القمع المحلي: يشير إلى عملية حذف قيم السمات المحددة (الأعمدة)، وإزالة حقول البيانات غير الأساسية؛

- حذف السجلات: يشير إلى عملية حذف سجلات معينة (صفوف)، وحذف سجلات البيانات غير الأساسية.

(4). تكنولوجيا الأسماء المستعارة

التزييف هو أسلوبٌ لإخفاء الهوية، يستخدم اسمًا مستعارًا ليحل محل مُعرّف مباشر (أو مُعرّف حساس آخر). تُنشئ تقنيات التزييف مُعرّفات فريدة لكلّ صاحب معلومات، بدلًا من المُعرّفات المباشرة أو الحساسة.

- يمكنه إنشاء قيم عشوائية بشكل مستقل لتتوافق مع المعرف الأصلي، وحفظ جدول التعيين، والتحكم الصارم في الوصول إلى جدول التعيين.

- يمكنك أيضًا استخدام التشفير لإنتاج أسماء مستعارة، ولكن يجب عليك الاحتفاظ بمفتاح فك التشفير بشكل صحيح؛

تُستخدم هذه التقنية على نطاق واسع في حالة وجود عدد كبير من مستخدمي البيانات المستقلين، مثل OpenID في سيناريو المنصة المفتوحة، حيث يحصل مطورون مختلفون على OpenID مختلفة لنفس المستخدم.

(5). تقنيات التعميم

تشير تقنية التعميم إلى تقنية إزالة التعريف التي تُقلل من دقة السمات المحددة في مجموعة البيانات، وتُقدم وصفًا أكثر عمومية وتجريدًا للبيانات. تتميز تقنية التعميم بسهولة تطبيقها، كما أنها تحمي صحة بيانات مستوى السجل. وتُستخدم عادةً في منتجات البيانات أو تقارير البيانات.

- التقريب: يتضمن تحديد قاعدة تقريب للسمة المحددة، مثل التحليل الجنائي للأعلى أو للأسفل، مما ينتج عنه نتائج 100 و500 و1 كيلو و10 كيلو

- تقنيات الترميز العلوية والسفلية: استبدال القيم أعلى (أو أسفل) الحد الأدنى بعتبة تمثل المستوى الأعلى (أو الأدنى)، مما يؤدي إلى نتيجة "أعلى من X" أو "أسفل من X"

(6). تقنيات التوزيع العشوائي

كنوع من تقنيات إزالة الهوية، تشير تقنية التوزيع العشوائي إلى تعديل قيمة سمة ما من خلال التوزيع العشوائي، بحيث تختلف قيمتها بعد التوزيع العشوائي عن قيمتها الحقيقية الأصلية. تُقلل هذه العملية من قدرة المهاجم على استنباط قيمة سمة من قيم سمات أخرى في سجل البيانات نفسه، ولكنها تؤثر على صحة البيانات الناتجة، وهو أمر شائع في بيانات اختبار الإنتاج.


وقت النشر: ٢٧ سبتمبر ٢٠٢٢