ما هي تقنية إخفاء البيانات والحلول المستخدمة في وسيط حزم الشبكة؟

1. مفهوم إخفاء البيانات

يُعرف إخفاء البيانات أيضًا باسم إخفاء البيانات. وهو أسلوب تقني لتحويل أو تعديل أو تغطية البيانات الحساسة، مثل أرقام الهواتف المحمولة وأرقام بطاقات البنوك وغيرها من المعلومات، وذلك عند تطبيق قواعد وسياسات محددة لإخفاء البيانات. تُستخدم هذه التقنية بشكل أساسي لمنع استخدام البيانات الحساسة مباشرةً في بيئات غير موثوقة.

مبدأ إخفاء البيانات: يجب أن يحافظ إخفاء البيانات على خصائص البيانات الأصلية وقواعد العمل ومدى ملاءمتها لضمان عدم تأثر عمليات التطوير والاختبار وتحليل البيانات اللاحقة بالإخفاء. تأكد من اتساق البيانات وصحتها قبل الإخفاء وبعده.

2. تصنيف إخفاء البيانات

يمكن تقسيم إخفاء البيانات إلى إخفاء البيانات الثابت (SDM) وإخفاء البيانات الديناميكي (DDM).

إخفاء البيانات الثابتة (SDM)يتطلب إخفاء البيانات الثابتة إنشاء قاعدة بيانات جديدة غير إنتاجية لعزلها عن بيئة الإنتاج. تُستخرج البيانات الحساسة من قاعدة بيانات الإنتاج ثم تُخزن في قاعدة البيانات غير الإنتاجية. وبهذه الطريقة، تُعزل البيانات غير الحساسة عن بيئة الإنتاج، مما يلبي احتياجات العمل ويضمن أمان بيانات الإنتاج.

SDM

إخفاء البيانات الديناميكي (DDM)يُستخدم هذا الأسلوب عادةً في بيئة الإنتاج لإخفاء البيانات الحساسة في الوقت الفعلي. في بعض الأحيان، تتطلب قراءة البيانات الحساسة نفسها مستويات مختلفة من الإخفاء في مواقف مختلفة. على سبيل المثال، قد تُطبّق أدوار وصلاحيات مختلفة أنظمة إخفاء مختلفة.

DDM

تطبيق إعداد التقارير عن البيانات وإخفاء منتجات البيانات

وتشمل هذه السيناريوهات بشكل رئيسي منتجات مراقبة البيانات الداخلية أو لوحات الإعلانات، ومنتجات بيانات الخدمة الخارجية، والتقارير المستندة إلى تحليل البيانات، مثل تقارير الأعمال ومراجعة المشاريع.

إخفاء بيانات المنتج في تقارير البيانات

3. حلول إخفاء البيانات

تشمل مخططات إخفاء البيانات الشائعة ما يلي: الإبطال، والقيمة العشوائية، واستبدال البيانات، والتشفير المتماثل، والقيمة المتوسطة، والإزاحة والتقريب، وما إلى ذلك.

إبطاليشير مصطلح "الإبطال" إلى تشفير البيانات الحساسة أو اقتطاعها أو إخفائها. عادةً ما تستبدل هذه الآلية البيانات الحقيقية برموز خاصة (مثل *). العملية بسيطة، لكن المستخدمين لا يستطيعون معرفة تنسيق البيانات الأصلية، مما قد يؤثر على استخدامات البيانات اللاحقة.

قيمة عشوائيةتشير القيمة العشوائية إلى الاستبدال العشوائي للبيانات الحساسة (استبدال الأرقام بالأرقام، والحروف بالحروف، والرموز بالرموز). تضمن هذه الطريقة إخفاء البيانات الحساسة إلى حد ما، وتسهل استخدامها لاحقًا. قد تكون هناك حاجة إلى قواميس إخفاء لبعض الكلمات ذات الدلالة، مثل أسماء الأشخاص والأماكن.

استبدال البيانات: استبدال البيانات يشبه إخفاء القيم الفارغة والعشوائية، باستثناء أنه بدلاً من استخدام الأحرف الخاصة أو القيم العشوائية، يتم استبدال بيانات الإخفاء بقيمة محددة.

التشفير المتناظرالتشفير المتناظر هو أسلوب خاص لإخفاء البيانات قابل للعكس. يقوم بتشفير البيانات الحساسة باستخدام مفاتيح وخوارزميات التشفير. ويتوافق تنسيق النص المشفر مع البيانات الأصلية وفقًا لقواعد منطقية.

متوسطتُستخدم طريقة المتوسط ​​غالبًا في السيناريوهات الإحصائية. بالنسبة للبيانات العددية، نحسب أولًا متوسطها، ثم نوزع القيم غير الحساسة عشوائيًا حول المتوسط، وبالتالي نحافظ على مجموع البيانات ثابتًا.

الإزاحة والتقريبتُغيّر هذه الطريقة البيانات الرقمية عن طريق إزاحة عشوائية. ويضمن تقريب الإزاحة دقة النطاق مع الحفاظ على أمان البيانات، مما يجعلها أقرب إلى البيانات الحقيقية من الطرق السابقة، ولها أهمية بالغة في مجال تحليل البيانات الضخمة.

ML-NPB-5660-جهاز كمبيوتر شخصي

نموذج التوصيةML-NPB-5660"لإخفاء البيانات

4. تقنيات إخفاء البيانات الشائعة الاستخدام

(1) الأساليب الإحصائية

أخذ عينات البيانات وتجميعها

- أخذ عينات البيانات: يعد تحليل وتقييم مجموعة البيانات الأصلية عن طريق اختيار مجموعة فرعية تمثيلية من مجموعة البيانات طريقة مهمة لتحسين فعالية تقنيات إخفاء الهوية.

- تجميع البيانات: كمجموعة من التقنيات الإحصائية (مثل الجمع والعد والمتوسط ​​والحد الأقصى والحد الأدنى) المطبقة على السمات في البيانات الجزئية، فإن النتيجة تمثل جميع السجلات في مجموعة البيانات الأصلية.

(2). علم التشفير

يُعدّ التشفير أسلوبًا شائعًا لتقليل حساسية المعلومات أو تعزيز فعالية تقليل الحساسية. ويمكن لأنواع مختلفة من خوارزميات التشفير أن تحقق تأثيرات مختلفة في تقليل الحساسية.

- التشفير الحتمي: هو تشفير متماثل غير عشوائي. عادةً ما يعالج بيانات الهوية ويمكنه فك تشفير النص المشفر واستعادة الهوية الأصلية عند الضرورة، ولكن يجب حماية المفتاح بشكل صحيح.

- التشفير غير القابل للعكس: تُستخدم دالة التجزئة لمعالجة البيانات، وهي شائعة الاستخدام لبيانات الهوية. لا يمكن فك تشفيرها مباشرةً، ويجب حفظ علاقة الربط. إضافةً إلى ذلك، قد يحدث تصادم في البيانات بسبب طبيعة دالة التجزئة.

التشفير المتماثل: تُستخدم خوارزمية التشفير المتماثل للنص المشفر. وتتميز هذه الخوارزمية بأن نتيجة عملية التشفير على النص المشفر هي نفسها نتيجة عملية فك التشفير على النص الأصلي. ولذلك، فهي شائعة الاستخدام لمعالجة الحقول الرقمية، ولكنها ليست شائعة الاستخدام لأسباب تتعلق بالأداء.

(3). تكنولوجيا النظام

تقوم تقنية الحجب بحذف أو حجب عناصر البيانات التي لا تفي بمعايير حماية الخصوصية، ولكنها لا تنشرها.

- الإخفاء: يشير إلى أكثر طرق إزالة الحساسية شيوعًا لإخفاء قيمة السمة، مثل رقم الخصم، أو وضع علامة نجمة على بطاقة الهوية، أو اقتطاع العنوان.

- الحذف المحلي: يشير إلى عملية حذف قيم سمات محددة (أعمدة)، وإزالة حقول البيانات غير الأساسية؛

- إخفاء السجلات: يشير إلى عملية حذف سجلات محددة (صفوف)، وحذف سجلات البيانات غير الأساسية.

(4). تقنية الأسماء المستعارة

التسميات المستعارة هي تقنية لإخفاء الهوية تستخدم اسمًا مستعارًا لاستبدال المعرّف المباشر (أو أي معرّف حساس آخر). وتُنشئ تقنيات الأسماء المستعارة معرّفات فريدة لكل فرد من أفراد المعلومات، بدلاً من المعرّفات المباشرة أو الحساسة.

- يمكنه توليد قيم عشوائية بشكل مستقل لتتوافق مع المعرف الأصلي، وحفظ جدول الربط، والتحكم بدقة في الوصول إلى جدول الربط.

- يمكنك أيضًا استخدام التشفير لإنتاج أسماء مستعارة، ولكنك تحتاج إلى الاحتفاظ بمفتاح فك التشفير بشكل صحيح؛

تُستخدم هذه التقنية على نطاق واسع في حالة وجود عدد كبير من مستخدمي البيانات المستقلين، مثل OpenID في سيناريو المنصة المفتوحة، حيث يحصل مطورون مختلفون على معرفات OpenID مختلفة لنفس المستخدم.

(5) أساليب التعميم

تشير تقنية التعميم إلى أسلوب لإخفاء هوية البيانات، يقلل من مستوى تفصيل السمات المختارة في مجموعة البيانات، ويقدم وصفًا أكثر عمومية وتجريدًا لها. تتميز تقنية التعميم بسهولة تطبيقها، وقدرتها على حماية صحة البيانات على مستوى السجلات. وهي شائعة الاستخدام في منتجات البيانات وتقاريرها.

- التقريب: يتضمن اختيار أساس تقريب للخاصية المحددة، مثل التقريب التصاعدي أو التنازلي، مما ينتج عنه نتائج 100، 500، 1000، و10000

- تقنيات الترميز العلوي والسفلي: استبدال القيم التي تزيد عن (أو تقل عن) العتبة بعتبة تمثل المستوى العلوي (أو السفلي)، مما ينتج عنه نتيجة "أعلى من X" أو "أقل من X".

(6). تقنيات التوزيع العشوائي

تُعدّ تقنية التوزيع العشوائي نوعًا من تقنيات إخفاء الهوية، حيث تُشير إلى تعديل قيمة سمة ما من خلال التوزيع العشوائي، بحيث تختلف القيمة بعد التوزيع العشوائي عن القيمة الأصلية الحقيقية. تُقلّل هذه العملية من قدرة المُهاجم على استنتاج قيمة السمة من قيم السمات الأخرى في سجل البيانات نفسه، ولكنها تُؤثّر على مصداقية البيانات الناتجة، وهو أمر شائع في بيانات اختبار الإنتاج.


تاريخ النشر: 27 سبتمبر 2022