الملخص
يُسهّل التصميم الواسع للإنترنت انتشار البرامج الضارة، إلا أن الحماية منها تُشكّل تحديًا. ولمواجهة هذه المشكلة، قد تتحسن نماذج الكشف عن البرامج الضارة القائمة على التعلم الآلي، إلا أن معدلات اكتشافها تختلف باختلاف البرامج الضارة التي تعثر عليها وكيفية تصنيفها. إضافةً إلى ذلك، قد تختلف فعالية خوارزميات التعلم الآلي المختلفة للكشف عن البرامج الضارة باختلاف مدى ملاءمة مُصنّفاتها، حتى عند استخدام مجموعة بيانات تدريب مناسبة. يقترح هذا البحث طريقةً لتحديد البرامج الضارة. تجمع هذه الطريقة بين غابة عزل ومنهجية تعلم آلي لتحديد البرامج الضارة والملفات غير الضارة. كما تقترح هذه الدراسة أساليب تصويت لاتخاذ القرارات الرئيسية. باستخدام العديد من أشجار القرار، تبحث غابة العزل عن القيم المتطرفة في البيانات. بمعنى آخر، لا تحتاج إلى بيانات مُصنّفة لتدريب النموذج. تختار هذه الاستراتيجية مُعاملًا عشوائيًا، ثم تُقسّم المعلومات بين الحدود القصوى. ستمر شجرة القرار بعد ذلك بهذا الإجراء حتى يتم إنشاء جميع التقسيمات الممكنة في البيانات، أو يتم الوصول إلى أقصى عدد من التقسيمات. يمكن عزل الشذوذات والقيم المتطرفة وفرزها من البيانات بسهولة أكبر إذا تم رصدها مبكرًا. تُستخدم مجموعة بيانات KISA CISC2017 لإجراء اختبارات على المنهجية المقترحة. في تجربة استخدمت 96,724 عينة غير عادية، تم إدخالها في التدريب، لوحظت دقة قدرها 0.98.