معیار های ارزیابی الگوریتم های IDS و معرفی دادگان Kdd CUP 99

دادگان (Data Set) مجموعه ای از داده های گردآوری شده در رابطه با یک موضوع واحد بوده و بیشتر ین کاربرد آن در داده کاوی (Data Mining) است اما یکی از ابزارهای بسیارمناسب و کارآمد برای آزمون و ارزیابی الگوریتم های طراحی شده در یک حوزه خاص نیز به شمار می رود برای مثال دادگان 99 Kdd CUP با هدف آزمون الگوریتم های تشخیص نفوذ (Intrusion Detection) گردآوری و طراحی شده است این مجموعه داده با استفاده از حجم عظيم داده هاي گرد آوري شده در پروژه DIDE یا Darpa Intrusion Detection Evalution که با همکاري سازمان پروژه هاي تحقيقاتي پيشرفته دفاعي ، وزارت دفاع ايالات متحده آمريکا و آزمايشگاه لينکلن دانشگاه MIT انجام شد ، تهيه گرديده است هدف از تهیه اين دادگان ، ايجاد يک مجموعه داده استاندارد براي ارزيابي سيستم هاي تشخيص نفوذ (Intrusion Detection System) است.

دوره های شبکه، برنامه نویسی، مجازی سازی، امنیت، نفوذ و ... با برترین های ایران

برای مشاهده تخفیف های ویژه امروز کلیک کنید

از این روکليه رکوردهاي موجود در اين مجموعه داده ، توسط افراد خبره در حوزه امنيت اطلاعات برچسب گذاري شده است بگونه اي که تعلق هر رکورد به کلاس خاصي از حمله و يا عادي بودن رکورد به آساني قابل تشخيص است. اين دادگان از دو مجموعه داده جداگانه تشکيل مي شود که عبارتند از : مجموعه داده های آموزشي (Training) که مجموعه يادگيري نيز ناميده مي شود و مجموعه آزمون (Test) که از مجموعه يادگيري براي تحليل دقيق رفتار حمله و تدوين قوانين موثر و کارآمد استفاده می شود و براي آزمون و ارزیابی الگوریتم پيشنهادي نيز از هردو مجموعه يادگيري و آزمون استفاده می شود. یکی از دادگان های مطرح برگرفته شده از KDD CUP 99 دادگان NLS-KDD است که توسط تولايي و همکاران(M. Tavallaee, E. Bagheri, W. Lu, and A. Ghorbani) با انجام تحليلهاي آماري دقيق در خصوص دادگان Kdd Cup 99 و براي حل برخي از مشکلات ذاتي دادگان Kdd Cup 99 تهیه گردیده است که نسبت به Kdd Cup 99 داراي برتری های زیر است:

1-هردو مجموعه داده هاي يادگيري و آزمون فاقد رکورد تکراري هستند که اين ويژگي موجب بالاتر رفتن دقت و کارآيي الگوريتمهاي داده کاوي و يادگيري ماشيني شده و مانع ازتاثير منفي رکوردهاي تکراري بر خروجي الگوريتم خواهد شد.

2-تعداد رکوردها در مجموعه يادگيري و آزمون مناسب و خردمندانه انتخاب شده است که اين ويژگي سرعت الگوريتمهاي يادگيري ماشيني و داده کاوي را افزايش ميدهد.

دادگان (Data Set) مجموعه ای از داده های گردآوری شده در رابطه با یک موضوع واحد بوده و بیشتر ین کاربرد آن در داده کاوی (Data Mining) است اما یکی از ابزارهای بسیارمناسب و کارآمد برای آزمون و ارزیابی الگوریتم های طراحی شده در یک حوزه خاص نیز به شمار می رود برای مثال دادگان 99 Kdd CUP با هدف آزمون الگوریتم های تشخیص نفوذ (Intrusion Detection) گردآوری و طراحی شده است این مجموعه داده با استفاده از حجم عظيم داده هاي گرد آوري شده در پروژه DIDE یا Darpa Intrusion Detection Evalution که با همکاري سازمان پروژه هاي تحقيقاتي پيشرفته دفاعي ، وزارت دفاع ايالات متحده آمريکا و آزمايشگاه لينکلن دانشگاه MIT انجام شد ، تهيه گرديده است هدف از تهیه اين دادگان ، ايجاد يک مجموعه داده استاندارد براي ارزيابي سيستم هاي تشخيص نفوذ (Intrusion Detection System) است.

از این روکليه رکوردهاي موجود در اين مجموعه داده ، توسط افراد خبره در حوزه امنيت اطلاعات برچسب گذاري شده است بگونه اي که تعلق هر رکورد به کلاس خاصي از حمله و يا عادي بودن رکورد به آساني قابل تشخيص است. اين دادگان از دو مجموعه داده جداگانه تشکيل مي شود که عبارتند از : مجموعه داده های آموزشي (Training) که مجموعه يادگيري نيز ناميده مي شود و مجموعه آزمون (Test) که از مجموعه يادگيري براي تحليل دقيق رفتار حمله و تدوين قوانين موثر و کارآمد استفاده می شود و براي آزمون و ارزیابی الگوریتم پيشنهادي نيز از هردو مجموعه يادگيري و آزمون استفاده می شود. یکی از دادگان های مطرح برگرفته شده از KDD CUP 99 دادگان NLS-KDD است که توسط تولايي و همکاران(M. Tavallaee, E. Bagheri, W. Lu, and A. Ghorbani) با انجام تحليلهاي آماري دقيق در خصوص دادگان Kdd Cup 99 و براي حل برخي از مشکلات ذاتي دادگان Kdd Cup 99 تهیه گردیده است که نسبت به Kdd Cup 99 داراي برتری های زیر است:

1-هردو مجموعه داده هاي يادگيري و آزمون فاقد رکورد تکراري هستند که اين ويژگي موجب بالاتر رفتن دقت و کارآيي الگوريتمهاي داده کاوي و يادگيري ماشيني شده و مانع ازتاثير منفي رکوردهاي تکراري بر خروجي الگوريتم خواهد شد.
2-تعداد رکوردها در مجموعه يادگيري و آزمون مناسب و خردمندانه انتخاب شده است که اين ويژگي سرعت الگوريتمهاي يادگيري ماشيني و داده کاوي را افزايش ميدهد.

||https://tosinso.com/files/get/0453e730-3d85-4871-9bcd-a771dba928e5||

مجموعه داده NLS-KDD شامل 42 ويژگي یا فیلد است که عبارتند از: 41 ويژگي عادي مربوط به اتصالات شبکه و يک ويژگي کلاس که در آن 5 کلاس مختلف شامل يک کلاس عادي و 4 کلاس حمله تعريف شده است. کلاسهاي حمله عبارتند از : DoS ، U2R ، R2L و Prob

* DoS : به دسته اي از حملات گفته مي شود که مولفه ((دسترس پذيري)) اطلاعات را هدف قرار گرفته و در نتيجه مانع از دسترسي کابران به سرويسهاي ارائه شده در یک شبکه مي گردند.
* R2L : در اين دسته از حملات مهاجم تلاش مي کند تا از راه دور، و با استفاده از روشهايي چون حدس زدن گذرواژه کاربران و سرريزي بافر ، کنترل ماشين قرباني را بدست آورد. در صورتي که اين حمله با موفقيت انجام گردد بسته به مجوزها و سطح دسترسي که نفوذگر بدست آورده است مي تواند هر سه مولفه اساسي امنيت اطلاعات را به تمامي خدشه دار نمايد.
* U2R: اين دسته از حمله ها در ماشين قرباني اجرا شده و مهاجم که داراي سطح دسترسي يک کاربر عادي است تلاش مي کند تا مجوزهاي کاربر ريشه (در سيستمهاي لينوکس کاربر Root ودر سيستمهاي ويندوز کاربر Administrator) را در اختيار بگيرد.
* Probing: در اين دسته که به حملات کاوشي و شناسايي نيز مشهورند ، نفوذگر با استفاده از ابزارهاي گوناگوني چون Nmap ماشين هاي موجود در شبکه هدف را براي گردآوري اطلاعات اوليه و مورد نيازبراي آغاز حمله و نيز يافتن آسيب پذيريهاي شناخته شده پويش مي کند.

||https://tosinso.com/files/get/7b5a582e-ebbb-460f-b5d9-737b2961556d||

براي ارزيابي الگوریتم تشخيص نفوذ پيشنهادي ، با استفاده از دادگان NLS KDD کافی است تا برچسب حمله که توسط افراد خبره به هر رکورد موجود در این دادگان ، نسبت داده شده است را با برچسبي که توسط الگوریتم پيشنهادي به رکوردهاي موجود در اين دادگان ، نسبت داده مي شود مقايسه کنید . بر اساس تشخيص درست يا نادرست رکوردها توسط الگوریتم پيشنهادي ، رخ دادن حالتهاي خلاصه شده در جدول زیر قابل پيش بيني است:

||https://tosinso.com/files/get/6d49a265-1110-4798-a6b1-f7173690d1c7||

معيار TN : درصد رکوردهاي عادي که توسط الگوریتم پيشنهادي به درستي تشخيص داده شده است.
معيار TP : درصد رکوردهاي حمله که توسط الگوریتم پيشنهادي به درستي تشخيص داده شده است.
معيار FP : درصد رکوردهاي عادي که توسط الگوریتم پيشنهادي به اشتباه از نوع رکورد حمله تشخيص داده شده است
معيار FN : درصد رکوردهاي حمله که توسط سيستم پيشنهادي به اشتباه از نوع رکورد عادي تشخيص داده شده است.
معيار دقت (Accuracy) : اين معيار بيانگر آن است که الگوریتم پيشنهادي چند درصد از کل رکوردهای موجود در دادگان را بدرستي تشخيص داده شده است. اين معيار دقت کل الگوریتم پيشنهادي را محاسبه مي کند:

||https://tosinso.com/files/get/d9a24524-b25a-4f58-8c8d-109506dca2ac||
بنا براين دو معيار TN و TP مهمترين مقاديري هستند که بايد بيشينه شوند تا دقت الگوریتم پيشنهادي بيشينه گردد.

نویسنده : محمد ایزانلو
منبع : |جزیره امنیت اطلاعات و ارتباطات وب سایت توسینسو::https://security.tosinso.com|
هرگونه نشر و کپی برداری بدون ذکر منبع دارای اشکال اخلاقی است

مجموعه داده NLS-KDD شامل 42 ويژگي یا فیلد است که عبارتند از: 41 ويژگي عادي مربوط به اتصالات شبکه و يک ويژگي کلاس که در آن 5 کلاس مختلف شامل يک کلاس عادي و 4 کلاس حمله تعريف شده است. کلاسهاي حمله عبارتند از : DoS ، U2R ، R2L و Prob

DoS : به دسته اي از حملات گفته مي شود که مولفه ((دسترس پذيري)) اطلاعات را هدف قرار گرفته و در نتيجه مانع از دسترسي کابران به سرويسهاي ارائه شده در یک شبکه مي گردند.
R2L : در اين دسته از حملات مهاجم تلاش مي کند تا از راه دور، و با استفاده از روشهايي چون حدس زدن گذرواژه کاربران و سرريزي بافر ، کنترل ماشين قرباني را بدست آورد. در صورتي که اين حمله با موفقيت انجام گردد بسته به مجوزها و سطح دسترسي که نفوذگر بدست آورده است مي تواند هر سه مولفه اساسي امنيت اطلاعات را به تمامي خدشه دار نمايد.
U2R: اين دسته از حمله ها در ماشين قرباني اجرا شده و مهاجم که داراي سطح دسترسي يک کاربر عادي است تلاش مي کند تا مجوزهاي کاربر ريشه (در سيستمهاي لينوکس کاربر Root ودر سيستمهاي ويندوز کاربر Administrator) را در اختيار بگيرد.
Probing: در اين دسته که به حملات کاوشي و شناسايي نيز مشهورند ، نفوذگر با استفاده از ابزارهاي گوناگوني چون Nmap ماشين هاي موجود در شبکه هدف را براي گردآوري اطلاعات اوليه و مورد نيازبراي آغاز حمله و نيز يافتن آسيب پذيريهاي شناخته شده پويش مي کند.

براي ارزيابي الگوریتم تشخيص نفوذ پيشنهادي ، با استفاده از دادگان NLS KDD کافی است تا برچسب حمله که توسط افراد خبره به هر رکورد موجود در این دادگان ، نسبت داده شده است را با برچسبي که توسط الگوریتم پيشنهادي به رکوردهاي موجود در اين دادگان ، نسبت داده مي شود مقايسه کنید . بر اساس تشخيص درست يا نادرست رکوردها توسط الگوریتم پيشنهادي ، رخ دادن حالتهاي خلاصه شده در جدول زیر قابل پيش بيني است:

معيار TN : درصد رکوردهاي عادي که توسط الگوریتم پيشنهادي به درستي تشخيص داده شده است.

معيار TP : درصد رکوردهاي حمله که توسط الگوریتم پيشنهادي به درستي تشخيص داده شده است.

معيار FP : درصد رکوردهاي عادي که توسط الگوریتم پيشنهادي به اشتباه از نوع رکورد حمله تشخيص داده شده است

معيار FN : درصد رکوردهاي حمله که توسط سيستم پيشنهادي به اشتباه از نوع رکورد عادي تشخيص داده شده است.

معيار دقت (Accuracy) : اين معيار بيانگر آن است که الگوریتم پيشنهادي چند درصد از کل رکوردهای موجود در دادگان را بدرستي تشخيص داده شده است. اين معيار دقت کل الگوریتم پيشنهادي را محاسبه مي کند:

بنا براين دو معيار TN و TP مهمترين مقاديري هستند که بايد بيشينه شوند تا دقت الگوریتم پيشنهادي بيشينه گردد.

معیار های ارزیابی الگوریتم های IDS و معرفی دادگان Kdd CUP 99

نظرات