Nesnelerin İnterneti Için Makine Öğrenmesi Ile Etkin Bir Saldırı Tespit Sistemi Geliştirilmesi

TÜBİTAK Projesi, 1002 - Hızlı Destek Programı, 2024 - 2025

Proje Türü: TÜBİTAK Projesi
Destek Programı: 1002 - Hızlı Destek Programı
Başlama Tarihi: Ağustos 2024
Bitiş Tarihi: Ağustos 2025

Proje Özeti

Nesnelerin İnterneti (Internet of Things, IoT), 1990’lı yılların sonlarında ortaya çıkan, internete bağlı farklı cihazların bir araya gelerek, veri toplama, iletişim, kontrol ve ölçme gibi fonksiyonları bir arada gerçekleştirdiği sistemler olarak ifade edilmektedir. Günümüzde, IoT kavramı büyüyerek, karşımıza akıllı ev ve bina sistemleri, sağlık, akıllı arabalar gibi alanlarda kullanımı yaygınlaşmıştır [1]. IoT sektörünün 2025 sonunda 50 milyar cihazdan oluşan ve 3.9 ile 11.1 trilyon dolar ekonomik etki yaratan bir pazar haline gelmesi beklenmektedir [2]. Business Insider raporuna göre 2027’ye kadar yıllık 2.4 trilyon dolarlık büyüme beklenmektedir [3]. IoT cihazları, genellikle küçük boyutu, enerji tasarruflu ve uzaktan kontrol edilebilirdir. Teknolojinin hızlı gelişmesi, artan rekabet, kısıtlı kaynaklar ve maliyet kaygıları, IoT cihazların normal ağlara kıyasla daha savunmasız olmasına sebep olmaktadır. Kaspersky'nin araştırmasına göre, 2019'un ilk 6 ayında 276.000'den fazla IP adresinden 105 milyon saldırıya IoT cihazlar maruz kalmıştır [4]. IoT cihazlarının sayısı arttıkça, farklı ağ trafiği desenleri ortaya çıkmakta ve ilk-gün (zero-day) saldırıların tespitini zorlaşmaktadır. Makine öğrenmesi (Machine Learning, ML), bu hızla evrimleşen problemlerin çözümü için IoT cihazları için yaygın olarak kullanılan bir yöntem haline gelmektedir. Literatürde yapılan çeşitli çalışmalar imza-tabanlı (signature-based), anomali tabanlı (anomaly-based), host-tabanlı (host-based) gibi çok çeşitli saldırı tespit sistemi metodolojilerini değerlendirmiş ve ML tabanlı saldırı tespit sistemleri ile kıyaslanmıştır [2, 6, 7, 12, 13]. Literatürdeki son teknoloji (state-of-the-art) saldırı tespit çalışmalarının, yeni veri setlerinin yayınlanması, hataya karşı dirençlilik, yüksek başarımlar elde edilmesi ve ilk gün saldırılarına karşı iyi sonuçlar vermesinden dolayı makine öğrenmesine dayalı yöntemlerin yaygınlaştığı görülmüştür. Projede ML temelli, nadir karşılaşılan saldırılara karşı güçlü, modern bir IoT saldırı tespit sistemi geliştirilecektir. Projenin temel araştırma sorusu, IoT cihazlarının bulunduğu bir ağda ML yöntemleri kullanılarak saldırıların tespit edilmesinde elde edilen başarımın daha da artırılabilmesi için nasıl ve hangi oranda iyileştirmeler yapılabileceğinin belirlenmesidir. Projede bu başarımı artıracak farklı sorulara cevaplar aranacak ve kullanılacak metodolojilerin model başarımını artırması temel çıktı olarak ön planda tutulacaktır. Başarımı artıracak sorular sırasıyla irdelenmiştir. Öncelikli olarak (Bölüm 2, Yöntemler içerisinde ifade edilmiştir), literatürdeki son teknoloji olarak sunulan derin öğrenme tabanlı modellerin yerine karmaşıklığı daha düşük basit modellerle benzer başarımların elde edilip edilmeyeceği araştırılacaktır. Bu doğrultuda şu sorulara cevap aranması amaçlanmıştır: 1-) Öznitelik mühendisliğinin gücünden faydalanılarak, veri önişlemedeki hassasiyet ve literatürde bulunan farklı öznitelik oluşturma (feature generation) algoritmalarının uyarlanması ile oluşturulacak yeni özniteliklerin model başarısı arttırılabilecek mi? 2-) Özellikle literatürde karşılaşılan azınlık sınfılandırma başarımlarındaki düşüklüğün giderilmesi için modelin analiz edilerek başarımı düşük olan sınıflar için özniteliklerin çıkarılması ile bu sınıfların sınıflandırma başarımlarını nasıl iyileştirilebilecektir? 3-) Klasik modellerde azınlık sınıflar için çeşitli yeniden örnekleme (resampling) metotları ile elde edilen sentetik veriler kullanılarak azınlık sınıflarının sayılarının arttırılmasının başarıma etkileri nasıl olacaktır? 4-) Derin öğrenmede sıklıkla kullanılan transfer öğrenme (transfer learning) metodolojileriyle, IoT olmayan veri setleri kullanılarak eğitilecek bir ön eğilimli modelin üzerine IoT veri setleri ile eğitilmiş bir modelin standart IoT veri setleri ile eğitilen modellere karşı bir kazanımı olabilecek mi? 5-) Derin öğrenme metotlarında kullanılan Varyasyonel Otokodlayıcılar (Variational Autoencoders, VAEs) kullanılarak yapılacak bir yeniden örnekleme metoduyla model başarımının yeniden örnekleme yapmadan oluşturulacak bir modele kıyasla başarımı ne olacaktır? 6-) Yeni yöntem ile saldırı tespit performansının artışı veya azınlık saldırıların tespiti başarımında performans kazancı olsa da bunun getireceği/azaltacağı hesaplama karmaşıklığı ne olacaktır? Bu doğrultuda projede IoT cihazlarının bulunduğu kritik endüstriyel ağlarda kullanılabilecek klasik ML tabanlı sistemlere ek kazanç sağlamak için yeni öznitelikler ve uygun aşağı/yukarı örnekleme şemasının yer aldığı bir saldırı tespit modeli hedeflenmektedir. IoT alanında güncel veri setlerini kullanan ML/Derin Öğrenme (DL) yaklaşımlı modellerle ilgili çalışmalar, öznitelik mühendisliği ve veri önişleme adımları açısından oldukça zayıf kaldığı gözlemlenmiştir (Bu çalışmalar detaylı olarak Bölüm-2 Yöntemlerde açıklanmıştır). Yapılan çalışmalar genellikle model odaklı olması potansiyel veri kaynaklarının doğru işlenmemesi ve buna bağlı olarak oluşturulan sonuçların yanlı ve/veya aşırı öğrenme probleminde muzdarip olup olmadığı belirlenememektedir. Bu proje önerisindeki temel değer, veri/öznitelik ekseninde veri mühendisliği ve önişleme aşamalarına odaklanarak hem tek tek özniteliklerin işlendiği hem de otomatik öznitelik çıkarımı metotlarıyla yenilikçi var olan özniteliklerin aralarındaki çeşitli kompleks ilişkileri ifade edecek yeni ve başarımı arttıracak özniteliklerin elde edilmesi amaçlanmaktadır. Yapılacak çalışmada literatürde var olan öznitelikler kullanılacak ve bu öznitelikler çeşitli matematiksel operatörler ve/veya kuralları gibi çeşitli ifadeler haline getirilerek model başarımı arttırılacaktır. Bu sayede, proje kapsamında kurulacak klasik ML metotlarıyla dahi derin öğrenme modelleriyle yarışabilir öğrenme modelleri oluşturulması amaçlanmaktadır. Bunun yanında uygun eğitim şeması belirlenerek yapılan çalışmanın doğru ve yanlılıktan olabildiğince uzak bir şekilde değerlendirilmesine olanak sağlayacak bir yol da izlenecektir. Bu da yapılacak çalışmayı, literatürdeki diğer çalışmalardan ayıran özgün bir yöndür. Proje kapsamında, klasik ML modellerine ek olarak transfer öğrenme metodolojilerini kullanan bir model geliştirilecek ve bu sayede daha iyi parametre uzayından başlanarak mevcut modellere göre başarımı daha iyi bir model geliştirilecektir. Dolayısıyla projenin iki temel çıktısı olması planlanmıştır.1-) DL modellerle yarışabilecek etkin ve klasik ML modellerine dayalı bir model oluşturarak, bu sistemlerin yorumlanabilirlik, kullanılabilirlik ve sürdürülebilirlik açısından DL modellerin karşılaştığı zorluklara karşı gerçek dünyada doğrudan kullanılabilecek (IoT cihazlara gömülebilecek yazılım) toy modeller oluşturmaktır. 2-) Transfer öğrenme modelleri ile oluşturulacak ve DL modellerinden daha iyi olması amaçlanan modellerle de literatüre yeni bir katkı sağlamaktır. Bu özgün ML yöntemi için hem öznitelik çıkarımında hem de örnekleme yöntemlerinde detaylı ve uygun değişiklikler yapılması gerekmektedir. Buna göre yeni yöntem saldırı tespiti için uygulandığında, her bir IoT cihaz için gelen ağ verisi ile cihaza ait paketlerin sahip olduğu anomaliler etkin biçimde belirlenebilecek ve ML yöntemlerinin getirdiği işlem yükünün bertaraf edilmesi sağlanacaktır. Özetle, projenin en önemli özgünlüğü klasik makine öğrenimi tabanlı sistemlere ek kazanç sağlayacak yeni öznitelik, uygun aşağı/yukarı örnekleme ön eğilimli bir saldırı tespit modeli performansını iyileştirmek olup literatüre katılacak özgün değerler şu şekilde açıklanabilir: modelin sahip olacağı öznitelik oluşturma (feature generation) yöntemleriyle açıklanabilir yenilikçi öznitelikler model başarımını arttıracaktır. Modele eklenecek olan farklı örnekleme (Locality Sensitive Hashing, LSH) yöntemleri ile modelin hatalarında eğitilen bir ağaç modeli oluşturularak iteratif bir şekilde çıkarılacak yeni öznitelikler ile özellikle azınlık sınıfın tespit başarısının iyileştirilmesi sağlanacaktır. Diğer taraftan klasik ağ veri setleri kullanılarak model eğitimi rassal noktalardan başlatılmak yerine ön eğitimli model aracılığıyla belirli bir yakınsak noktadan başlatılarak modelin performansı iyileştirilecektir.