Uzaktan Algılamada Nesne Tespiti için Açıklanabilir Yapay Zeka Yöntemlerinin Katman-Bazlı Değerlendirilmesi


Creative Commons License

Koçdor E., Ertürk A.

IX. Uzaktan Algılama ve Coğrafi Bilgi Sistemleri Sempozyumu (UZAL-CBS 2024), Aksaray, Türkiye, 17 - 19 Ekim 2024, ss.1-5, (Tam Metin Bildiri)

  • Yayın Türü: Bildiri / Tam Metin Bildiri
  • Basıldığı Şehir: Aksaray
  • Basıldığı Ülke: Türkiye
  • Sayfa Sayıları: ss.1-5
  • Açık Arşiv Koleksiyonu: AVESİS Açık Erişim Koleksiyonu
  • Kocaeli Üniversitesi Adresli: Evet

Özet

Derin öğrenme yaklaşımları, uzaktan algılamada nesne tespiti de dahil olmak üzere birçok veri işleme görevinde performans açısından önemli ilerlemeler kaydetmiştir. Ancak, “kara kutu” doğaları ve yorumlanabilirlik eksiklikleri, ortaya çıktıkları günden beri haklı bir eleştiri konusu olmuştur. Derin öğrenme süreçlerinin ve bunların girdi-çıktı ilişkilerinin yorumlanabilirliğini artırmak için son zamanlarda Açıklanabilir Yapay Zeka (AYZ) yaklaşımları ortaya çıkmıştır. AYZ, model kararlarına daha net bir anlayış sağlayarak, makine öğrenimi modellerinde adalet, hesap verebilirlik ve şeffaflığa önemli ölçüde katkıda bulunma potansiyeline sahiptir. Bu çalışmada, uzaktan algılama verileri üzerinde nesne tespiti için You-Only-Look-Once (YOLO) modeli kullanılmış ve modelin yorumlanabilirliğini artırmak amacıyla Grad-CAM, Grad-CAM++, XGrad-CAM, Eigen-CAM ve Layer-CAM AYZ yöntemleri uygulanmıştır. Bu yöntemlerin YOLOv5 ağındaki çeşitli katmanlarda nasıl performans gösterdiği, Detection in Optical Remote Sensing (DIOR) veri kümesi kullanılarak sistematik bir şekilde incelenmiştir. Her bir AYZ yönteminin hangi katmanda daha anlamlı ve yorumlanabilir görseller ürettiği tespit edilmiştir. Katman bazlı analizde, AYZ yöntemlerinin derin sinir ağlarının düşük seviyeli kenar tespitinden yüksek seviyeli nesne temsillerine kadar farklı soyutlama düzeylerini yakaladığı gözlemlenmiştir. Niteliksel olarak, AYZ yöntemleri tarafından üretilen ısı haritaları görselleştirilmiş ve nesne tespiti ile olan uyumları değerlendirilmiştir. Niceliksel değerlendirme kapsamında, sınıflandırma amaçlı bir çalışmadan benimsenen bir AYZ değerlendirme çerçevesi kullanılarak her bir ısı haritası Otsu eşikleme yöntemiyle otomatik olarak eşiklenmiş ve eşiklenmiş görüntülerde hedef tespiti gerçekleştirildiğinde ortalama hassasiyet (mean average precision - mAP) değerlerindeki değişiklikler ölçülmüştür. Daha bilgilendirici ısı haritaları, eşiğin üstünde kalan alanların maskelendiği yaklaşımda (M1) daha büyük hassasiyet düşüşü ve arka planın maskelendiği yaklaşımda (M2) daha az hassasiyet düşüşü ile sonuçlanmalıdır. Çalışmada, Grad-CAM,  Grad-CAM++ ve XGrad-CAM için derin evrişimsel katmanlar ile mekansal piramit havuzlama katmanının daha anlamlı açıklamalar sağladığı, Eigen-CAM ve Layer-CAM için ise alt-ve-orta seviye öznitelikler elde eden sığ katmanlarda daha etkili olduğu ortaya konmuştur. Bu sonuçlar, AYZ yöntemlerinin katman bazında uygulanmasının model açıklanabilirliğini ve güvenilirliğini artırmada kritik bir öneme sahip olduğunu göstermektedir.

Deep learning approaches have made significant progress in performance for many data processing tasks, including object detection in remote sensing. However, their "black-box" nature and lack of interpretability have been a rightful point of criticism since their inception. Recently, Explainable Artificial Intelligence (XAI) approaches have emerged to enhance the interpretability of deep learning processes and their input-output relationships. XAI has the potential to significantly contribute to fairness, accountability, and transparency in machine learning models by providing a clearer understanding of model decisions. In this study, the You-Only-Look-Once (YOLO) model was used for object detection on remote sensing data, and Grad-CAM, Grad-CAM++, XGrad-CAM, Eigen-CAM and Layer-CAM XAI methods were applied to improve the interpretability of the model. The performance of these methods across various layers of the YOLOv5 network was systematically analyzed using the Detection in Optical Remote Sensing (DIOR) dataset. It was determined which XAI method produced more meaningful and interpretable visualizations at different layers. Layer-wise analysis revealed that XAI methods capture different levels of abstraction, from low-level edge detection to high-level object representations in deep neural networks. Qualitatively, the heatmaps generated by XAI methods were visualized and their alignment with object detection was evaluated. For quantitative assessment, an XAI evaluation framework adapted from a classification study was used, in which each heatmap was automatically thresholded using the Otsu thresholding method, and the changes in mean average precision (mAP) values were measured when object detection was performed on the thresholded images. More informative heatmaps should result in a greater drop in precision in the approach where the regions above the threshold are masked (M1) and a smaller drop in precision in the approach where the background is masked (M2). The study found that deeper convolutional layers and the spatial pyramid pooling layer provided more meaningful explanations for Grad-CAM, Grad-CAM++ and XGrad-CAM, while Eigen-CAM and Layer-CAM were more effective in the shallow layers that captured low- and mid-level features. These findings highlight the critical importance of applying XAI methods in a layer-wise manner to enhance the interpretability and reliability of models.