IX. Uzaktan Algılama ve Coğrafi Bilgi Sistemleri Sempozyumu (UZAL-CBS 2024), Aksaray, Türkiye, 17 - 19 Ekim 2024, ss.1-5, (Tam Metin Bildiri)
Derin
öğrenme yaklaşımları, uzaktan algılamada nesne tespiti de dahil olmak üzere
birçok veri işleme görevinde performans açısından önemli ilerlemeler
kaydetmiştir. Ancak, “kara kutu” doğaları ve yorumlanabilirlik eksiklikleri,
ortaya çıktıkları günden beri haklı bir eleştiri konusu olmuştur. Derin öğrenme
süreçlerinin ve bunların girdi-çıktı ilişkilerinin yorumlanabilirliğini
artırmak için son zamanlarda Açıklanabilir Yapay Zeka (AYZ) yaklaşımları ortaya
çıkmıştır. AYZ, model kararlarına daha net bir anlayış sağlayarak, makine
öğrenimi modellerinde adalet, hesap verebilirlik ve şeffaflığa önemli ölçüde
katkıda bulunma potansiyeline sahiptir. Bu çalışmada, uzaktan algılama
verileri üzerinde nesne tespiti için You-Only-Look-Once (YOLO) modeli kullanılmış
ve modelin yorumlanabilirliğini artırmak amacıyla Grad-CAM, Grad-CAM++,
XGrad-CAM, Eigen-CAM ve Layer-CAM AYZ yöntemleri uygulanmıştır. Bu yöntemlerin
YOLOv5 ağındaki çeşitli katmanlarda nasıl performans gösterdiği, Detection in Optical
Remote Sensing (DIOR) veri kümesi kullanılarak sistematik bir şekilde
incelenmiştir. Her bir AYZ yönteminin hangi katmanda daha anlamlı ve
yorumlanabilir görseller ürettiği tespit edilmiştir. Katman bazlı analizde, AYZ
yöntemlerinin derin sinir ağlarının düşük seviyeli kenar tespitinden yüksek
seviyeli nesne temsillerine kadar farklı soyutlama düzeylerini yakaladığı
gözlemlenmiştir. Niteliksel olarak, AYZ yöntemleri tarafından üretilen ısı
haritaları görselleştirilmiş ve nesne tespiti ile olan uyumları
değerlendirilmiştir. Niceliksel değerlendirme kapsamında, sınıflandırma amaçlı
bir çalışmadan benimsenen bir AYZ değerlendirme çerçevesi kullanılarak her bir
ısı haritası Otsu eşikleme yöntemiyle otomatik olarak eşiklenmiş ve eşiklenmiş
görüntülerde hedef tespiti gerçekleştirildiğinde ortalama hassasiyet (mean
average precision - mAP) değerlerindeki değişiklikler ölçülmüştür. Daha
bilgilendirici ısı haritaları, eşiğin üstünde kalan alanların maskelendiği
yaklaşımda (M1) daha büyük hassasiyet düşüşü ve arka planın maskelendiği
yaklaşımda (M2) daha az hassasiyet düşüşü ile sonuçlanmalıdır. Çalışmada, Grad-CAM,
Grad-CAM++ ve XGrad-CAM için derin
evrişimsel katmanlar ile mekansal piramit havuzlama katmanının daha anlamlı
açıklamalar sağladığı, Eigen-CAM ve Layer-CAM için ise alt-ve-orta seviye öznitelikler
elde eden sığ katmanlarda daha etkili olduğu ortaya konmuştur. Bu sonuçlar, AYZ
yöntemlerinin katman bazında uygulanmasının model açıklanabilirliğini ve
güvenilirliğini artırmada kritik bir öneme sahip olduğunu göstermektedir.
Deep learning
approaches have made significant progress in performance for many data
processing tasks, including object detection in remote sensing. However, their
"black-box" nature and lack of interpretability have been a rightful
point of criticism since their inception. Recently, Explainable Artificial
Intelligence (XAI) approaches have emerged to enhance the interpretability of
deep learning processes and their input-output relationships. XAI has the
potential to significantly contribute to fairness, accountability, and
transparency in machine learning models by providing a clearer understanding of
model decisions. In this study, the You-Only-Look-Once (YOLO) model was used
for object detection on remote sensing data, and Grad-CAM, Grad-CAM++, XGrad-CAM,
Eigen-CAM and Layer-CAM XAI methods were applied to improve the
interpretability of the model. The performance of these methods across various
layers of the YOLOv5 network was systematically analyzed using the Detection in
Optical Remote Sensing (DIOR) dataset. It was determined which XAI method
produced more meaningful and interpretable visualizations at different layers.
Layer-wise analysis revealed that XAI methods capture different levels of
abstraction, from low-level edge detection to high-level object representations
in deep neural networks. Qualitatively, the heatmaps generated by XAI methods
were visualized and their alignment with object detection was evaluated. For
quantitative assessment, an XAI evaluation framework adapted from a classification
study was used, in which each heatmap was automatically thresholded using the
Otsu thresholding method, and the changes in mean average precision (mAP)
values were measured when object detection was performed on the thresholded
images. More informative heatmaps should result in a greater drop in precision
in the approach where the regions above the threshold are masked (M1) and a
smaller drop in precision in the approach where the background is masked (M2).
The study found that deeper convolutional layers and the spatial pyramid
pooling layer provided more meaningful explanations for Grad-CAM, Grad-CAM++
and XGrad-CAM, while Eigen-CAM and Layer-CAM were more effective in the shallow
layers that captured low- and mid-level features. These findings highlight the
critical importance of applying XAI methods in a layer-wise manner to enhance
the interpretability and reliability of models.