Şeker hastalığı teşhisi ve önerilen modellerinin karşılaştırılması


Creative Commons License

KORKMAZ M., Kaplan K.

Niğde Ömer Halisdemir Üniversitesi Mühendislik Bilimleri Dergisi, cilt.12, sa.1, ss.64-71, 2023 (Hakemli Dergi) identifier

Özet

Şeker hastalığı insanlarda kan şekeri seviyesinin anormal değerlere ulaştığı kronik bir rahatsızlıktır. Şeker hastalığının erken teşhisi, bu hastalığın sebep olabileceği daha büyük hastalıkların önlenmesi ve gerekli tedavi planlamasının zamanında gerçekleştirilmesi açısından önemlidir. Bu çalışma kapsamında şeker hastalığı çeşitli modeller ile teşhis edilerek, bu problem için kullanılabilecek en uygun model belirlenmeye çalışılmıştır. Çalışmada Lojistik Regresyon, k-En Yakın Komşuluk, CART (Sınıflandırma ve Regresyon Ağacı), Rastgele Orman, Destek Vektör Makinesi, XGBoost ve LightGBM sınıflandırıcı modelleri kullanılmıştır. 10 katlı çapraz doğrulama yöntemi kullanılarak performans ölçütleri elde edilmiştir. Modellerin doğruluk oranları sırası ile %84.58, %84.59, %85.02, %88.29, %84.73, %89.29 ve %88.72 olarak elde edilmiştir. Modeller arasında en iyi üç doğruluk oranını veren Rastgele Orman, XGBoost ve LightGBM yöntemlerinde hiper-parametre ayarlaması gerçekleştirilerek en iyi parametreler belirlenmiştir. Bu parametreler ile final modellerinin doğruluk oranları sırasıyla %89.30 , %90.01 ve %90.01 olarak elde edilmiştir. Sonuç olarak XGBoost ve LightGBM modellerinin final teşhis modelleri olarak kullanılabileceği gözlemlenmiştir.
Diabetes is a chronic disease in which blood sugar levels reach abnormal values in humans. Early diagnosis of diabetes is important in terms of preventing larger diseases that this disease may cause and realizing the necessary treatment planning in a timely manner. Within the scope of this study, diabetes was diagnosed with various models and the most suitable model that could be used for this problem was tried to be determined. In this study, Logistic Regression, k-Nearest Neighborhood, CART (Classification and Regression Tree), Random Forest, Support Vector Machine, XGBoost and LightGBM classifier models were used. Performance metrics were obtained using the 10-fold cross-validation method. The accuracy rates of the models were obtained as 84.58%, 84.59%, 85.02%, 88.29%, 84.73%, 89.29% and 88.72%, respectively. The best parameters were determined by performing hyper-parameter tuning in Random Forest, XGBoost and LightGBM methods, which gave the three best accuracy rates among the models. With these parameters, the accuracy rates of the final models were 89.30%, 90.01% and 90.01%, respectively. As a result, it has been observed that XGBoost and LightGBM models can be used as final diagnostic models.