Performance comparison of smote-based machine learning models on unbalanced datasets: A study on date and pistachio fruits
Yükleniyor...
Tarih
2025
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
İstanbul Ticaret Üniversitesi
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Creating balanced datasets is a significant challenge that substantially affects the performance of machine learning models in the classification of agricultural products. In this research, we tried to overcome this challenge by using an unbalanced dataset containing information on 7 date palm (Phoenix dactylifera L.) and 2 pistachio (Pistacia vera L.) cultivars. The aim of the study is to compare the classification performance of machine learning models on an unbalanced dataset and a balanced dataset using the SMOTE technique. Initially, classification was performed on the unbalanced dataset using machine learning approaches. Among the machine learning models applied on the unbalanced dataset, the Linear-SVM model showed the highest accuracy rate with an accuracy rate of 92,62%. In the data set extended by applying the SMOTE technique, the RBF-SVM model again showed the highest accuracy rate with 95,55% accuracy rate. In summary, our study highlights the difficulties in machine learning-based agricultural crop classification due to data unbalances. Utilizing the SMOTE technique for oversampling was effective in overcoming this obstacle and improving classification accuracy.
Dengeli veri kümeleri oluşturmak, tarımsal ürünlerin sınıflandırılmasında makine öğrenimi modellerinin performansını önemli ölçüde etkileyen önemli bir zorluktur. Yapılan bu araştırmada, 7 hurma (Phoenix dactylifera L.) ve 2 Antep fıstığı (Pistacia vera L.) çeşidine ait bilgileri içeren dengesiz bir veri kümesi kullanarak bu zorluğun üstesinden gelinmeye çalışılmıştır. Çalışmanın ana hedefi, makine öğrenmesi modellerinin dengesiz veri kümesi ve SMOTE tekniği ile dengelenmiş veri kümesi üzerindeki sınıflandırma başarısını karşılaştırmaktır. Başlangıç olarak, dengesiz veri kümesi üzerinde makine öğrenimi yaklaşımları kullanılarak sınıflandırma yapılmıştır. Dengesiz veri kümesinde uygulanan makine öğrenmesi modelleri içerisinde %92,62 doğruluk oranı ile en yüksek doğruluk oranını Linear-SVM modeli göstermiştir. SMOTE tekniği uygulanarak genişletilen veri kümesinde ise %95,55 doğruluk oranı ile en yüksek doğruluk oranını RBF-SVM modeli göstermiştir. Özetle, çalışmamız makine öğrenimi tabanlı tarımsal ürün sınıflandırmasında veri dengesizliklerinden kaynaklanan zorlukların altını çizmektedir. Aşırı örnekleme için SMOTE tekniğinden yararlanmak, bu engelin üstesinden gelmede ve sınıflandırma doğruluğunu artırmada etkili olmuştur.
Dengeli veri kümeleri oluşturmak, tarımsal ürünlerin sınıflandırılmasında makine öğrenimi modellerinin performansını önemli ölçüde etkileyen önemli bir zorluktur. Yapılan bu araştırmada, 7 hurma (Phoenix dactylifera L.) ve 2 Antep fıstığı (Pistacia vera L.) çeşidine ait bilgileri içeren dengesiz bir veri kümesi kullanarak bu zorluğun üstesinden gelinmeye çalışılmıştır. Çalışmanın ana hedefi, makine öğrenmesi modellerinin dengesiz veri kümesi ve SMOTE tekniği ile dengelenmiş veri kümesi üzerindeki sınıflandırma başarısını karşılaştırmaktır. Başlangıç olarak, dengesiz veri kümesi üzerinde makine öğrenimi yaklaşımları kullanılarak sınıflandırma yapılmıştır. Dengesiz veri kümesinde uygulanan makine öğrenmesi modelleri içerisinde %92,62 doğruluk oranı ile en yüksek doğruluk oranını Linear-SVM modeli göstermiştir. SMOTE tekniği uygulanarak genişletilen veri kümesinde ise %95,55 doğruluk oranı ile en yüksek doğruluk oranını RBF-SVM modeli göstermiştir. Özetle, çalışmamız makine öğrenimi tabanlı tarımsal ürün sınıflandırmasında veri dengesizliklerinden kaynaklanan zorlukların altını çizmektedir. Aşırı örnekleme için SMOTE tekniğinden yararlanmak, bu engelin üstesinden gelmede ve sınıflandırma doğruluğunu artırmada etkili olmuştur.
Açıklama
Anahtar Kelimeler
Machine Learning, SMOTE, Fruit Classification, Oversampling, Makine Öğrenmesi, Smote, Meyve Sınıflandırma, Aşırı Örnekleme
Kaynak
İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi
WoS Q Değeri
Scopus Q Değeri
Cilt
24
Sayı
47
Künye
Bal, F., & Kayaalp, F. (2025). Performance Comparison of Smote-Based Machine Learning Models on Unbalanced Datasets: A Study on Date and Pistachio Fruits. İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi, 24(47), 176-200.