Kakışım, ArzuBayramlı, Omar2023-04-072023-04-072022https://katalog.ticaret.edu.tr/e-kaynak/tez/90403.pdfhttps://hdl.handle.net/11467/6451Tez (Yüksek Lisans) -- İstanbul Ticaret Üniversitesi -- Kaynakça var.QA 76.9.D343/B39Sosyal mecralarda üretilen ve kullanılan kısa elektronik belge sayısının günden güne artması ile sosyal ağların analizi, olay tespiti, duygu analizi, istenmeyen eposta filtreleme gibi birçok uygulama için kısa metin sınıflandırması önemli bir problem olarak karşımıza çıkmaktadır. Kısa metinler, geleneksel belgelerden farklı olarak, kısalık, seyreklik ve bağlamsal bilgi eksikliği gibi bazı zorluklara sahiptir. Bu zorluklar, geleneksel makine öğrenimi ve derin öğrenme modellerinin performansını olumsuz etkileyebilmektedir. Bu nedenle, son zamanlarda, modellerin başarısını iyileştirmek için yeni veri üretimi ile veri miktarını genişletmeyi amaçlayan veri artırım yaklaşımları geliştirilmektedir. Bu çalışmada, aynı bağlamsal içeriğe sahip olan ama birlikte sıklıkla gözlemlenmeyen kelimeler arasındaki yakınlığı artırmayı amaçlayan graf tabanlı ve gözetimli bir metin veri artırımı yaklaşımı önerilmektedir. Önerilen yöntem, her bir sınıf için bir kelime birlikteliği grafı oluşturmakta ve graf üzerinde rastgele yürüyüşler gerçekleştirerek, sınıf bağlamına özel yeni kısa metinler üretmektedir. Üç farklı veri kümesi üzerinden elde edilen deneysel sonuçlar, önerilen yöntemin temel yöntemlere kıyasla daha iyi performans elde ettiğini göstermektedir.Anahtar Kelimeler: Derin öğrenme, doğal dil işleme, kısa metin sınıflandırma, makine öğrenmesi, veri artırma.With the increase in the number of short electronic documents produced and used in social media, short text classification emerges as an important problem for many applications such as social network analysis, event detection, sentiment analysis, spam filtering. Short texts, unlike traditional documents, have some challenges such as brevity, sparsity and lack of contextual information. These challenges often negatively affect the performance of traditional machine learning and deep learning models. Therefore, recently, data augmentation approaches have been developed that aim to expand the amount of data with new data generation to improve the success of the models. In this study, a graph-based and supervised text data augmentation approach is proposed, which aims to increase the proximity between words that have the same contextual content but are not frequently observed together. The proposed method creates co-word graph for each class and generates new short texts specific to the class context by performing random walks on the graph. Experimental results obtained on three different datasets show that the proposed method achieves better performance compared to the basic methods.Keywords: Data augmentation, deep learning, machine learning, natural language processing, short text classificationtrinfo:eu-repo/semantics/openAccessApplication softwareUygulama yazılımıArtificial intelligenceYapay zekaData miningVeri madenciliğiDatabase managementVeri tabanı yönetimiBilgi saklama ve geri alma sistemleriInformation storage and retrievalÖrüntü tanıma sistemleriPattern recognition systemsBilim[90403] Kısa metin sınıflandırma için graf tabanlı gözetimli veri artırma yöntemiMaster Thesis148758884