[90403] Kısa metin sınıflandırma için graf tabanlı gözetimli veri artırma yöntemi

Küçük Resim Yok

Tarih

2022

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

İstanbul Ticaret Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Sosyal mecralarda üretilen ve kullanılan kısa elektronik belge sayısının günden güne artması ile sosyal ağların analizi, olay tespiti, duygu analizi, istenmeyen eposta filtreleme gibi birçok uygulama için kısa metin sınıflandırması önemli bir problem olarak karşımıza çıkmaktadır. Kısa metinler, geleneksel belgelerden farklı olarak, kısalık, seyreklik ve bağlamsal bilgi eksikliği gibi bazı zorluklara sahiptir. Bu zorluklar, geleneksel makine öğrenimi ve derin öğrenme modellerinin performansını olumsuz etkileyebilmektedir. Bu nedenle, son zamanlarda, modellerin başarısını iyileştirmek için yeni veri üretimi ile veri miktarını genişletmeyi amaçlayan veri artırım yaklaşımları geliştirilmektedir. Bu çalışmada, aynı bağlamsal içeriğe sahip olan ama birlikte sıklıkla gözlemlenmeyen kelimeler arasındaki yakınlığı artırmayı amaçlayan graf tabanlı ve gözetimli bir metin veri artırımı yaklaşımı önerilmektedir. Önerilen yöntem, her bir sınıf için bir kelime birlikteliği grafı oluşturmakta ve graf üzerinde rastgele yürüyüşler gerçekleştirerek, sınıf bağlamına özel yeni kısa metinler üretmektedir. Üç farklı veri kümesi üzerinden elde edilen deneysel sonuçlar, önerilen yöntemin temel yöntemlere kıyasla daha iyi performans elde ettiğini göstermektedir.Anahtar Kelimeler: Derin öğrenme, doğal dil işleme, kısa metin sınıflandırma, makine öğrenmesi, veri artırma.
With the increase in the number of short electronic documents produced and used in social media, short text classification emerges as an important problem for many applications such as social network analysis, event detection, sentiment analysis, spam filtering. Short texts, unlike traditional documents, have some challenges such as brevity, sparsity and lack of contextual information. These challenges often negatively affect the performance of traditional machine learning and deep learning models. Therefore, recently, data augmentation approaches have been developed that aim to expand the amount of data with new data generation to improve the success of the models. In this study, a graph-based and supervised text data augmentation approach is proposed, which aims to increase the proximity between words that have the same contextual content but are not frequently observed together. The proposed method creates co-word graph for each class and generates new short texts specific to the class context by performing random walks on the graph. Experimental results obtained on three different datasets show that the proposed method achieves better performance compared to the basic methods.Keywords: Data augmentation, deep learning, machine learning, natural language processing, short text classification

Açıklama

Tez (Yüksek Lisans) -- İstanbul Ticaret Üniversitesi -- Kaynakça var.
QA 76.9.D343/B39

Anahtar Kelimeler

Application software, Uygulama yazılımı, Artificial intelligence, Yapay zeka, Data mining, Veri madenciliği, Database management, Veri tabanı yönetimi, Bilgi saklama ve geri alma sistemleri, Information storage and retrieval, Örüntü tanıma sistemleri, Pattern recognition systems, Bilim

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye