[90403] Kısa metin sınıflandırma için graf tabanlı gözetimli veri artırma yöntemi

dc.contributor.advisorKakışım, Arzu
dc.contributor.authorBayramlı, Omar
dc.date.accessioned2023-04-07T15:24:31Z
dc.date.available2023-04-07T15:24:31Z
dc.date.issued2022
dc.departmentEnstitüler, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalıen_US
dc.descriptionTez (Yüksek Lisans) -- İstanbul Ticaret Üniversitesi -- Kaynakça var.en_US
dc.descriptionQA 76.9.D343/B39en_US
dc.description.abstractSosyal mecralarda üretilen ve kullanılan kısa elektronik belge sayısının günden güne artması ile sosyal ağların analizi, olay tespiti, duygu analizi, istenmeyen eposta filtreleme gibi birçok uygulama için kısa metin sınıflandırması önemli bir problem olarak karşımıza çıkmaktadır. Kısa metinler, geleneksel belgelerden farklı olarak, kısalık, seyreklik ve bağlamsal bilgi eksikliği gibi bazı zorluklara sahiptir. Bu zorluklar, geleneksel makine öğrenimi ve derin öğrenme modellerinin performansını olumsuz etkileyebilmektedir. Bu nedenle, son zamanlarda, modellerin başarısını iyileştirmek için yeni veri üretimi ile veri miktarını genişletmeyi amaçlayan veri artırım yaklaşımları geliştirilmektedir. Bu çalışmada, aynı bağlamsal içeriğe sahip olan ama birlikte sıklıkla gözlemlenmeyen kelimeler arasındaki yakınlığı artırmayı amaçlayan graf tabanlı ve gözetimli bir metin veri artırımı yaklaşımı önerilmektedir. Önerilen yöntem, her bir sınıf için bir kelime birlikteliği grafı oluşturmakta ve graf üzerinde rastgele yürüyüşler gerçekleştirerek, sınıf bağlamına özel yeni kısa metinler üretmektedir. Üç farklı veri kümesi üzerinden elde edilen deneysel sonuçlar, önerilen yöntemin temel yöntemlere kıyasla daha iyi performans elde ettiğini göstermektedir.Anahtar Kelimeler: Derin öğrenme, doğal dil işleme, kısa metin sınıflandırma, makine öğrenmesi, veri artırma.en_US
dc.description.abstractWith the increase in the number of short electronic documents produced and used in social media, short text classification emerges as an important problem for many applications such as social network analysis, event detection, sentiment analysis, spam filtering. Short texts, unlike traditional documents, have some challenges such as brevity, sparsity and lack of contextual information. These challenges often negatively affect the performance of traditional machine learning and deep learning models. Therefore, recently, data augmentation approaches have been developed that aim to expand the amount of data with new data generation to improve the success of the models. In this study, a graph-based and supervised text data augmentation approach is proposed, which aims to increase the proximity between words that have the same contextual content but are not frequently observed together. The proposed method creates co-word graph for each class and generates new short texts specific to the class context by performing random walks on the graph. Experimental results obtained on three different datasets show that the proposed method achieves better performance compared to the basic methods.Keywords: Data augmentation, deep learning, machine learning, natural language processing, short text classificationen_US
dc.identifier.endpage48en_US
dc.identifier.startpage1en_US
dc.identifier.urihttps://katalog.ticaret.edu.tr/e-kaynak/tez/90403.pdf
dc.identifier.urihttps://hdl.handle.net/11467/6451
dc.identifier.yoktezid758884en_US
dc.institutionauthorBayramlı, Omar
dc.language.isotren_US
dc.publisherİstanbul Ticaret Üniversitesien_US
dc.relation.publicationcategoryTezen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectApplication softwareen_US
dc.subjectUygulama yazılımıen_US
dc.subjectArtificial intelligenceen_US
dc.subjectYapay zekaen_US
dc.subjectData miningen_US
dc.subjectVeri madenciliğien_US
dc.subjectDatabase managementen_US
dc.subjectVeri tabanı yönetimien_US
dc.subjectBilgi saklama ve geri alma sistemlerien_US
dc.subjectInformation storage and retrievalen_US
dc.subjectÖrüntü tanıma sistemlerien_US
dc.subjectPattern recognition systemsen_US
dc.subjectBilimen_US
dc.title[90403] Kısa metin sınıflandırma için graf tabanlı gözetimli veri artırma yöntemien_US
dc.typeMaster Thesisen_US

Dosyalar