Konu modelleme yöntemlerinin belge sınıflandırma üzerine kullanımı

dc.contributor.advisorTuran, Metin
dc.contributor.authorÖzdemirci, Süleyman
dc.date.accessioned2022-11-01T16:40:19Z
dc.date.available2022-11-01T16:40:19Z
dc.date.issued2021
dc.departmentEnstitüler, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalıen_US
dc.descriptionTez (Yüksek Lisans) -- İstanbul Ticaret Üniversitesi -- Kaynakça var.en_US
dc.description.abstractÖZET Konu modellemenin doküman sınıflandırma, konu kümeleme, belge etiketleme, geniş belge koleksiyonlarında özellik çıkarma gibi çok sayıda uygulaması vardır. Bu çalışmada, Latent Dirichlet Allocation konu modellemenin pratik keşif yöntemi, Bidirectional Encoder Representations from Transformers ve Terim Frekansı - Ters Belge Frekansı yöntemi deneysel belge setine ayrı ayrı uygulanmıştır. Bu veri seti lisansüstü öğrenciler tarafından internetten toplanan toplam 801 adet spor ve eğitim makalelerini içermektedir. Bu çalışmanın amacı, konu modellemesine hangi yöntemin en uygun olduğunu gözlemlemek ve mümkünse bu yöntemler topluluğu ile doğruluk oranını arttırmaktır. Çalışmada, en iyi yöntemlerin güçlü özellikleri birleştirilerek yeni bir yöntem önerilip önerilemeyeceği gibi soruların cevapları aranmıştır. Bu çalışma sonucunda BERT'in bazı dezavantajları olsa da doğru konuya sahip belgeleri ortalama %92. 6 başarı oranıyla sınıflandırdığı, diğer yöntemlerden daha başarılı olduğu görülmüştür. Anahtar Kelimeler: BERT, Konu Modelleme, LDA, Sınıflandırma, TF-IDF. ABSTRACT Topic modeling has numerous applications like text categorization, topic clustering, document tagging, feature extraction on wide document collections. In this study, practical exploration method of topic modeling of Latent Dirichlet Allocation, transformers based machine learning method Bidirectional Encoder Representations from Transformers and Term Frequency — Inverse Document Frequency method were applied to the experimental document set separately. It includes sport and education articles collected from internet by graduate students, 801 number totally. The purpose of this study is to observe which method best suits to the topic modeling and if it is possible, increase the accuracy rate via the combination of these methods. In the study, the answers to the questions such as whether a new method can be proposed by combining the strong features of the best methods were sought. Although BERT has some disadvantages, it was observed that classifying the documents with the correct topic was achieved with a %92. 6 success rate, overwhelming the other methods. Keyword: BERT, Classification, LDA, TF-IDF, topic modeling, İÇİNDEKİLER İÇİNDEKİLER . i ÖZET . iii ABSTRACT . iv TEŞEKKÜR . v ŞEKİLLER DİZİNİ . vi ÇİZELGELER DİZİNİ . viii SİMGELER VE KISALTMALAR DİZİNİ . ix 1. GİRİŞ. 1 1. 1. Çalışmanın amacı . 4 2. LİTERATÜR ÖZETİ . 5 3. YÖNTEM . 9 3. 1. Veri Seti . 9 3. 1. 1. Veri Setinin ön işlemesi . 10 3. 2. Terim Frekansı(TF)-Ters doküman Frekansı(IDF) . 12 3. 3. Latent Dirichlet Allocation(LDA) . 13 3. 4. Bidirectional Encoder Representations from Transformers . 14 3. 5. BERT ve LDA’nın Birleştirilmesi . 14 3. 5. 1. Otomatik Kodlayacı . 14 3. 6. Karar Matrisi ile Çoğunluk Analizi . 15 4. SONUÇ VE ÖNERİLER . 16 4. 1. TF-IDF Yönteminin Sonuçları . 16 4. 2. Latent Dirichlet Allocation Yönteminin Sonuçları . 19 4. 3. BERT Yönteminin Sonuçları . 21 4. 4. LDA ve BERT Yöntemlerinin Birleştirilmesi ile Elde Edilen Sonuçlar 22 4. 5. Karar Matrisi ile Yöntemlerin Çoğunluk Analizi . 25 4. 6. Sonuçların Değerlendirilmesi . 26 KAYNAKLAR . 27 ÖZGEÇMİŞ . 30en_US
dc.identifier.endpage30en_US
dc.identifier.startpage1en_US
dc.identifier.urihttps://katalog.ticaret.edu.tr/e-kaynak/tez/88908.pdf
dc.identifier.urihttps://hdl.handle.net/11467/5471
dc.identifier.yoktezid691001en_US
dc.institutionauthorÖzdemirci, Süleyman
dc.language.isotren_US
dc.publisherİstanbul Ticaret Üniversitesien_US
dc.relation.publicationcategoryTezen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectApplication softwareen_US
dc.subjectUygulama yazılımıen_US
dc.subjectArtificial intelligenceen_US
dc.subjectYapay zekaen_US
dc.subjectBig dataen_US
dc.subjectBüyük verien_US
dc.subjectMachine learningen_US
dc.subjectMakine öğrenimien_US
dc.subject.otherQ 325.5/Ö93en_US
dc.titleKonu modelleme yöntemlerinin belge sınıflandırma üzerine kullanımıen_US
dc.typeMaster Thesisen_US

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
88908.pdf
Boyut:
996.93 KB
Biçim:
Adobe Portable Document Format
Açıklama: