Metin madenciliği kullanarak İngilizce doküman sınıflama

dc.authorid0000-0002-1941-6693en_US
dc.contributor.authorTuran, Metin
dc.contributor.authorÖzdoğan, Ahmet Görkem
dc.date.accessioned2019-07-25T10:13:52Z
dc.date.available2019-07-25T10:13:52Z
dc.date.issued2019en_US
dc.departmentİstanbul Ticaret Üniversitesien_US
dc.description.abstractGünümüzde metin tabanlı dokümanların sınıflandırılması özellikle kurumsal yazışmaların ve dijital dokümantasyonun çok yapıldığı durumlarda ciddi öneme sahiptir. Metin yığınlarından benzer olanları sınıflandırma üretkenliği arttıran bir faktördür. Bu makalede tema ve alt kavramı tespit edilmiş dokümanlarda benzerliğin tespiti ile ilgili bir model önerilmiş ve deneysel bulgular değerlendirilmiştir. Dokümanlarda tema ve alt kavramların tespiti için kullanılabilecek anlamlı sözcüklerin belirlenmesi amacıyla Helmholtz prensibi temelli Gestalt teorisi kullanılmıştır. Sınama doküman veri seti spor ve eğitim temalarında olup, toplam 14 alt kavram belirlenmiştir.Daha sonra doküman kümesinden rastgele seçilen dokümanların birbirlerine olan benzerlikleri hesaplanmıştır. Önceden belirlenmiş sınıflara sahip dokümanlar için Kosinüs, Jaccard ve PMI benzerlik ölçütleri karşılaştırılmıştır. Benzerlik oranı toplam doküman benzerlikleri ortalama değerin üzerinde olan dokümanların tümü baz alındığında Kosinüs benzerlik ölçütü %75, Jaccard Indeks’i %40, PMI benzerlik ölçütü ise %55 başarı sağlamıştır. Buna rağmen doğruluk değerleri baz alındığında Kosinüs benzerlik ölçütü %80, Jaccard Indeks’i %65 ve aynı şekilde PMI benzerlik ölçütü de %65 başarı sağlamıştır. Her bir dokümanın benzerlik katsayılarının ortalamaları baz alınarak yapılan sınıflama ise anlamlı kelimelerin yüzdelik değerlerine göre farklı başarımlar elde edilmiştir. Bu bakımdan PMI benzerlik ölçütü anlamlı kelime dağılımlarına adaptif bir yaklaşım sergiler iken Kosinüs benzerlik ölçütünde ve Jaccard Indeks’inde herhangi bir iyileşme gözlemlenmemiştir.en_US
dc.description.abstractNowadays, the classification of text-based documents is very important, especially when corporate correspondence and digital documentation are intense. Classification of text sets according to similarities is an important factor that increases productivity.In this article, a model has been proposed to determine the similarity in the documents with the concept of theme and sub and the experimental findings are evaluated. The Gestalt theory based on the Helmholtz principle was used to determine the meaningful words that can be used to determine the themes and sub-concepts in the documents. The test document data set is in the sports and educational themes and a total of 14 sub-concepts have been determined. Cosine and PMI similarity criteria were compared for documents with predetermined classes. On the basis of all of the documents with a similarity rate on average, the similarity criterion of Kosinus was 75%, Jaccard Index was 40% and PMI similarity was 55%. On the other hand, based on the accuracy values, the cosine similarity criterion was 80%, Jaccard Index was 65%, and PMI similarity was 65%. According to the averages of the similarity coefficients of each document, different performances were obtained according to the percentage of meaningful words. In this respect, while the PMI similarity criterion exhibits an adaptive approach to meaningful word distributions, no improvement was observed in the cosine similarity criterion and in the Jaccard Index.en_US
dc.identifier.endpage46en_US
dc.identifier.issue1en_US
dc.identifier.startpage37en_US
dc.identifier.urihttps://hdl.handle.net/11467/2808
dc.identifier.volume2en_US
dc.language.isotren_US
dc.publisherİstanbul Ticaret Üniversitesien_US
dc.relation.ispartofJournal of Technologies and Applied Sciencesen_US
dc.relation.publicationcategoryMakale - Ulusal Hakemli Dergi - Kurum Öğretim Elemanıen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectMetin Sınıflandırmaen_US
dc.subjectNoktasal Karşılıklı Bilgien_US
dc.subjectHelmholtz Prensibien_US
dc.subjectBenzerlik Metriklerien_US
dc.subjectKosinüs Benzerlik Ölçütüen_US
dc.subjectNoktasal Ortak Bilgi Benzerlik Ölçütüen_US
dc.subjectJaccard Benzerlik Ölçütüen_US
dc.subjectText Classificationen_US
dc.subjectPointwise Mutual Informationen_US
dc.subjectHelmholtz Principleen_US
dc.subjectSimilarity Metricsen_US
dc.subjectCosine Similarity Criteriaen_US
dc.subjectPmi Similarityen_US
dc.subjectJaccard Similarity Criteriaen_US
dc.titleMetin madenciliği kullanarak İngilizce doküman sınıflamaen_US
dc.title.alternativeEnglish document classification using text mining abstracten_US
dc.typeArticleen_US

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
71-Article Text-471-1-10-20190701.pdf
Boyut:
781.59 KB
Biçim:
Adobe Portable Document Format
Açıklama:
Lisans paketi
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
license.txt
Boyut:
1.56 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama: