Metin madenciliği kullanarak İngilizce doküman sınıflama
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
İstanbul Ticaret Üniversitesi
Erişim Hakkı
Günümüzde metin tabanlı dokümanların sınıflandırılması özellikle kurumsal yazışmaların ve dijital dokümantasyonun çok yapıldığı durumlarda ciddi öneme sahiptir. Metin yığınlarından benzer olanları sınıflandırma üretkenliği arttıran bir faktördür. Bu makalede tema ve alt kavramı tespit edilmiş dokümanlarda benzerliğin tespiti ile ilgili bir model önerilmiş ve deneysel bulgular değerlendirilmiştir. Dokümanlarda tema ve alt kavramların tespiti için kullanılabilecek anlamlı sözcüklerin belirlenmesi amacıyla Helmholtz prensibi temelli Gestalt teorisi kullanılmıştır. Sınama doküman veri seti spor ve eğitim temalarında olup, toplam 14 alt kavram belirlenmiştir.Daha sonra doküman kümesinden rastgele seçilen dokümanların birbirlerine olan benzerlikleri hesaplanmıştır. Önceden belirlenmiş sınıflara sahip dokümanlar için Kosinüs, Jaccard ve PMI benzerlik ölçütleri karşılaştırılmıştır. Benzerlik oranı toplam doküman benzerlikleri ortalama değerin üzerinde olan dokümanların tümü baz alındığında Kosinüs benzerlik ölçütü %75, Jaccard Indeks’i %40, PMI benzerlik ölçütü ise %55 başarı sağlamıştır. Buna rağmen doğruluk değerleri baz alındığında Kosinüs benzerlik ölçütü %80, Jaccard Indeks’i %65 ve aynı şekilde PMI benzerlik ölçütü de %65 başarı sağlamıştır. Her bir dokümanın benzerlik katsayılarının ortalamaları baz alınarak yapılan sınıflama ise anlamlı kelimelerin yüzdelik değerlerine göre farklı başarımlar elde edilmiştir. Bu bakımdan PMI benzerlik ölçütü anlamlı kelime dağılımlarına adaptif bir yaklaşım sergiler iken Kosinüs benzerlik ölçütünde ve Jaccard Indeks’inde herhangi bir iyileşme gözlemlenmemiştir.
Nowadays, the classification of text-based documents is very important, especially when corporate correspondence and digital documentation are intense. Classification of text sets according to similarities is an important factor that increases productivity.In this article, a model has been proposed to determine the similarity in the documents with the concept of theme and sub and the experimental findings are evaluated. The Gestalt theory based on the Helmholtz principle was used to determine the meaningful words that can be used to determine the themes and sub-concepts in the documents. The test document data set is in the sports and educational themes and a total of 14 sub-concepts have been determined. Cosine and PMI similarity criteria were compared for documents with predetermined classes. On the basis of all of the documents with a similarity rate on average, the similarity criterion of Kosinus was 75%, Jaccard Index was 40% and PMI similarity was 55%. On the other hand, based on the accuracy values, the cosine similarity criterion was 80%, Jaccard Index was 65%, and PMI similarity was 65%. According to the averages of the similarity coefficients of each document, different performances were obtained according to the percentage of meaningful words. In this respect, while the PMI similarity criterion exhibits an adaptive approach to meaningful word distributions, no improvement was observed in the cosine similarity criterion and in the Jaccard Index.
Nowadays, the classification of text-based documents is very important, especially when corporate correspondence and digital documentation are intense. Classification of text sets according to similarities is an important factor that increases productivity.In this article, a model has been proposed to determine the similarity in the documents with the concept of theme and sub and the experimental findings are evaluated. The Gestalt theory based on the Helmholtz principle was used to determine the meaningful words that can be used to determine the themes and sub-concepts in the documents. The test document data set is in the sports and educational themes and a total of 14 sub-concepts have been determined. Cosine and PMI similarity criteria were compared for documents with predetermined classes. On the basis of all of the documents with a similarity rate on average, the similarity criterion of Kosinus was 75%, Jaccard Index was 40% and PMI similarity was 55%. On the other hand, based on the accuracy values, the cosine similarity criterion was 80%, Jaccard Index was 65%, and PMI similarity was 65%. According to the averages of the similarity coefficients of each document, different performances were obtained according to the percentage of meaningful words. In this respect, while the PMI similarity criterion exhibits an adaptive approach to meaningful word distributions, no improvement was observed in the cosine similarity criterion and in the Jaccard Index.
Anahtar Kelimeler
Metin Sınıflandırma, Noktasal Karşılıklı Bilgi, Helmholtz Prensibi, Benzerlik Metrikleri, Kosinüs Benzerlik Ölçütü, Noktasal Ortak Bilgi Benzerlik Ölçütü, Jaccard Benzerlik Ölçütü, Text Classification, Pointwise Mutual Information, Helmholtz Principle, Similarity Metrics, Cosine Similarity Criteria, Pmi Similarity, Jaccard Similarity Criteria
Journal of Technologies and Applied Sciences
WoS Q Değeri
Scopus Q Değeri