Paragraf tabanlı çıkarımsal özetlemede öbekleme kullanan iki yöntemin kıyaslanması

dc.contributor.authorKısayol, Ahmet İlkay
dc.contributor.authorTuran, Metin
dc.date.accessioned2021-04-09T10:17:29Z
dc.date.available2021-04-09T10:17:29Z
dc.date.issued2018en_US
dc.departmentFakülteler, Mühendislik Fakültesi, Bilgisayar Mühendisliği Bölümüen_US
dc.description.abstractÖzetleme, bir bakıma metinleri kısaltma işlemidir. Bu kısaltma işlemi metinlerdeki önemli bilgileri içerecek şekilde olmalıdır. Bu çalışmanın amacı da İngilizce dilinde yazılmış makale, haber vs. gibi doküman paragraflarının içerdiği bilgi önemine göre seçilerek özetleme yapılmasıdır. Çalışmanın ilk aşamasında doküman kümesini temsil edecek önemli kelimeler belirlenmiştir. Bu aşamada tüm dokümanlarda geçen kelimeler kök geçiş sıklıklarına göre büyükten küçüğe göre sıralanır ve belirli sayıda seçilen en sık kelimeler ile paragraf vektörü temsil edilir. Bir sonraki aşamada, istenilen özet oranına göre paragraflar kümelere ayrıştırılır. Kümeleme algoritması olarak K-Means kullanılmıştır. Kümeler oluşturulurken başlangıç noktalarının belirlenmesi amacıyla iki farklı yöntem kullanılmıştır. Bunlardan birincisi geçiş sıklıkları hesaplanan kelimelerden ilk 10’u seçilerek bu anahtar kelimelerin en çok geçtiği paragraflar seçilir. İkinci yöntemde kullanıcının belirlediği özet oranına göre seçilecek anahtar kelime sayısı belirlenir. Daha sonra bu anahtar kelimelerin en çok geçtiği paragraflar başlangıç noktaları olarak belirlenir. Özet oluşturmada çıkarım yöntemi olarak oluşturulmuş olan her bir kümeden, kümelerin merkez noktasına Jaccard uzaklığı bakımından en yakın olan paragraf seçimi uygulanmıştır. Çıkan sonuçlar kontrol edildiğinde ikinci yöntemin daha başarılı bir sonuç verdiği gözlemlenmiştir. İkinci yönteme göre başarı oranları %20 özet oranı için %40 , %40 özet oranı için %50 ve %60 özet oranı için %71 elde edilmiştir.en_US
dc.description.abstractSummarization is a process of abbreviation of a text. This abbreviation should be such that it contains important information in the texts. The purpose of this study is selecting according to the importance of the information contained in the document paragraphs in articles, news, etc. During the first phase of the study, important words to represent the document set were identified. At this stage, the words in all the documents are sorted according to the frequency of root passage order by ascending and the most frequently selected words and paragraph vector are represented at a certain number of times. In the next step, the paragraphs are separated into clusters according to the desired summary ratio. K-Means was used as the clustering algorithm. Two different methods were used to determine the starting points when the clusters were constructed. The first is selected from the words calculated for the first 10 pass-through frequencies, and the paragraphs most frequently passed by these key words are selected. In the second method, the number of keywords is determined according to the summary rate determined by the user. Then the paragraphs most often passed by these keywords are set as starting points. The paragraph selection that is closest to the center point of the clusters in terms of Jaccard distance is applied from each set which is constructed as a subtraction method in the summarization. When the results were checked, it was observed that the second method gave a more successful result. Success rates according to the second method were 40% for the 20% summary rate, 50% for the 40% summary rate and 71% for the summary rate.en_US
dc.identifier.endpage1057en_US
dc.identifier.startpage1047en_US
dc.identifier.trdizinid321494en_US
dc.identifier.urihttps://hdl.handle.net/11467/4830
dc.identifier.volume6en_US
dc.indekslendigikaynakTR-Dizinen_US
dc.language.isotren_US
dc.publisherDüzce Üniversitesien_US
dc.relation.ispartofDüzce Üniversitesi Bilim ve Teknoloji Dergisien_US
dc.relation.publicationcategoryMakale - Ulusal Hakemli Dergi - İdari Personel ve Öğrencien_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectçoklu dokümanlarda özetlemeen_US
dc.subjectParagraf tabanlı özetlemeen_US
dc.subjectMetin Öbeklemeen_US
dc.subjectÖzellik Çıkarımıen_US
dc.subjectMultiple Document Summarizeen_US
dc.subjectParagraph Base Summarizationen_US
dc.subjectText Groupingen_US
dc.subjectFeature Extractionen_US
dc.titleParagraf tabanlı çıkarımsal özetlemede öbekleme kullanan iki yöntemin kıyaslanmasıen_US
dc.title.alternativeThe Two New Methodology Comparison Using Paragraph Based Inferential Abstractionen_US
dc.typeArticleen_US

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
PARAGRAF_TABANLI_OBEKLEME KULLANAN_IKI_YONTEM.pdf
Boyut:
1.02 MB
Biçim:
Adobe Portable Document Format
Açıklama:
Lisans paketi
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
license.txt
Boyut:
1.56 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama: