[90503] Graph based keyword extraction method for scientifc publications

dc.contributor.advisorKakışım, Arzu
dc.contributor.authorAli, Abdirahman Mohamed
dc.date.accessioned2023-04-07T15:24:32Z
dc.date.available2023-04-07T15:24:32Z
dc.date.issued2022
dc.departmentEnstitüler, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalıen_US
dc.descriptionTez (Yüksek Lisans) -- İstanbul Ticaret Üniversitesi -- Kaynakça var.en_US
dc.descriptionQ 335/A45en_US
dc.description.abstractDue to the increasing technological possibilities day by day, the volume of data produced is increasing rapidly. Therefore, reading and analyzing data has become a very time-consuming task. Since many text files do not contain keywords that briefly describe the content of the text, it is necessary to examine an entire document to understand the text's content. In this direction, many methods that aim to automate the text summarization process using keyword extraction approaches are presented. Recently, keyword extraction approaches, which are based on different approaches such as machine learning, deep learning, and topic models, and which have two different manners, supervised and unsupervised, have been proposed. Most of these proposed methods aim to extract the most relevant words and phrases from the given text. However, in scientific publications, it is often difficult to express the paper with a limited number of keywords. Sometimes no common words or phrases are observed between the keywords of two scientific publications that are similar in content. In this case, the creation of keywords that are not visible in the paper but related to the context of the paper is very important in terms of revealing the contextual similarity between the papers.In this study, a graph-based unsupervised keyword extraction approach for scientific papers is presented. The proposed method takes academic publications as input and creates an association word graph containing the n-grams that are frequently observed in these publications. It similarly generates n-grams for a newly coming paper, selects the specific nodes from the graph that matches the n-grams generated for the new paper, and performs random walks over these selected nodes to obtain different n-gram sequences. Our method selects the most frequently observed n-grams as keywords from the different number of generated n-gram sequences. Experimental results are presented by comparing our method with eight different methods using three different datasets.Keywords: Graph-based, keyword extraction, n-grams, random walk.ÖZETHer geçen gün artan teknolojik imkanlar nedeniyle üretilen veri hacmi hızlaartmaktadır. Bu nedenle, verileri okumak ve analiz etmek çok zaman alan bir iş halinegeldi. Birçok metin dosyası metnin içeriğini kısaca açıklayan anahtar kelimeleriçermediğinden, metnin içeriğini anlamak için tüm belgeyi incelemek gerekir. Budoğrultuda, anahtar kelime çıkarma yaklaşımlarını kullanarak metin özetleme süreciniotomatikleştirmeyi amaçlayan birçok yöntem sunulmaktadır. Son zamanlarda makineöğrenmesi, derin öğrenme ve konu modelleri gibi farklı yaklaşımları temel alandenetimli ve denetimsiz olmak üzere iki farklı yaklaşıma sahip olan anahtar kelimeçıkarma yöntemleri önerilmiştir. Önerilen bu yöntemlerin çoğu, verilen metinden enalakalı kelimeleri ve cümleleri çıkarmayı amaçlamaktadır. Ancak bilimsel yayınlardamakaleyi sınırlı sayıda anahtar kelime ile ifade etmek çoğu zaman zordur. Bazen içerikolarak benzer iki bilimsel yayının anahtar kelimeleri arasında ortak bir kelime veyakelime öbeği görülmez. Bu durumuda yazıda görünmeyen ancak yazının bağlamıylailgili anahtar kelimelerin oluşturulması, yazılar arasındaki bağlamsal benzerliğinortaya çıkarılması açısından oldukça önemlidir. Bu çalışmada, bilimsel makaleler içingraf tabanlı denetimsiz anahtar kelime çıkarma ve önerme yaklaşımı sunulmaktadır.Önerilen yöntem, akademik yayınları girdi olarak almakta ve bu yayınlarda sıklıklagözlenen n-gramları içeren bir ilişki kelime grafiği oluşturmaktadır. Benzer şekildeyeni gelen bir akademik yayın için n-gramlar üretmekte, ve bu n-gramlarla eşleşen grafdüğümleri üzerinden rastgele yürüyüşler gerçekleştirerek, n-gram dizileri eldeetmektedir. Yöntemimiz, üretilen farklı sayıda n-gram dizisinde en sık gözlenen ngramları anahtar sözcükler olarak seçmektedir. Yöntemimize ait deneysel sonuçlar, ikifarklı veriseti üzerinde sekiz farklı yöntemle karşılaştırılarak sunulmuştur.Anahtar Kelimeler: Anahtar kelime çıkarma, graf tabanlı, n-gram, rastgele yürüyüş.en_US
dc.identifier.endpage23en_US
dc.identifier.startpage1en_US
dc.identifier.urihttps://katalog.ticaret.edu.tr/e-kaynak/tez/90503.pdf
dc.identifier.urihttps://hdl.handle.net/11467/6454
dc.identifier.yoktezid763012en_US
dc.institutionauthorAli, Abdirahman Mohamed
dc.language.isoenen_US
dc.publisherİstanbul Ticaret Üniversitesien_US
dc.relation.publicationcategoryTezen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectArtificial intelligenceen_US
dc.subjectYapay zekaen_US
dc.subjectData miningen_US
dc.subjectVeri madenciliğien_US
dc.subjectInformation storage and retrievalen_US
dc.subjectBilgi depolama ve erişim sistemlerien_US
dc.subjectMathematical logicen_US
dc.subjectMatematiksel mantıken_US
dc.subjectNatural language processing (Computer science)en_US
dc.subjectDoğal dil işleme (Bilgisayar bilimi)en_US
dc.subjectBilimen_US
dc.title[90503] Graph based keyword extraction method for scientifc publicationsen_US
dc.typeMaster Thesisen_US

Dosyalar