Konuya özel web kaynaklı İngilizce otomatik sözlük oluşturma

Yükleniyor...
Küçük Resim

Tarih

2019

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

İstanbul Ticaret Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Dil sözlüğü alanındaki çalışmalar, otomatik sözlük oluşturma konusuna yoğunlaşmış durumdadır. Bu makalede başlangıç olarak verilen bir İngilizce kelime referans alınarak, makale konusuna ait sözlüğün otomatik oluşturulması sağlanmıştır. İlk sözlük kelimesi, sisteme başlangıç olarak verilen bu İngilizce kelimeden elde edilmektedir. Sözlüğe eklenen ilk tohum kelime ile daha sonra Azure Web Cognitive Web Search sisteminde Web araması yapılmaktadır. Arama sonucu gelen ilk dokümanın, referans dokümanına da uygulandığı üzere Helmholtz Prensibi ile anlamlı kelimeleri bulunmaktadır. Bulunan bu anlamlı kelimeler arasından, anlam değeri en yüksek olan kelime sözlüğe eklenmektedir. Böylece Web’ten elde edilen bir dokümanın işlenmesi sonucu, o dokümana ait sadece en anlamlı kelime sözlüğe eklenmektedir. Daha sonra sözlüğe eklenen bu kelime, Web'te arama işlemine tabi tutulmaktadır. Web araması sonucu elde edilen dokümanlar tekrardan sisteme sokularak, bu dokümanlara ait anlamlı kelimelerin hesaplanması sağlanmaktadır. Web’te arama döngüsü bu şekilde tekrarlanmakta, nihai olarak sözlük için istenilen kelime sayısına ulaşıldığında ise sonlanmaktadır. Sözlüğün başarımını ölçmek üzere, Hash benzerlik değeri hesaplanmıştır. Farklı konularda verilen referans kelimelerde yapılan sınamalarda ortalama % 40.46 oranında benzerliğe sahip sözlükler oluşturulabilmektedir.
Studies in the area of language dictionary are focused on automatic dictionary creation. In this article, an English word is given as a reference and an automatic creation of the dictionary of the article subject is provided. The first dictionary word, is derived from this English word which is given as a starting point for the system. Web search is then performed in the Azure Web Cognitive Web Search system by using the first seed word added to the dictionary. The first document from the search result, has meaningful words with the Helmholtz Principle as applied to the reference document. Among the meaningful words found, the word with the highest value is added to the dictionary. Thus, as a result of processing a document obtained from the Web, the most meaningful word for that document is added to the dictionary only. Then, the word added to the dictionary is searched on the Web. The documents obtained as a result of web search are put into the system and the meaningful words of these documents are calculated. The search cycle on the web is repeated in this way and finally ends when the desired number of words for the dictionary is reached. In order to measure the performance of the dictionary, Hash similarity value was calculated. Dictionaries with a similarity of 40.46% can be created in the tests performed on the reference words given in different subjects.

Açıklama

Anahtar Kelimeler

Otomatik Sözlük Oluşturma, Web Araması, Helmholtz Prensibi, Hash Benzerliği, Automatic Dictionary Creation, Web Search, Helmholtz Principle, Hash Similarity

Kaynak

Journal of Technologies and Applied Sciences

WoS Q Değeri

Scopus Q Değeri

Cilt

2

Sayı

1

Künye