Selcuk University Digital Archive Systems

Bulanık kümeleme kullanılarak benzer belge aranması

Show simple item record

dc.contributor.advisor Allahverdi, Novruz
dc.contributor.author Saraçoğlu, Rıdvan
dc.date.accessioned 2018-03-09T12:25:11Z
dc.date.available 2018-03-09T12:25:11Z
dc.date.issued 2007-08-15
dc.identifier.citation Saraçoğlu, R. (2007). Bulanık kümeleme kullanılarak benzer belge aranması. Selçuk Üniversitesi, Yayımlanmış doktora tezi, Konya. tr_TR
dc.identifier.uri http://hdl.handle.net/123456789/9479
dc.description.abstract Günümüzde teknolojinin gelismesi ile birlikte her geçen gün büyük miktarlarda veriler ortaya çıkmaya ve depolanmaya baslanmıstır. Bu verilerden faydalanmanın yolu ise onların verimli bir sekilde organize edilmesi ve yararlı bilgilere dönüstürülmesinden geçmektedir. Bunu amaçlayan veri madenciliginin bir çesidi ise metinsel veriler üzerinde çalısan metin madenciligidir. Metinsel belgelerin kullanıslı bir sekilde organize edilmesi, islenmesi ve faydalı bilgiler çıkarılması gibi amaçları yerine getirmek için gerekenlerin basında metin sınıflandırıcısı, metinsel belge arama mekanizmaları vb. araçlar gelmektedir. Bir metinsel belge arama islemini iki farklı yaklasımla ele almak mümkündür. Bunlardan biri genis bir alandaki belgeler üzerinde anahtar kelime seçilmesine dayalı olarak arama yapmaktır (internet arama motorları gibi). Bir digeri ise daha dar bir alanda metinin tüm kelimelerini kullanmak suretiyle daha ayrıntılı bir arama yapmaktır (bir kütüphanedeki kitaplar üzerinde yapılacak arama gibi). Bu çalısmada ele alınan konu ise bulanık kümeleme ve metinlerin tüm kelimelerini kullanarak bir arama yaklasımı ortaya koymaktır. Bu yaklasım; önisleme, kümeleme/sınıflandırma ve benzerlik ölçümü olmak üzere üç temel asamadan olusmaktadır. Bu çalısmada önisleme asaması ile ilgili olarak terim agırlıklandırma yöntemleri üzerinde durulmustur. Bulanık kümeleme kullanıldıgından dolayı mevcut terim agırlıklandırma yöntemlerinin bulanık kümeleme ile birlikte kullanımları incelenmis ve performansları karsılastırılmıstır. En iyi performansı gösteren yöntem belirlenerek daha sonraki asamalarda bu yöntem kullanılmıstır. Benzerlik ölçümü asaması için ise mevcut benzerlik ölçümlerinin önerilen arama yaklasımındaki performansları incelenmistir. Yine bu asama için verinin boyutuna dayalı yeni bir benzerlik ölçümü önerilmistir. Bu önerilen yeni benzerlik ölçümünün süre ve verimlilik açılarından önceki yöntemlere göre daha iyi oldugu görülmüstür. Son olarak, bir test belgesinin birden fazla kategoriye ait olması seklinde özetlenebilecek olan çoklu kategori problemi ele alınmıstır. Bu problemin çözümü için önerilen arama yaklasımının kümeleme/sınıflandırma asaması gelistirilmeye çalısılmıstır. Bu amaçla hangi belgelerin birden fazla kategoriye ait olduklarını tespit etmek için mevcut sınıflandırma yöntemi probleme adapte edilmistir. Ayrıca, kategorilerin arasında bir iliski matrisi olusturularak, bir belge birden fazla kategoriye ait ise bunların hangi kategoriler oldukları tespit edilmeye çalısılmıstır. Önceki çalısmalarda pek yer verilmemis olan bu çoklu kategori probleminde önemli ölçüde bir basarı saglanmıstır. tr_TR
dc.description.abstract Nowadays, large amount of data has started to arise and stored by development of technology. The way of benefitting these data are to organize them efficiently and convert them to useful information. A kind of data mining that aims this is text minig which works over textual data. The first of necessities for implementing the aims like being organized textual documents usefully, being processed them and extracted useful information are text classifier, textual document search mechanisms and tools like them. It is possible to discuss a textual document search operation with two diffrent approaches. One of them is to perform a search that bases on selection of a keyword in a large area (like internet search engines). The other is to perform a more detailed search by using all the words of text (a search that will be performed on the books in a library). The subject that is discusses in this study is to produce a search approach by using fuzzy clustering and all the words of text. This approach consists of three main stages like pre-processing, clustering/classification and similarity measurement. In this study, term weighting methods have been emphasized related to preprocessing stage. Because of using fuzzy clustering, the usage of existing term weighting methods with fuzzy clustering has been investigated and their performances have been compared.The method which shows the best performance has been determined and this method has been used in the following stages. For similarity measurement stage, the performances of existing similarity measurements in suggested search approach, have been investigated. Still for this stage, a new similarity measurement that bases on the size of data has been suggested. It is seen that this new similarity method that is suggested, is better than previous methods in terms of time and efficiency. As last, multiple category problems that can be summarized as a test document belonging to more that one category, has been discussed. Clustering/classification stage of the suggested search approach for solution of this problem has been tried to develop. For this aim, existing classification method has been adapted to the problem to determine which documents belong to more than one category. Besides, the categories have been tried to determine by being formed a relation matrix, if a document belongs to more than one category. In this multiple category problem that is not seen in the previous studies, a great amount of achievement has been obtained. tr_TR
dc.language.iso tur tr_TR
dc.publisher Selçuk Üniversitesi Fen Bilimleri Enstitüsü tr_TR
dc.subject Çoklu kategori problemi tr_TR
dc.subject Benzerlik ölçümü tr_TR
dc.subject Terim ağırlıklandırma tr_TR
dc.subject Bulanık benzerlik sınıflandırması tr_TR
dc.subject Bulanık kümeleme tr_TR
dc.subject Benzer belge arama tr_TR
dc.subject Multiple category problem tr_TR
dc.subject Similarity measurement tr_TR
dc.subject Term weighting tr_TR
dc.subject Fuzzy similarity classification tr_TR
dc.subject Fuzzy clustering tr_TR
dc.subject Searching similiar document tr_TR
dc.title Bulanık kümeleme kullanılarak benzer belge aranması tr_TR
dc.title.alternative Searching for similar documents using fuzzy clustering tr_TR
dc.type Thesis tr_TR


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account