Veri madenciliği teknikleriyle Türkçe web sayfalarının kategorize edilmesi
Künye
HÜSEM, Seçil Şekerci, Veri madenciliği teknikleriyle Türkçe web sayfalarının kategorize edilmesi, Fatih Sultan Mehmet Vakıf Üniversitesi Mühendislik ve Fen Bilimleri Enstitüsü Bilgisayar Mühendisliği Anabilim Dalı, Yayımlanmamış Yüksek Lisans Tezi, 2017Özet
Veri madenciliği, insanın işleyebileceğinden çok miktarda veri üzerinde çalışabilen, bu verileri anlamlandırmak, örtük bağlantıları ortaya çıkarmak amacıyla uygulanan yöntemler bütünüdür. Örneğin, herhangi bir web sayfasının önceden tanımlanmış kategoriler arasından hangi kategoriye ait olduğunun bulunması el ile kolaylıkla yapılabilirken sayfaların sayısı arttıkça her bir sayfanın hangi kategoriye ait olduğunun bulunması imkansız hale gelmektedir. Bu nedenle otomatik sınıflandırma tekniklerinin kullanımı gittikçe daha fazla önem kazanmaktadır. Web sayfalarının sınıflandırılmasından yola çıkılarak oluşturulan veriseti ile eğitilen bir sistemde yalnızca web sayfaları için değil metin tabanlı herhangi bir dokümanın da kategorisinin belirlenme işlemi yapılabilir. Böylece anlamsız bir şekilde bir arada bulunan veri yığınları, içeriklerine uygun kategorilere ayrılmış bir katalog haline getirilebilir.
Literatürde Türkçe web sayfalarının sınıflandırılmasıyla ilgili yapılan çalışmaların sayısı azdır. Aynı zamanda bu çalışmalar için kullanılabilecek hazır durumdaki verisetlerinin sayısı ve çeşitliliği kısıtlıdır. Bu tez çalışmasıyla hem Türkçe veriseti ihtiyacına cevap verebilmek hedeflenmiş, hem de literatürdeki metin sınıflandırma için kullanılan çeşitli yöntemler bu veriseti üzerinde denenmiştir. Bu algoritmaların çeşitli durumlardaki performansları kıyaslanarak bu alandaki çalışmalara katkı sağlamaya çalışılmıştır. Veriseti oluşturulurken el ile kategorize edilmiş web sayfalarının tutulduğu DMOZ sisteminden faydalanılmıştır. Buradan Türkçe sayfa verilerini çok kanallı yöntemle çekebilen bir web-gezer tasarlanmıştır. Elde edilen sayfa içeriklerinden sınıflandırma için anlamsız olan veriler otomatik olarak temizlenmiştir ve böylece bir Türkçe veriseti elde edilmiştir. Oluşturulan veriseti üzerinde yapılan ön işlem aşaması sırasında ya da sonrasında, kelime ekleme veya çıkarma gibi hiçbir müdahalede bulunulmamıştır. Elde edilen veriseti benzer çalışmalara kaynak sağlayabilecek niteliktedir.
Bu çalışma kapsamında metin sınıflandırma için sıkça kullanılan Naive Bayes (NB) ve Destek Vektör Makineleri (DVM - Support Vector Machines) algoritmalarına n-gram kelime vektörü (n-gram Word Vector) seçimi ve bilgi kazanım oranı (BKO - Information Gain Ratio) yaklaşımları uygulanarak performansları karşılaştırılmıştır. Bunların yanında kategori sayısı, modeli eğitmek için kullanılan veriseti içeriği ve bu verisetinin tamlığı konularına da odaklanılmış ve farklı durumlarda algoritmaların sınıflandırma başarıları da incelenmiştir.
Deneyler sonucunda kategori sayısının azlığı sınıflandırma başarısını olumlu etkilemiştir. Eğitim verilerindeki web sayfalarının başlık, anahtar kelime ve açıklama yönünden eksiksiz olmasının sınıflandırma başarısına DMOZ verilerinden daha fazla katkı sağladığı görülmüştür. Dengesiz dağılım gösteren verisetleri üzerinde yapılan deneylerde en yüksek başarıyı gösteren ve değişimlerden en az etkilenen algoritmanın Multinomial Naive Bayes (M-NB) olduğu görülmüştür. M-NB algoritması kelime 2-gram özellik vektöründe daha yüksek sonuçlara ulaşmıştır. Buna rağmen BKO yaklaşımının M-NB algoritmasına önemli bir katkı sağlamadığı görülürken DVM algoritmasına, M-NB algoritmasına oranla daha fazla katkı sağladığı gözlenmiştir. Data mining can be described as a collection of the methods that are able to work on large-scale data, extract meaningful information and discover hidden patterns from the data. For example, identifying the category of a given web page is a data mining job. Although it seems to be quite easy job to determine the category of a given web page manually; it happens to be impossible to do by hand as the number of these web pages increases. Nowadays, the use of data mining techniques to automatically place web pages into predefined categories has become more important. Additionally, a system that has been trained to classify web pages using a given text dataset can also be used to classify all other text documents. Classification can convert piles of text data into categorized documents.
As far as we are aware, there are only a few studies in the literature in which text classification methods have been applied on Turkish text data. In addition, there is lack of proper Turkish dataset in the literature. Therefore, in this study, we decided to address both of these needs by first generating a Turkish corpus for text classification and then by testing some algorithms using this Turkish corpus. A comparison of these algorithms under different configurations have also been presented to contribute other works on this subject. DMOZ data, which is the most extensive human-made data source consisting of pre-classified web pages, is decided to use. A web-crawler that brings only Turkish pages along with their classes is designed. After cleaning redundant information for classification task on these web pages automatically, a Turkish corpus is obtained. During or after the cleaning phase, there has been no manual intervention such as removing or adding some words. The obtained dataset is in such a high quality that it can be used as a test bed for other studies, as well.
In this study, the performance of Naive Bayes and Support Vector Machines algorithms, which are among the most frequently used algorithms for text classification have been compared. Selection of n-gram word vector and information gain ratio approach have also been considered. Moreover, it has been focused on the number of categories, the content of data used to train the model and the completeness of this data, and also the effects of these on classification success are examined.
The results show that the performance of both algorithms increase significantly when instances with small number of categories are used. Also, the quality of the content such as including title, keywords and description completely provided to be another factor that affects the classification performance more than the DMOZ data. When the algorithms are trained with instances that are composed of web pages with no missing information such as the web site title and meta data their performance is again, seem to be better. The results show that Multinominal Naive Bayes algorithm is more robust when compared to Support Vector Machines method. In addition, it has been shown that the performance of Multinomial Naive Bayes can further be improved by using 2- gram word vectors. The inclusion of Information Gain Ratio did not seem to improve the performance of Naive Bayes, however it did affect the performance of Support Vector Machines in the positive way.