El Yazısı Karakter Tanıma ve Resim Sınıflandırmada Derin Öğrenme Yaklaşımları
Citation
SALOUHOU, Aoudou, El Yazısı Karakter Tanıma ve Resim Sınıflandırmada Derin Öğrenme Yaklaşımları, Fatih Sultan Mehmet Vakıf Üniversitesi Lisansüstü Eğitim Enstitüsü Bilgisayar Mühendisliği Anabilim Dalı, Yayımlanmamış Yüksek Lisans Tezi, 2019.Abstract
Geçtiğimiz yıllarda, yapay zeka (AI) ve makine öğrenmesi alanlarında muhteşem bir araştırma yapılmıştır. Bununla birlikte, geçmiş ve son yıllarda, araştırma, yaklaşımı, makine öğreniminin ileri alanı olan ‘Derin Öğrenme’ alanına yoğunlaşmıştır. Bu yeni araştırma alanı, algoritmalarını görüntü tanıma, görüntü sınıflandırma, konuşma tanıma gibi problemlere uygularken daha iyi sonuçlar vererek çok ilgi çekici bir araştırma alanı haline gelmiştir. Bu çalışmada, Derin Sinir Ağları (Deep Neural Network - DNN) veya Çok Katmanlı Algılayıcı (Multi-Layer Perceptron - MLP), Evrişimsel Sinir Ağı (Convolutional Neural Network - CNN) ve Uzun Kısa Süreli Bellek (Long Short Term Memory - LSTM) adı verilen özel Reccurent Sinir Ağı (Recurrent Neural Network - RNN) olmak üzere üç Derin Öğrenme algoritması kullanarak MNIST, FASHION-MNIST, CIFAR-10 ve ARAPÇA veri setleri aracılığıyla el yazı karaktere tanıma ve resim sınıflandırma problemlere uygulandıktan sonra, ilk aşamada modellerimizin sonuçları karşılaştırılmıştır. İkinci aşama ise kullanılan algoritmalar literatürde önerilen benzer modellerin sonuçlarıyla kıyaslamıştır. Bu araştırmada, gerekli yöntem ve ortam hazırladıktan sonra DNN, CNN ve RNN modelleri oluşturarak hiper-parametrelerini belirlenmiştir. Deneysel bölümünde, kullanılan veri setlerine göre, önerilen modeller test verilerindeki doğruluk (accuracy) ve kayıp (loss) değerleri bakımından alınan sonuçları Tensorboard ortamında optimum dönem (epoch) sayıları bazında modellerin test tamamladığında davranışları grafiksel olarak gösterilmiştir. Modellerin kıyaslaması için yine veri setlerine göre sütun grafikleri çizilmiştir. Kıyaslamadan el yazı karakter ve resim sınıflandırmada, CNN modeli en iyi olduğunu kaydedilmiştir. RNN ve CNN açısından, aynı veri seti kullanılan benzer çalışmalar karşılaştığında, bu tezde oluşturulan modellerin daha iyi sonuç verdikleri izlenmiştir. Deneysel çalışma
v
sonunda, tüm modellerimiz RNN (LTSM) Cifar-10 veri seti hariç, doğruluk değerlerinin gittikçe arttıkları ve kayıp değerlerinin gittikçe azaldıkları kaydedilerek modellerin iyi eğitmeleri ve test etmelerini ortaya çıkmıştır. RNN (LTSM) modeli, iyi sonuçları vermesine rağmen karakter tanıma ve resim sınıflandırmada pek uygun olmadğını kaydedilmiştir. Bu çalışmanın ardından Zıt Konumluluk Kavramı kullanılarak İkili Parçacık Sürü Optimizasyonu bir algoritması önerilerek DNN modeli Arapça veri seti üzerinde doğruluk ve kayıp değerleri değerlendirilmiştir. Through the past years, a marvelous research has been done on the fields of artificial intelligence or AI and machine learning. However, in the past and recent years, research has concentrated to the deep learning area which is the approach of AI, the advanced field of machine learning. This new field of reseach has given the better results while applying its algoritms to the problems such images recognation, images classification, speech recognation and that made it become a very interesting field of research. In this work, we apply three of Deep Learning algorithms which are Deep Neural Networks (DNN) or Multi Layers Perceptron (MLP), Convulutional Neural Network (CNN) and special type of Reccurent Neural Network (RNN) called Long Short Term Memory (LSTM). Those algorithms are applies to the problems such image recognition and image classification through MNIST, FASHION-MNIST, CIFAR-10 and ARABIC datasets in order to compare our models results between them at the first time, and secondly with others models that used the similar models in solving problems. In this study, after preparing the necessary methods and environment, DNN, CNN and RNN models were created and hyper-parameters were determined. In the experimental part, the results of the proposed models in terms of accuracy and loss values in the test data according to the data sets used are shown graphically when the models complete the test on the basis of the optimum epoch numbers in the Tensorboard environment. For comparison of the models, column chart were drawn according to the data sets. From that comparison, CNN model is recorded as the best one. In terms of RNN and CNN, it was observed that the models produced in this thesis yielded better results when compared to similar studies using the same data set. At the end of the experimental study, Except RNN (LTSM) model when tested with Cifar-10 dataset, it was recorded that the accuracy values were increasing and the loss values were decreasing gradually up to their optimum epoch values which mean
the models are well trained and tested. Although good results were noted with RNN (LTSM) model, it seems not to be a very suitable model in charater recognition and image classification. Following this study, Binary Particle Swarm Optimization together with Opposition-Based Learning was proposed to evaluate the accuracy and loss values on the Arabic data set of DNN model.