Mikrokanonikal Optimizasyon Algoritması ile Konvolüsyonel Sinir Ağlarında Hiper Parametrelerin Optimize Edilmesi
Künye
KUŞ, Zeki, Mikrokanonikal Optimizasyon Algoritması ile Konvolüsyonel Sinir Ağlarında Hiper Parametrelerin Optimize Edilmesi, Fatih Sultan Mehmet Vakıf Üniversitesi Lisansüstü Eğitim Enstitüsü Bilgisayar Mühendisliği Anabilim Dalı, Yayımlanmamış Yüksek Lisans Tezi, 2019.Özet
Bilgisayarlı görü çalışmaları, günümüzde en çok ilgi duyulan ve üzerinde çalışma yapılan yapay zeka alanlarından biridir. Bilgisayarların insanlar gibi görüntüleri algılamasını, sınıflandırabilmesini ve yorumlayabilmesini sağlamak amacıyla geliştirilen özel derin öğrenme mimarileri bulunmaktadır. Bunlardan en çok kullanılan ve bu çalışmada da bahsedilecek olan mimari konvolüsyonel sinir ağları mimarisidir. Konvolüsyonel sinir ağları, bilgisayarlı görü çalışmalarında popüler olarak kullanılan ve başarılı sonuçlar elde edilebilen özelleşmiş bir derin öğrenme yöntemidir. Derin öğrenme yöntemleri karşılaşılan problemlerin zorluğu nedeniyle yüksek hesaplama maliyetlerine neden olabilmektedir. Hesaplama maliyetinin düşürülmesi güçlü donanımların kullanılmasına, oluşturulan konvolüsyonel sinir ağı topolojilerindeki toplam parametre sayısının azaltılmasına ve konvolüsyonel sinir ağlarındaki hiper-parametreler için seçilen değerlere bağlıdır. Bu yüzden konvolüsyonel sinir ağlarında hiper-parametre optimizasyonu çalışmaları, ağın başarısını arttırmaya çalışırken, hesaplama maliyetini de düşük tutmaya çalışmaktadırlar. Bu tez çalışmasında ilk olarak daha önce konvolüsyonel sinir ağlarının optimize edilmesi için gerçekleştirilen optimizasyon çalışmaları incelendi. İncelenen çalışmalarda, konvolüsyonel sinir ağlarında hiper-parametrelerin optimizasyonu için sıklıkla üst-sezgisel algoritmaların ve istatistik tabanlı model bazlı algoritmaların kullanıldığı gözlemlendi. Özellikle Genetik Algoritma, Parçacık Sürü Optimizasyonu, Diferansiyel Evrim, Rastgele Arama ve Bayes Optimizasyonu gibi yöntemlerin, incelenen çalışmalarda sıklıkla kullanıldığı gözlemlendi. Bu çalışmalar başarı açısından incelendiklerinde genetik algoritma ve parçacık sürü optimizasyonu yöntemlerinin genel olarak hiper-parametre optimizasyonu gerçekleştirmeyen çalışmalara göre başarılı ve rekabetçi sonuçlar verdiği görüldü. Yapılan tez çalışmasında kullanılacak veri setleri, seçilecek optimizasyon yöntemi, hiper-parametreler ve değer aralıklarının belirlenmesi için incelenen çalışmalarda kullanılan veri setleri, hiper-parametreler ve bu hiper-parametreler için seçilen değer aralıkları göz önünde bulunduruldu. Yapılan çalışmalarda, farklı çalışmaları karşılaştırmak için elimizde parametre sayısı ve hesaplama zamanı bilgileri bulunmadığından sadece doğruluk oranı bilgisi performans karşılaştırması için kullanıldı. Daha önce yapılan bu çalışmalardan farklı olarak bu tez çalışmasında “Mikrokanonikal Optimizasyon” olarak adlandırılan bir yöntem kullanıldı. Seçilen optimizasyon yöntemi kullanılarak farklı boyutlarda konvolüsyonel sinir ağları oluşturuldu ve oluşturulan konvolüsyonel sinir ağlarının hiper-parametreleri optimize edilmeye çalışıldı. Seçilen optimizasyon algoritmasının çalışması sırasında üretilen konvolüsyonel sinir ağları, bilgisayarlı görü çalışmalarında sıklıkla kullanılan MNIST, FashionMNIST, EMNIST (Balanced, Digits, Letters) ve
xii
CIFAR10 veri setleri üzerinde test edildi. Elde edilen sonuçlar, hiç hiper-parametre optimizasyonu gerçekleştirmeyen ve state-of-the-art olarak adlandırılan çalışmalar ile doğruluk oranı ve parametre sayısı gibi değerler üzerinden karşılaştırıldı. Ek olarak, önerilen sezgisel yöntemin performansı, Bayesçi model tabanlı bir optimizasyon yöntemi olan Tree Parzen Estimator yöntemiyle karşılaştırılmıştır. Elde edilen sonuçlara bakıldığında, Konvolüsyonel sinir ağları için belirlenmesi gereken birçok hiper-parametre olmasına rağmen seyreltme oranı, filtre sayısı, öğrenme oranı ve yığın boyutu gibi hiper-parametrelerin oluşturulan modellerin başarısında önemli bir katkısı olduğu çıkarımına ulaşıldı. Computer vision is probably the most widely studied sub-area of artifical intelligence which has been drawing considerable interest of many researchers for years. There are special deep learning architectures developed to enable computers to perceive, classify and interpret images as humans. Convolutional neural networks are the most popular deep learning methods that can be used successfully in computer vision studies. Deep learning methods may result in high computational costs due to the difficulty of the problems encountered. This computational cost can only be reduce by careful selection of hyperparameters of the convolutional neural networks and the computational time can also be reduce by the use of powerful equipment. Therefore, in the studies that try to optimize hyperparameters in convolutional neural networks, the researchers try to increase the success rate of the network while at the same time try to keep the computational cost as low as possible. In this thesis, firstly a detailed literature review on the studies that perform hyperparameter optimization has been given. It has been observed that heuristic algorithms and statistics model based algorithms are among the most widely used methods for hyper-parameter optimization in convolutional neural networks. In particular, Genetic Algorithms, Particle Swarm Optimization, Differential Evolution, Random Search and Bayes Optimization methods are the most frequently used approaches. When we compare these methods in terms of their success rates, we see that the studies in which genetic algorithms and particle swarm optimization methods are used were able to achieve greater results than the studies that did not perform hyper-parameter optimization in general. In order to determine the optimization method to be used in the study along with the hyper-parameters and their value ranges, we benefited the studies in the literature. Moreover, the datasets used in this study are selected among the most widely used datasets in the literature. Most of the studies in the literature do not provide sufficient information about the number of parameters of the network and the computational time, therefore we took in the account accuracy as the performance measure. In this study, Microcanonical Optimization which is previously known in different areas was but not used in this concepts has been applied fort he hyperparameter optimization of convolutional neural networks. By this method, different network architectures has been created and the hyper-parameters of the network is optimized. The convolutional neural networks generated during the optimization process are trained on the MNIST, FashionMNIST, EMNIST (Balanced, Digits, Letters) and CIFAR10 datasets, which are the most frequently used datasets in computer vision studies. The accuracy results are compared to the state-of-the-art
architectures in which no hyper-parameter optimization has been performed. In addition, the performance of proposed heuristic method has been compared to Tree Parzen Estimator method which is a Bayesian model based optimization method. The results suggest that among the many hyperparameters dropout rate, feature map count, learning rate and batch size are among the most important parameters that directly affect the success of the networks.