Öznitelik Seçimi İçin Çoklu-ebeveyn Çaprazlama Operatörlerinin Karşılaştırılması
Citation
KANÇ, Nazif, Öznitelik Seçimi İçin Çoklu-ebeveyn Çaprazlama Operatörlerinin Karşılaştırılması, Fatih Sultan Mehmet Vakıf Üniversitesi Lisansüstü Eğitim Enstitüsü Bilgisayar Mühendisliği Anabilim Dalı Bilgisayar Mühendisliği Programı, Yayımlanmamış Yüksek Lisans Tezi, İstanbul 2022.Abstract
Yapay zeka ve makine öğrenmesinde son yıllarda sağlanan gelişmelerle elde edilen büyük veri kümelerinin analizini daha hızlı yapmak ve veri kümelerinin boyutunu azaltarak depolama problemlerine çözüm sağlamak öznitelik seçiminin önemi ortaya koymatadır. Öznitelik seçimi ile tasarlanan modellerin başarısının artırılması hedeflenmektedir. Veri kümelerinde ilgisiz ve alakasız bilgiler bulunmaktadır. Veri kümesinin boyutunu azaltmak ve gürültüye neden olan verileri çıkarmak öznitelik seçimiyle mümkün olmaktadır. Öznitelik seçimi ile gerekli olmayan verilerin çıkarılması modelin başarımını artırmaktadır. Öte yandan, genetik algoritmalar öznitelik seçim problemlerine uygulanmış ve başarılı sonuçlar elde edilmiştir. Bu tezde genetik algoritma ile çok ebeveynli çaprazlama operatörleri kullanılarak veri kümesindeki en önemli öznitelikleri seçerek öznitelik sayısını azaltmak amaçlanmaktadır. Tek biçimli çaprazlama, oluşum tabanlı çaprazlama, uygunluk tabanlı çaprazlama ve diyagonal çaprazlama, çok ebeveynli çaprazlama operatörleri arasında yer alır. Genetik algoritmada bir aday çözümü kodlamak için farklı gösterimlerde vardır, bu tezde öznitelik seçimi için ikili gösterim kullanılmaktadır. Bu çaprazlama operatörlerinin değerlendirmesi farklı sayıda özelliğe sahip üç farklı veri kümesi üzerinde gerçekleştirildi. Algoritmaların istatistiksel karşılaştırmaları için One-way ANOVA ve Tukey HSD testleri %95 güven seviyesinde gerçekleştirilmektedir. Deneyler iki aşamada gerçekleştirildi: (1) Bu kısımda, her bir çok ebeveynli çaprazlama operatörü için ebeveyn sayısının etkisini araştırırız, (2) bu aşamada çaprazlama operatörlerinin ilgili en iyi parametre değerleri kullanılarak performansları karşılaştırılmıştır. Sonuçlar, 5 ebeveynli oluşum tabanlı çaprazlama operatörünün diğer çaprazlama operatörlerinden daha iyi performans gösterdiğini, ancak daha fazla öznitelik seçtiğini ortaya koymaktadır. With the developments in artificial intelligence and machine learning in recent years, making the analysis of large data sets obtained faster and providing solutions to storage problems by reducing the size of data sets reveal the importance of feature selection. It is aimed to increase the success of the models designed with feature selection. Datasets contain irrelevant and unrelated information. Reducing the size of the dataset and removing the data that causes noise is possible by feature selection. Removing unnecessary data with feature selection increases the performance of the model. On the other hand, genetic algorithms are to feature selection problems and successful results are obtained. In this thesis, it is aimed to reduce the number of features by selecting the most important features in the data set by using genetic algorithm and multi-parent crossover operators. Uniform crossover, occurrence-based crossover, fitness-based crossover, and diagonal crossover are among the multi-parent crossover operators.There are different representations to encode a candidate solution in genetic algorithm, in this thesis binary representation is used for feature selection. Evaluation of these crossover operators was performed on three different datasets with different numbers of features. One-way ANOVA and Tukey HSD tests are performed at 95% confidence level for statistical comparisons of algorithms. The experiments were carried out in two stages: (1) In this section, we study on the effect of the number of parents for each multi-parent crossover operator, (2) at this stage, the performances of the crossover operators were compared using the best relevant parameter values. The results reveals that the 5-parent occurrence-based crossover operator outperforms other crossover operators, but selects more features.