Öznitelik çıkarım ve evrimsel öznitelik seçim metotlarının eeg sinyallerinin sınıflandırma başarısına etkileri
Künye
ABBASOĞLU, Ferda, Öznitelik çıkarım ve evrimsel öznitelik seçim metotlarının eeg sinyallerinin sınıflandırma başarısına etkileri, Fatih Sultan Mehmet Vakıf Üniversitesi Lisansüstü Eğitim Enstitüsü Bilgisayar Mühendisliği Anabilim Dalı, Yayımlanmamış Yüksek Lisans Tezi, 2019Özet
EEG sinyalleri beyindeki elektriksel aktivitenin ölçülmesi ile elde edilir. Bu sinyallerin analizi, incelenmesi ve sınıflandırılması epilepsi ve uyku bozukluğu gibi rahatsızlıkların teşhisinde kullanılır. EEG sinyallerinin sınıflandırılarak bir sonuca ulaşılması ve bu sonuçlara ilişkin mantıklı yaklaşımlar getirilmesi bazen güç ve karmaşık bir işlem olabilmektedir. Bu tezde EEG sinyalinin sınıflandırma doğruluk oranını arttırmak için örüntü tanıma tabanlı, öznitelik çıkarma ve seçme yöntemleri ile çalışmalar yapılmıştır. Bu tezde ilk olarak kullanılan verilere sınıflandırma doğruluk oranının arttırılması amacıyla gürültülü verinin elenmesi için bant geçiren filtre uygulanmıştır. Filtreleme işleminden sonra verilere öznitelik çıkarım metotları uygulanmıştır. Öznitelik çıkarım işleminden sonra öznitelik seçim işlemi ile sınıflandırma doğruluğunu arttıran öznitelikler seçilmiştir. Elde edilen öznitelik matrisi sınıflandırma metotlarından Destek Vektör Makineleri (DVM) ve Lineer Diskriminant Analiz (LDA) ile test edilmiştir. Sınıflandırma doğruluk oranları karşılaştırılmıştır. Belirtilen yöntemler iki farklı veri üzerinde uygulanmıştır. Bunlardan ilki Bonn Üniversitesi tarafından epilepsi rahatsızlığının tespiti için toplanan veridir. Bu veri kümesi tek kanallı 100 örneğe sahiptir ve 5 farklı sınıftan oluşmaktadır. Bu sınıfların 2’si sağlıklı, 2’si hasta ve 1’i nöbet halindeki kişilerin verileridir. Diğeri de Berlin Teknik Üniversitesi tarafından düşünce yolu ile kasların oynatılması üzerine çalışmalar yapılması için toplanan BCI yarışma verisidir. BCI’nin 3. yarışmasının 3a veri kümesi kullanılmıştır. Bu veri kümesi ise 60 kanala sahiptir ve 4 farklı sınıftan oluşmaktadır. Bu sınıflar sağ el, sol el, dil ve ayak hareketlerinin verilerini temsil etmektedir. Öznitelik çıkarım işlemi var olan veri kümesinden farklı filtrelemeler ve istatistiksel yöntemleri kullanılarak verinin sınıflandırma işlemine uygun hale getirilmesidir. Bu işlem sırasında sütun yapıları değişmekte ve veriyi temsil edecek yeni bir küme oluşmaktadır. Öznitelik çıkarım metotlarından Ortak Uzamsal Örüntüler (CSP), 1D Yerel İkili Örüntü (1D-YİÖ), Ayrık Dalgacık Dönüşümü (ADD) ve Temel Bileşen Analizi (TBA) kullanılmıştır. Öznitelik çıkarım yöntemlerinden CSP, ayrı sınıfları ayırt etmek ve elde edilen sinyallerin uzamsal çözünürlüğünü artırmak için sıkça kullanılan bir uzamsal filtreleme yöntemidir. CSP iki sınıflı kümeler için kullanılmaktadır fakat bu tezde çok sınıflı kümeler için genişletilmiş hali kullanılmıştır. 1D-YİÖ ise sinyal işleme yöntemlerinin birçoğu gibi görüntü işleme yöntemlerinden türetilmiş bir metottur. Sinyali bir görüntü gibi ele alıp merkezi
sinyalin komşu sinyallerden büyük olup olmamasına göre veriyi düzenleyerek istatistiksel özellikler çıkarmaktadır. ADD ise sinyalin farklı alt bantlara bölünmesi ile istenilen frekans aralığındaki verilerin filtrelenerek ortaya çıkmasını ve o aralıktaki verilerin katsayı bilgileri kullanılarak istatistiksel özelliklerin çıkarılmasını sağlamaktadır. TBA ise bir boyut azaltma yöntemidir. Öznitelik çıkarım işlemi sonucu oluşan öznitelik matrisine öznitelik seçim işlemi uygulanmıştır. Öznitelik seçimi, öznitelik matrisinden sınıflandırma doğruluk oranını arttıran öznitelik sütunlarının seçilmesi ile oluşturulmaktadır. Öznitelik sütunu seçiminde farklı sütunların seçilme olasılığı vardır. Bütün olasılıkların tek tek denenmesi zor bir işlemdir. Bu sebeple alternatifler arasından seçim yapılarak karar verildiği için bu işlem bir optimizasyon problemidir. Bu tezde optimizasyon algoritmalarından Diferansiyel Evrim Algoritması’nın öznitelik seçimi amacıyla (DEÖS) kullanılması incelenmiştir. Bu algoritma ile en yüksek sınıflandırma doğruluk oranına sahip alt kümeler seçilmiştir. Ayrıca öznitelik seçimi için istatistiksel bir test olan ki kare yöntemi de denenmiştir. Farklı veri kümeleri ile yapılan testlerde Bonn verisi için ADD’nin ürettiği öznitelik kümesi sınıflandırıcılarla test edildiğinde yüksek doğruluk oranları elde edilmektedir. Sağlıklı, hasta ve nöbet geçiren kişilerden alınmış 3’lü kümelemelerde literatürde görülen doğruluk oranlarını geçmektedir. Ayrıca nöbet geçiren ve geçirmeyen kişilerin verileri sınıflandırıldığında elde edilen doğruluk oranları da literatürdekileri geçmiştir. ADD ile elde edilen öznitelik matrisinden DEÖS kullanılarak en yüksek doğruluk oranını veren özniteliklerin kullanılması sınıflandırma doğruluk oranını arttırmaktadır. 1D-YİÖ yöntemi ikili ve üçlü kümelerde ADD’den bir nebze düşük sonuçlar vermesine rağmen kendisi gibi olan literatür çalışmasıyla yarışabilmektedir. Fakat beşli kümelemelere gelindiğinde ADD ile yarışamamaktadır. EEG signals are obtained by measuring the electrical activity in the brain. The analysis, examination and classification of these signals are used to diagnose disorders such as epilepsy and sleep disorder. It is sometimes difficult and complicated process to achieve a result by classifying the EEG signals and introducing logical approaches to these results. In this thesis, studies were carried out by feature extraction and selection methods based on pattern recognition to increase the classification accuracy of the EEG signal. In this thesis, the band pass filter was used to eliminate the noisy data in order to increase the classification accuracy. After the filtering process, data extraction methods were applied to the data. After the attribute extraction process, the attributes that increase the classification accuracy are selected by the feature selection process. The obtained attribute matrix was tested by Support Vector Machines (SVM) and Linear Discriminant Analysis (LDA). Classification accuracy were compared. The specified methods were applied on two different data. The specified methods were applied on two different set of data. The first one is the data collected by the University of Bonn for the detection of epilepsy. This data set has 100 single-channel samples and consists of 5 different classes. 2 of these classes are healthy, 2 patients and 1 patient are seizures. The other one is BCI competition data collected by Berlin Technical University for the study of muscle activities. 3a data set of the 3rd competition of BCI was used. This data set has 60 channels and consists of 4 different classes. These classes represent the data of the right hand, left hand, tongue and foot movements. The feature extraction process is to adapt the data to the classification process by using different filtering and statistical methods from the existing data set. During this process, the column structures are changing and a new set is created to represent the data. Common Spatial Patterns (CSP), 1D Local Binary Pattern (1D-LBP), Discrete Wavelet Transform (DWT) and Principal Component Analysis (PCA) were used for feature extraction methods. CSP from feature extraction methods is a spatial filtering method commonly used to distinguish separate classes and to increase the spatial resolution of the signals obtained. CSP is used for two-class clusters, but in this thesis the extended state is used for multi-class clusters. 1D-LBP is a method
derived from image processing methods such as many of the signal processing methods. It treats the signal like an image and arranges the data according to whether the central signal is bigger than the neighboring signals. DWT allows the data to be separated by dividing the signal into different subbands and by filtering the data in the desired frequency range and using the coefficient information of the data in that range. PCA used for attribute extraction is a size reduction method. The feature selection process was applied to the feature matrix resulting from the attribute extraction process. The feature selection is created by selecting feature columns that increase the accuracy of the classification from the feature matrix. Columns of subset could be selected by different combination in feature selection. There is many possibility. It is difficult to try all possibilities individually. For this reason, this process is an optimization problem because it is decided by choosing from alternatives. In this thesis, the use of Differential Evolution Algorithm (DEFS) for optimization of optimization algorithms is investigated. The subscales with the highest classification accuracy were selected with this algorithm. In addition, chi-square method, which is a statistical test for attribute selection, has also been tried. For tests conducted with different data sets, high accuracy rates are obtained when tested with the attribute set classifiers produced by DWT for Bonn data. Healthy, patients and seizures in the 3-group clusters taken from people in the literature exceeds the accuracy rates. In addition, the accuracy obtained when the data of the people who had seizures and not passed were passed in the literature. The use of attributes that give the highest accuracy by using DEFS from the attribute matrix obtained by DWT increases the classification accuracy rate. Although 1D-LBP method has some slightly lower results than DWT in binary and triple clusters, it can compete with literature. However, it cannot compete with DWT when it comes to clusters of five.