Basit öğe kaydını göster

dc.contributor.advisorNizam, Ali
dc.contributor.authorElmascı, Necmettin
dc.date.accessioned2025-09-01T12:26:08Z
dc.date.available2025-09-01T12:26:08Z
dc.date.issued2023en_US
dc.identifier.citationELMASCI, Necmettin, Tez İsmi, Fatih Sultan Mehmet Vakıf Üniversitesi Lisansüstü Eğitim Enstitüsü Soyut Sözdizimi Ağaçları ve Derin Öğrenme Yöntemleriyle Kod Benzerliklerinin Tespiti, Yayımlanmamış Yüksek Lisans Tezi, İstanbul 2023.en_US
dc.identifier.urihttps://hdl.handle.net/11352/5446
dc.description.abstractBu tez çalışmasının amacı, C# programlama dili baz alınarak kaynak koddaki benzerlikleri gösteren bir veriseti oluştup bu benzerliklerin tespiti ve iyileştirme gereken noktaları belirten sistemin tasarlarımının yapılmasıdır. Yazılım dünyasında, programların yapısını anlamak ve kod benzerliklerini tespit etmek, bir dizi önemli uygulama için hayati öneme sahiptir. Bu uygulamalar, kod klonlama tespiti, yazılım dolandırıcılığı izleme, ve yazılım kalitesi kontrolünü içerir. Bu bağlamda, Abstract Syntax Tree (AST) bazlı kod benzerlik analizi, bir dizi etkili çözüm sunmaktadır. AST, bir programın sözdizimsel yapısını hiyerarşik bir şekilde temsil eder. AST'ler, kodun daha derin anlamsal benzerliklerini belirlemek için kullanılabilir, çünkü onlar kodun yapısal özelliklerini ve ayrıntılarını ortaya çıkarır. Bu nedenle, AST bazlı analizler, kod benzerliklerini belirlemek için oldukça güçlü ve esnektir. Bu çalışmada, AST bazlı kod benzerlik analizinin temel prensiplerini, teknikleri ve uygulamaları incelenmiştir. Ayrıca, AST'lerin nasıl oluşturulduğu ve nasıl kullanıldığına dair detaylar ele alınmıştır ekleştirilen bu çalışmada, yapılmış olan diğer çalışmalardan farklı olarak sadece sınıf veya metot bazlı değil, kodun daha alt kırılımlarına inerek alt kırımlarının benzerliklerini tespit eden model ortaya konmuştur. Çeşitli metot ve araçlar ile geliştirilmiş olsa da sadece AST’leri içeren bir gömülü kütüphane (embedding vocabulary) olmadığı görülmüş ve bu yüzden de sadece ilgili AST’leri içeren bir kütüphane oluşturulmuştur. Daha çok yüz tanıma sistemlerinde uygulanan triplet loss derin öğrenme ağı yöntemleri kullanılarak kod benzerliği üzerindeki etkileri de incelenmektedir. Bu amaçla, benzer kod ve benzemeyen kod bloklarının AST’leri baz alınarak ilgili veri setleri oluşturularak triplet loss derin öğrenme ağı kullanılarak kod benzerliğinin tespiti için farklı bir yaklaşım ortaya konulmuştur. Ayrı bir uygulama ile sıralama algoritmalarından bazılarının kodları (Quick Sort, Bubble Sort v.b.) baz alınarak metot ve blok (if, for, while) bazlı AST’ler oluşturuldu. İlgili kod bloklarının satır aralıkları ve her bir AST satırının diğer AST satırlarıyla benzerlikleri çıkartılarak veri seti oluşturuldu. Bu kod benzerliklerinden en yüksek olanlar baz alınarak kosinüs benzerliği (cosine similarity) ve triplet loss yöntemleri ayrı ayrı uygulanarak benzerlikleri ölçüldüğünde sırasıyla %61,4 ve 88,68 doğruluk oranları sağlanmıştır. Geliştirilen model kod benzerliği ile ilgili günümüzde kullanılan araçlarla da karşılaştırılmıştır. Özellikle triplet loss kullanılarak sağlanan yüksek doğruluk oranı önerilen tekniğin pratik kullanılanımı konusunda önemli bir gelişme olarak değerlendirilmiştir.en_US
dc.description.abstractThe aim of this thesis work is to design a system that creates a dataset indicating similarities in the source code based on the C# programming language, detects these similarities, and identifies points that need improvement. In the software world, understanding the structure of programs and detecting code similarities is of vital importance for a range of significant applications. These applications include code clone detection, software fraud monitoring, and software quality control. In this context, Abstract Syntax Tree (AST) based code similarity analysis offers a series of effective solutions. AST represents the syntactic structure of a program in a hierarchical way. ASTs can be used to determine the deeper semantic similarities of the code, as they reveal the structural features and details of the code. Therefore, AST-based analyses are powerful and flexible in determining code similarities. This study examines the basic principles, techniques, and applications of AST-based code similarity analysis. It also covers details on how ASTs are formed and used. In the work carried out, unlike other studies, a model detecting the similarities of sub-breakdowns of the code, not just based on classes or methods, has been put forward. Although it has been developed with various methods and tools, it was observed that there was no embedded library (embedding vocabulary) containing only ASTs, and therefore a vocabulary containing only relevant ASTs was created. The effects on code similarity are also examined by using triplet loss deep learning network methods, which are mostly applied on the similarities of images. For this purpose, a different approach has been introduced to detect code similarity using the triplet loss deep learning network by creating relevant data sets based on the ASTs of similar code and dissimilar code blocks. With a separate application, method, and block (if, for, while) based ASTs were created based on the codes of some sorting algorithms (Quick Sort, Bubble Sort, etc.). The line ranges of the relevant code blocks and the similarities of each AST line with other AST lines were extracted and a dataset was created. When the code similarities were measured with the cosine similarity method, based on the highest of these code similarities, an accuracy rate of 61.4% was achieved. The developed model was also compared with the tools used today for code similarity. The high accuracy rate achieved by using triplet loss has been evaluated as an important development in the practical use of the proposed technique.en_US
dc.language.isoturen_US
dc.publisherFatih Sultan Mehmet Vakıf Üniversitesien_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectKaynak Koden_US
dc.subjectSoyut Sözdizimsel Ağaçen_US
dc.subjectTriplet Lossen_US
dc.subjectKosinüs Benzerliğien_US
dc.subjectKod Benzerliğien_US
dc.subjectSource Codeen_US
dc.subjectAbstract Syntax Treeen_US
dc.subjectTriplet Lossen_US
dc.subjectCosine Similarityen_US
dc.subjectCode Similarityen_US
dc.titleSoyut Sözdizimi Ağaçları ve Derin Öğrenme Yöntemleriyle Kod Benzerliklerinin Tespitien_US
dc.title.alternativeDetection of Code Similarities Using Abstract Syntax Trees and Deep Learning Methodsen_US
dc.typemasterThesisen_US
dc.contributor.departmentFSM Vakıf Üniversitesi, Lisansüstü Eğitim Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalıen_US
dc.relation.publicationcategoryTezen_US
dc.contributor.institutionauthorElmascı, Necmettin


Bu öğenin dosyaları:

Thumbnail

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster