Kümeleme Nedir?
Kümeleme, denetimsiz öğrenmenin temel yaklaşımlarından biridir ve benzer özelliklere sahip veri noktalarını gruplandırmak için kullanılır. Kümeleme algoritmaları, veri noktaları arasındaki benzerlikleri ve farklılıkları analiz ederek, doğal grupları veya kümeleri belirlemeye çalışır.
Kümeleme, etiketli veri gerektirmez ve verinin içindeki gizli yapıları keşfetmek için kullanılır. Bu nedenle, veri keşfi, örüntü tanıma ve segmentasyon gibi alanlarda yaygın olarak kullanılmaktadır.
Kümeleme algoritmaları, müşteri segmentasyonu, doküman gruplandırma, görüntü sıkıştırma, anomali tespiti ve biyoinformatik gibi çeşitli alanlarda uygulanmaktadır.
Kümeleme Algoritma Türleri
- Bölümleme Kümeleme
- K-Means
- K-Medoids
- Fuzzy C-Means
- Hiyerarşik Kümeleme
- Aglomeratif (Birleştirici)
- Bölücü (Divisive)
- Yoğunluk Tabanlı Kümeleme
- DBSCAN
- OPTICS
- Model Tabanlı Kümeleme
- Gaussian Mixture Models
- Expectation-Maximization
Bölümleme Kümeleme Algoritmaları
K-Means
K-Means, veri noktalarını k sayıda kümeye ayıran en popüler ve basit kümeleme algoritmalarından biridir. Algoritma, her küme için bir merkez noktası (centroid) belirler ve veri noktalarını en yakın merkeze atayarak kümeleri oluşturur.
Algoritma Adımları:
- K adet küme merkezi rastgele seçilir
- Her veri noktası, en yakın küme merkezine atanır
- Her kümenin merkezi, o kümeye atanan noktaların ortalaması olarak güncellenir
- Küme atamaları değişmeyene kadar 2. ve 3. adımlar tekrarlanır
Avantajları:
- Basit ve uygulaması kolay
- Büyük veri setlerinde verimli
- Kümelerin şekli küresel olduğunda iyi sonuç verir
Dezavantajları:
- K değeri önceden belirlenmelidir
- Başlangıç merkezlerine duyarlıdır
- Küresel olmayan şekillerde zayıf performans gösterir
- Aykırı değerlere karşı hassastır
K-Medoids ve Fuzzy C-Means
K-Medoids ve Fuzzy C-Means, K-Means'in varyasyonlarıdır ve belirli durumlarda daha iyi performans gösterebilirler.
K-Medoids (PAM):
K-Medoids, K-Means'e benzer ancak küme merkezleri olarak veri noktalarından birini (medoid) kullanır. Bu, aykırı değerlere karşı daha dirençli olmasını sağlar.
- Avantajları: Aykırı değerlere karşı daha dirençli, farklı uzaklık ölçümleri kullanabilir
- Dezavantajları: K-Means'e göre daha yavaş, büyük veri setlerinde hesaplama maliyeti yüksek
Fuzzy C-Means:
Fuzzy C-Means, her veri noktasının birden fazla kümeye belirli üyelik dereceleriyle ait olabildiği bir algoritma. Klasik K-Means'in bulanık (fuzzy) versiyonu olarak düşünülebilir.
- Avantajları: Belirsiz sınırlara sahip kümelerde daha doğal sonuçlar, her noktanın birden fazla kümeye ait olabilmesi
- Dezavantajları: Gürültülü verilerde sorun yaşayabilir, bulanıklık parametresinin (m) ayarlanması gerekir
Kullanım Alanları:
- Müşteri segmentasyonu
- Pazar araştırması
- Görüntü segmentasyonu
- Doküman kümeleme
Hiyerarşik Kümeleme Algoritmaları
Hiyerarşik Kümeleme
Hiyerarşik kümeleme, veri noktalarını ağaç benzeri bir hiyerarşide gruplandıran bir kümeleme yaklaşımıdır. Bu yaklaşım, kümelerin iç içe geçmiş bir yapıda olduğu durumları modellemek için kullanılır.
İki Ana Yaklaşım:
- Aglomeratif (Birleştirici): Her veri noktası başlangıçta ayrı bir küme olarak kabul edilir ve adım adım en benzer kümeler birleştirilir (aşağıdan yukarıya yaklaşım)
- Bölücü (Divisive): Tüm veri noktaları başlangıçta tek bir küme olarak kabul edilir ve adım adım en farklı alt kümeler ayrılır (yukarıdan aşağıya yaklaşım)
Bağlantı Kriterleri:
- Tek Bağlantı (Single Linkage): İki küme arasındaki en yakın noktalar arası mesafe
- Tam Bağlantı (Complete Linkage): İki küme arasındaki en uzak noktalar arası mesafe
- Ortalama Bağlantı (Average Linkage): İki küme arasındaki tüm nokta çiftleri arası mesafelerin ortalaması
- Ward Yöntemi: Küme içi varyansı minimize etmeye çalışır
Hiyerarşik Kümeleme Özellikleri
Avantajları:
- Küme sayısını önceden belirleme zorunluluğu yoktur
- Dendrogramlar ile görselleştirilebilir, bu da küme yapısını anlamayı kolaylaştırır
- Herhangi bir küme şekli için çalışabilir
- Farklı bağlantı kriterleri ile esneklik sağlar
Dezavantajları:
- Hesaplama karmaşıklığı yüksek (O(n³) zaman karmaşıklığı)
- Büyük veri setleri için uygun değil
- Bir kez yapılan birleştirme veya bölme işlemi geri alınamaz
- Gürültülü verilere karşı hassas olabilir
Kullanım Alanları:
- Biyolojik taksonomiler
- Gen ifade analizi
- Sosyal ağ analizi
- Doküman hiyerarşisi oluşturma
- İş zekası ve müşteri segmentasyonu
Hiyerarşik kümeleme sonuçları genellikle dendrogram adı verilen ağaç diyagramları ile görselleştirilir. Bu diyagramlar, kümelerin nasıl birleştirildiğini veya bölündüğünü gösterir.
Yoğunluk Tabanlı ve Model Tabanlı Kümeleme
Yoğunluk Tabanlı Kümeleme
Yoğunluk tabanlı kümeleme algoritmaları, veri uzayındaki yoğun bölgeleri küme olarak tanımlar. Bu algoritmalar, herhangi bir şekildeki kümeleri bulabilir ve gürültülü verileri işleyebilir.
DBSCAN (Density-Based Spatial Clustering of Applications with Noise):
- Belirli bir yarıçap (ε) içinde minimum sayıda nokta (MinPts) bulunan bölgeleri küme olarak tanımlar
- Küme sayısını otomatik olarak belirler
- Gürültülü verileri tespit edebilir
- Herhangi bir şekildeki kümeleri bulabilir
- Farklı yoğunluktaki kümeleri bulmakta zorlanabilir
OPTICS (Ordering Points To Identify the Clustering Structure):
- DBSCAN'in geliştirilmiş versiyonu
- Farklı yoğunluktaki kümeleri daha iyi işleyebilir
- Erişilebilirlik grafiği ile küme yapısını görselleştirir
- Hesaplama açısından daha yoğun
Kullanım Alanları:
- Mekansal veri analizi
- Anomali tespiti
- Görüntü segmentasyonu
- Trafik analizi
Model Tabanlı Kümeleme
Model tabanlı kümeleme algoritmaları, verilerin belirli bir olasılık dağılımından geldiğini varsayar ve bu dağılımın parametrelerini tahmin etmeye çalışır.
Gaussian Mixture Models (GMM):
- Verilerin, her biri Gaussian (normal) dağılıma sahip birden fazla bileşenin karışımından oluştuğunu varsayar
- Her veri noktası için her kümeye ait olma olasılığını hesaplar (soft clustering)
- Expectation-Maximization (EM) algoritması ile parametreleri tahmin eder
- Eliptik şekilli kümeleri iyi modelleyebilir
- Başlangıç değerlerine duyarlıdır ve yerel optimumlara takılabilir
Diğer Model Tabanlı Yaklaşımlar:
- Latent Dirichlet Allocation (LDA): Metin verilerinde konu modellemesi için kullanılır
- Hidden Markov Models (HMM): Sıralı verilerde gizli durumları modellemek için kullanılır
- Self-Organizing Maps (SOM): Yüksek boyutlu verileri düşük boyutlu bir ızgaraya eşleyen sinir ağı tabanlı bir yaklaşım
Kullanım Alanları:
- Görüntü segmentasyonu
- Konuşma tanıma
- Genetik veri analizi
- Müşteri davranış modellemesi
- Anomali tespiti