Gaussian Mixture Models (GMM)

Czym jest GMM?

Gaussian Mixture Models (GMM) to probabilistyczny model grupowania, który zakłada, że dane są generowane z mieszanki wielu rozkładów Gaussa (normalnych). Każdy klaster w GMM jest reprezentowany przez jeden z tych rozkładów, opisany swoimi parametrami: średnią, kowariancją i wagą. Dzięki temu GMM jest w stanie modelować klastry o różnych kształtach i rozkładach w danych.

Kluczowe elementy GMM:

  1. Średnia (\(\mu\)):

    • Wskazuje środek każdego klastra.
  2. Kowariancja (\(\Sigma\)):

    • Określa rozprzestrzenienie punktów wokół średniej w danym klastrze (kształt i orientacja klastra).
  3. Wagi (\(\pi\)):

    • Prawdopodobieństwa przypisania punktu do danego klastra. Suma wag dla wszystkich klastrów wynosi 1.
  4. Rozkład Gaussa (normalny):

    • Każdy klaster jest modelowany za pomocą funkcji gęstości prawdopodobieństwa rozkładu normalnego: \[ \mathcal{N}(x \mid \mu, \Sigma) = \frac{1}{(2\pi)^{d/2} |\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right) \] Gdzie \(d\) to liczba wymiarów danych.

Proces działania GMM:

  1. Inicjalizacja parametrów:

    • Losowe przypisanie wartości średnich (\(\mu\)), kowariancji (\(\Sigma\)) oraz wag (\(\pi\)) dla każdego klastra.
  2. E-step (Expectation):

    • Obliczanie prawdopodobieństwa przynależności każdego punktu do poszczególnych klastrów na podstawie aktualnych parametrów.
  3. M-step (Maximization):

    • Aktualizacja parametrów (\(\mu\), \(\Sigma\), \(\pi\)) w celu maksymalizacji prawdopodobieństwa obserwacji danych.
  4. Sprawdzenie zbieżności:

    • Proces powtarza się aż do osiągnięcia zbieżności (np. minimalnej zmiany w wartościach parametrów).

Zalety GMM:

Wady GMM:

Zastosowania:

  1. Segmentacja obrazu:
    • Grupowanie pikseli na podstawie ich intensywności kolorów lub innych cech.
  2. Rozpoznawanie mowy:
    • Modelowanie akustycznych cech dźwięku.
  3. Bioinformatyka:
    • Klasyfikacja danych genetycznych, np. identyfikacja różnych typów komórek.
  4. Finanse:
    • Klasyfikacja klientów na podstawie ich zachowań finansowych.

Przykład działania:

Rozważmy zbiór punktów w 2D, które są generowane przez dwa różne rozkłady Gaussa:

Kroki:

  1. Inicjalizacja parametrów: \(\mu_1, \mu_2\), \(\Sigma_1, \Sigma_2\), \(\pi_1, \pi_2\).
  2. W E-step: Obliczanie prawdopodobieństwa przynależności każdego punktu do klastra 1 lub 2.
  3. W M-step: Aktualizacja \(\mu, \Sigma, \pi\) w oparciu o obliczone prawdopodobieństwa.
  4. Po kilku iteracjach: Ostateczne przypisanie punktów do klastrów z najwyższym prawdopodobieństwem.

Wizualizacja GMM:

W przypadku danych 2D wynikiem GMM są elipsy reprezentujące granice klastrów (wyznaczone na podstawie \(\Sigma\)) oraz środki klastrów (\(\mu\)).

Gaussian Mixture Models to zaawansowany model grupowania, który sprawdza się w sytuacjach, gdy dane mają skomplikowaną strukturę i nie są łatwo separowalne innymi metodami.