SVM - Support Vector Machine

Czym jest SVM?

Support Vector Machine (SVM) to wszechstronny algorytm uczenia maszynowego, który znajduje zastosowanie zarówno w klasyfikacji, jak i regresji. Jego celem jest znalezienie hiperpłaszczyzny w przestrzeni cech, która maksymalizuje margines między dwiema klasami. Dzięki temu SVM skutecznie rozróżnia klasy i charakteryzuje się wysoką ogólną wydajnością, zwłaszcza na danych o dużej liczbie wymiarów.

Kluczowe pojęcia:

Hiperpłaszczyzna:
- To n-1 wymiarowa granica decyzyjna, która dzieli przestrzeń cech na dwie części odpowiadające różnym klasom.
Wektory nośne (support vectors):
- Punkty danych, które są najbliżej hiperpłaszczyzny i definiują jej położenie. Mają kluczowy wpływ na optymalne rozwiązanie.
Margines:
- Odległość między hiperpłaszczyzną a najbliższymi punktami z obu klas. SVM dąży do maksymalizacji tego marginesu.
Jądra (kernels):
- Funkcje pozwalające na odwzorowanie danych do przestrzeni o wyższym wymiarze, umożliwiając modelowanie bardziej skomplikowanych granic decyzyjnych. Popularne jądra to:
  - Liniowe (linear)
  - Wielomianowe (polynomial)
  - Radialne funkcje bazowe (RBF)
  - Sigmoidalne

Proces działania SVM:

Transformacja danych:
- Dane wejściowe są mapowane do przestrzeni cech (w razie potrzeby z zastosowaniem funkcji jądra).
Znajdowanie hiperpłaszczyzny:
- Algorytm wyznacza optymalną hiperpłaszczyznę, która maksymalizuje margines między klasami.
Klasyfikacja punktów:
- Nowe punkty są klasyfikowane na podstawie ich położenia względem hiperpłaszczyzny.

Zalety SVM:

Efektywność przy dużej liczbie wymiarów: SVM dobrze radzi sobie z danymi o dużej liczbie cech.
Wszechstronność: Dzięki różnym funkcjom jądra może być stosowany do liniowych i nieliniowych problemów.
Odporność na nadmierne dopasowanie: Dzięki marginesowi maksymalnemu jest mniej podatny na overfitting, zwłaszcza w przypadku dużych marginesów między klasami.
Obsługa danych liniowo i nieliniowo separowalnych.

Wady SVM:

Wydajność obliczeniowa: Trenowanie SVM na dużych zbiorach danych może być czasochłonne.
Czułość na dane szumowe: Punkty odstające mogą mieć duży wpływ na położenie hiperpłaszczyzny.
Dobór parametrów: Wymaga starannego dostrojenia parametrów, takich jak wartość regularizacji \(C\) czy typ jądra.

Parametry w SVM:

Parametr regularizacji (\(C\)):
- Kontroluje równowagę między szerokością marginesu a liczbą błędów klasyfikacji.
- Duża wartość \(C\): Większy nacisk na poprawną klasyfikację punktów (ryzyko overfittingu).
- Mała wartość \(C\): Większy margines kosztem większej liczby błędów klasyfikacji.
Parametry funkcji jądra:
- W przypadku RBF: Parametr \(\gamma\) kontroluje wpływ pojedynczego punktu na granicę decyzyjną.
- Małe \(\gamma\): Większy zasięg wpływu punktu.
- Duże \(\gamma\): Mniejszy zasięg, bardziej szczegółowe dopasowanie.

Zastosowania:

Rozpoznawanie obrazów:
- Klasyfikacja obiektów na zdjęciach, np. twarzy, znaków drogowych.
Bioinformatyka:
- Przewidywanie struktury białek, analiza ekspresji genów.
Systemy rekomendacyjne:
- Personalizowane sugestie na podstawie preferencji użytkownika.
Analiza sentymentu:
- Klasyfikacja opinii jako pozytywnych lub negatywnych.
Wykrywanie oszustw:
- Identyfikacja podejrzanych transakcji w finansach.

Przykład działania:

Załóżmy, że chcemy sklasyfikować punkty na płaszczyźnie (2D) na dwie klasy:

Dane wejściowe: \((x_1, x_2)\)
Klasy: \(C_1, C_2\)

Dane:

Punkty klasy \(C_1\): \((2, 3), (3, 3), (4, 5)\)
Punkty klasy \(C_2\): \((6, 7), (7, 8), (8, 7)\)

SVM wyznacza hiperpłaszczyznę w postaci równania: \[ w_1 \cdot x_1 + w_2 \cdot x_2 + b = 0 \]

Gdzie \(w_1, w_2\) to wagi, a \(b\) to wyraz wolny.
Hiperpłaszczyzna dzieli punkty z klasy \(C_1\) i \(C_2\) maksymalizując margines.

Warianty SVM:

SVC (Support Vector Classification):
- Klasyfikacja binarna i wieloklasowa.
SVR (Support Vector Regression):
- Zastosowanie SVM w problemach regresji.
One-Class SVM:
- Wykrywanie anomalii na podstawie analizy jednego klastra danych.

SVM to potężne narzędzie w eksploracji danych, szczególnie skuteczne w zadaniach wymagających rozróżniania między różnymi klasami, dzięki swojej zdolności do modelowania skomplikowanych granic decyzyjnych.