Ocena i walidacja modeli

Czym jest ocena i walidacja modeli?

Ocena i walidacja modeli to procesy pozwalające na zmierzenie wydajności modelu uczenia maszynowego oraz jego zdolności do generalizacji na nowe dane. Celem jest zrozumienie, jak dobrze model radzi sobie z analizą danych, wykrycie potencjalnego nadmiernego dopasowania (overfitting) lub niedopasowania (underfitting) oraz wybór najlepszego modelu spośród wielu opcji.

Kluczowe etapy oceny i walidacji

Podział danych:
- Dane są dzielone na co najmniej dwa zbiory:
  - Treningowy (training set): Do trenowania modelu.
  - Testowy (test set): Do oceny modelu na danych niewidzianych podczas uczenia.
Walidacja krzyżowa (cross-validation):
- Dane są wielokrotnie dzielone na podzbiory (folds), a model jest trenowany i oceniany na różnych kombinacjach zbiorów.
- K-Fold Cross-Validation:
  - Dane są dzielone na \(k\) podzbiorów.
  - Model jest trenowany na \(k-1\) podzbiorach, a oceniany na jednym.
  - Wynik końcowy to średnia wyników ze wszystkich iteracji. \[ CV\_score = \frac{1}{k} \sum_{i=1}^k \text{wynik}_i \]
Ocena na zbiorze testowym:
- Po optymalizacji modelu na zbiorze walidacyjnym, ostateczna ocena jest przeprowadzana na niezależnym zbiorze testowym.

Miary oceny modeli

1. Miary dla problemów klasyfikacji:

Dokładność (Accuracy):
- Procent poprawnych predykcji: \[ \text{Accuracy} = \frac{\text{TP} + \text{TN}}{\text{TP} + \text{TN} + \text{FP} + \text{FN}} \]
Precyzja (Precision):
- Odsetek poprawnych predykcji wśród przewidzianych pozytywnych: \[ \text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}} \]
Czułość (Recall):
- Odsetek prawdziwych pozytywnych, które zostały poprawnie wykryte: \[ \text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}} \]
F1-score:
- Średnia harmoniczna precyzji i czułości: \[ F1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}} \]
Krzywa ROC (Receiver Operating Characteristic):
- Pokazuje zależność między czułością a współczynnikiem fałszywych pozytywnych.
AUC (Area Under Curve):
- Pole pod krzywą ROC; im większa wartość, tym lepszy model.

2. Miary dla problemów regresji:

Błąd średniokwadratowy (MSE):
- Średnia różnica kwadratów między wartościami rzeczywistymi a przewidywanymi: \[ MSE = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2 \]
Średni błąd absolutny (MAE):
- Średnia wartość bezwzględnych różnic między wartościami rzeczywistymi a przewidywanymi: \[ MAE = \frac{1}{n} \sum_{i=1}^n |y_i - \hat{y}_i| \]
R² (R-squared, współczynnik determinacji):
- Miara określająca, jaka część zmienności w danych jest wyjaśniana przez model: \[ R^2 = 1 - \frac{\sum_{i=1}^n (y_i - \hat{y}_i)^2}{\sum_{i=1}^n (y_i - \bar{y})^2} \]

Rodzaje walidacji

Hold-out validation:
- Dane są dzielone na zbiór treningowy, walidacyjny i testowy. Model jest trenowany na zbiorze treningowym, a ocena przeprowadzana na walidacyjnym i testowym.
K-Fold Cross-Validation:
- Popularna technika, gdzie dane są dzielone na \(k\) podzbiorów, aby lepiej wykorzystać wszystkie dane.
Leave-One-Out Cross-Validation (LOOCV):
- Specjalny przypadek walidacji krzyżowej, gdzie każdy pojedynczy punkt danych jest używany jako zbiór testowy, a pozostałe dane jako zbiór treningowy.
Walidacja z bootstrapem:
- Tworzenie próbek danych za pomocą losowania ze zwracaniem, co pozwala na ocenę wariancji modelu.

Wyzwania w ocenie modeli

Overfitting:
- Model jest zbyt dopasowany do danych treningowych, co prowadzi do niskiej wydajności na danych testowych.
- Rozwiązanie: Regularizacja, walidacja krzyżowa, redukcja wymiarowości.
Underfitting:
- Model jest zbyt prosty, aby uchwycić wzorce w danych.
- Rozwiązanie: Dodanie bardziej złożonych cech lub użycie bardziej złożonego modelu.
Niestabilność miar oceny:
- Małe zbiory danych mogą prowadzić do dużych wahań wyników.
- Rozwiązanie: Walidacja krzyżowa i bootstrap.
Niewyważone dane:
- Gdy jedna klasa jest nadreprezentowana, standardowe miary, takie jak dokładność, mogą być mylące.
- Rozwiązanie: Używanie miar takich jak F1-score lub precision-recall.

Przykład: Ocena klasyfikatora

Załóżmy, że chcemy ocenić model klasyfikacyjny na podstawie macierzy pomyłek:

	Przewidziane: Tak	Przewidziane: Nie
Rzeczywiste: Tak	50	10
Rzeczywiste: Nie	5	35

Obliczenia:

Dokładność: \[ \text{Accuracy} = \frac{\text{TP} + \text{TN}}{\text{TP} + \text{TN} + \text{FP} + \text{FN}} = \frac{50 + 35}{50 + 35 + 10 + 5} = 0.85 \]
Precyzja: \[ \text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}} = \frac{50}{50 + 5} = 0.91 \]
Czułość: \[ \text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}} = \frac{50}{50 + 10} = 0.83 \]
F1-score: \[ F1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}} = 2 \cdot \frac{0.91 \cdot 0.83}{0.91 + 0.83} = 0.87 \]

Podsumowanie

Ocena i walidacja modeli to kluczowe kroki w eksploracji danych i uczeniu maszynowym, które pomagają wybrać najlepszy model, uniknąć overfittingu i zapewnić jego zdolność do generalizacji. Wybór odpowiednich technik oceny i miar powinien być dostosowany do rodzaju problemu oraz charakterystyki danych.