Inżynieria cech

Czym jest inżynieria cech?

Inżynieria cech (ang. feature engineering) to proces tworzenia, modyfikowania i selekcji cech (atrybutów) w danych, w celu poprawy wydajności modeli analitycznych. Celem tego procesu jest przygotowanie cech w taki sposób, aby były bardziej reprezentatywne dla analizowanego problemu i mogły lepiej wspierać proces uczenia maszynowego.

Inżynieria cech jest kluczowym krokiem w eksploracji danych, ponieważ nawet zaawansowane algorytmy osiągają lepsze wyniki, gdy dane wejściowe są dobrze przygotowane.

Główne aspekty inżynierii cech

1. Tworzenie nowych cech

Tworzenie cech to proces generowania nowych zmiennych na podstawie istniejących danych. Często obejmuje on:

2. Transformacje cech

Transformacje zmieniają rozkład cech lub dostosowują je do wymagań algorytmów.

3. Selekcja cech

Selekcja cech to proces wybierania najbardziej istotnych cech w celu poprawy efektywności i jakości modeli.

4. Usuwanie wartości odstających

Wartości odstające (ang. outliers) mogą wpływać negatywnie na modele analityczne. Ich identyfikacja i usunięcie odbywa się za pomocą:

5. Kodowanie danych kategorycznych

Dane kategoryczne muszą zostać przekształcone na wartości liczbowe:

Przykłady zastosowań:

  1. Medycyna:

    • Tworzenie nowych cech z danych pacjentów, np. BMI obliczane z masy ciała i wzrostu: \[ BMI = \frac{\text{Masa (kg)}}{\text{Wzrost (m)}^2} \]
  2. Marketing:

    • Tworzenie cech na podstawie zachowań użytkowników, takich jak liczba odwiedzin strony, średnia wartość koszyka zakupowego.
  3. Analiza czasowa:

    • Wyodrębnianie cech, takich jak sezonowość czy trendy z danych sprzedażowych.
  4. Finanse:

    • Normalizacja danych o transakcjach, aby uniknąć dominacji dużych wartości w modelach predykcyjnych.

Zalety inżynierii cech:

Wady inżynierii cech:

Inżynieria cech to sztuka łączenia wiedzy o danych z zaawansowanymi metodami analizy w celu uzyskania lepszych wyników w eksploracji danych i uczeniu maszynowym.