Budowa modeli predykcyjnych jest podstawowym zadaniem w zastosowaniach data miningu w bankowości i innych dziedzinach. Modele predykcyjne mają wiele zastosowań i mogą zwiększyć efektywność działania przedsiębiorstwa. Przykłady to: credit scoring, response scoring, churn scoring, usage scoring.

Szkolenie przedstawia kompleksowo metody budowy oraz oceny jakości modeli predykcyjnych na przykładach danych rzeczywistych dla scoringu aplikacyjnego, scoringu odpowiedzi i innych.

Chciałbyś (chciałabyś) na przykład zwiększyć sprzedaż podwyższając szansę odpowiedzi na ofertę mailingową? Na szkoleniu dowiesz się, jak to zrobić.


Czego się nauczysz?

  • Po szkoleniu będziesz w stanie zbudować model predykcyjny. Nawet, jeśli zaczniesz szkolenie bez wiedzy z tej dziedziny.
  • Poznasz wszystkie etapy procesu budowy modelu predykcyjnego: od zebrania danych, poprzez wybór cech, ocenę jakości, aż do zastosowania modelu.
  • Nauczysz się przygotowywać dane do budowy modeli predykcyjnych.
  • Poznasz odpowiednie metody statystyczne.
  • Poznasz podstawy R.
  • Wszystko przećwiczysz w praktyce na komputerze: używamy systemu RRCommander.
  • Otrzymasz obszerne materiały umożliwiające samodzielną późniejszą pracę, w tym skrypty R.


Dla kogo jest to szkolenie?

Pracownicy departamentów zajmujących się analizą danych i modelowaniem (CRM, ryzyko kredytowe), departamentów controllingu, audytu, IT oraz innych:

  • budujących modele predykcyjne lub zamierzający budować modele scoringowe,
  • wszystkich zainteresowanych poznaniem sposobów budowy modeli predykcyjnych i zrozumieniem ich działania.


Skrót programu szkolenia

  • Przygotowanie danych
  • Metody klasyfikacyjne i regresyjne
  • Modele oparte na drzewach
  • Ocena jakości klasyfikacji i dobór parametrów klasyfikatorów
  • Wybór cech do modelu
  • Bardzo ważne praktyczne aspekty modelowania
  • Dodatkowe zagadnienia praktyczne związane z budową modeli R


Program szkolenia

  1. Wprowadzenie
    • zastosowania modeli predykcyjnych
    • przygotowanie danych
    • etapy uczenia i testowania efektywności modelu
    • dobór parametrów modeli
  2. Przygotowanie danych
    • analiza pojedynczych cech
      • rozkłady cech (tablice kontyngencji, histogramy)
      • obserwacje brakujące oraz obserwacje odstające
      • kontrola jakości i czyszczenie danych
      • wstępny wybór cech do konstrukcji modelu – analiza zdolności dyskryminacyjnej cech
    • przedziałowanie zmiennych ciągłych (dyskretyzacja)
      • rola przedziałowania
      • metody przedziałowania
        • weight of evidence (WoE)
        • maksymalizacja entropii
        • drzewa klasyfikacyjne
    • analiza zależności między cechami i konstrukcja cech pochodnych (generated characteristics, cross characteristics)
    • standaryzacja
    • próbkowanie
  3. Metody klasyfikacyjne i regresyjne
    • analiza dyskryminacyjna
    • metoda najbliższego sąsiada
    • sieci neuronowe
    • maszyny wektorów podpierających (SVM)
    • drzewa klasyfikacyjne
    • drzewa regresyjne
    • randomForest
    • klasyfikator Bayesa
    • regresja liniowa
    • regresja logistyczna
  4. Modele oparte na drzewach
    • specyfika modeli opartych na drzewach
    • przegląd zastosowań modeli opartych na drzewach
    • wizualizacja i interpretacja wyników
    • praktyczne aspekty związane z budową modeli opartych na drzewach:
      • kryteria wyboru zmiennych
      • kryteria podziału
      • kryteria zatrzymania
      • ocena złożoności struktury drzewa
    • drzewa klasyfikacyjne
    • drzewa regresyjne
    • postprocessing drzew: upraszczanie i modyfikacje struktury drzew (pruning), analiza ekspercka
    • zalety i wady modeli opartych na drzewach.
    • poprawa stabilności i efektywności drzew (algorytm bagging, modele hybrydowe)
    • lasy losowe (random forest)
  5. Ocena jakości klasyfikacji i dobór parametrów klasyfikatorów
    • ocena błędu klasyfikacji
    • ocena jakości modelu: train/test, cross-validation, leave-one-out, bootstrap
    • krzywa ROC, współczynnik AUROC
    • cost-sensitive learning, cost-sensitive evaluation
    • dobór optymalnego punktu odcięcia
    • dobór optymalnych parametrów klasyfikatorów
    • porównanie i wybór najlepszego modelu
  6. Wybór cech do modelu
    • kryteria zastosowania cech w modelach (statystyczne, biznesowe, operacyjne)
    • metody graficzne
    • przegląd zupełny zbioru cech
    • metody jednokrokowe (filtry)
    • metody wielokrokowe (forward, backward, forward-backward)
    • metody wbudowane w klasyfikatory (np. randomForest), komitety modeli, inne metody
  7. Bardzo ważne praktyczne aspekty modelowania
    • budowa modeli dla małych zbiorów danych
    • budowa modeli dla cech numerycznych (ilościowych) bez przedziałowania
    • zależność cech (numerycznych i kategorycznych) — jak sobie z nią poradzić
    • nierówne proporcje grup i jej konsekwencje
    • porównanie podejść do budowy modeli: dummy variables, przekodowanie WoE, modele dla zmiennych ciągłych
  8. Dodatkowe zagadnienia praktyczne związane z budową modeli R
    • formaty danych wejściowych
    • współpraca z MS Excel
    • eksport modeli w formacie PMML

Spróbuj ponownie