26.03

2015

Case study: Analiza rynku nowych samochodów w Polsce

Autor: adam

Dzisiaj kolejny wpis z cyklu Analiza i prognozowanie szeregów czasowych — case studies, przygotowany przez naszych stażystów Hannę Loch i Piotra Kopszaka. Tym razem zainteresowaliśmy się danymi związanymi z rynkiem motoryzacyjnym w Polsce. Analiza obejmuje szeregi czasowe (z ostatnich kilku lat) zawierające informacje o liczbie zarejestrowanych nowych samochodów różnych marek, w poszczególnych województwach.

Ponieważ analiza jest bardzo obszerna została podzielona na kilka etapów. Zaczynamy od spojrzenia na dane zagregowane (dla wszystkich marek samochodów i wszystkich województw). Następnie badamy jak zmieniała się w czasie popularność konkretnych marek (Skoda, Fiat, Toyota, itd.). Na koniec przyglądamy się danym dotyczącym samochodów konkretnej (wybranej) marki, ale w różnych regionach (województwach).

Skrócony spis treści wygląda następująco:
1. Wprowadzenie
2. Analiza wszystkich zarejestrowanych pojazdów
3. Analiza popularności konkretnych marek samochodów
4. Analiza popularności konkretnej marki w różnych regionach

Zaznaczmy jeszcze, że poniższy artykuł (z założenia) nie jest tutorialem. który ma nauczyć od podstaw stosowania metod analizy i prognozowania szeregów czasowych. Osoby zainteresowane poznaniem podstaw metodologicznych, szczegółów dotyczących określonych metod analizy szeregów czasowych czy też konkretnych algorytmów dostępnych w pakiecie R odsyłamy do naszej książki: Analiza i prognozowanie szeregów czasowych. Praktyczne wprowadzenie na podstawie środowiska R, A. Zagdański, A. Suchwałko, PWN 2015.

1 Wprowadzenie

W poniższym artykule przedstawimy analizę danych zawierających informacje na temat rejestracji nowych pojazdów w Polsce. W szczególności zaprezentujemy subiektywny dobór narzędzi i metod analitycznych dedykowanych szeregom czasowym.

Analizowane dane dotyczą statystyk rejestracji nowych pojazdów, a dokładniej pojazdów o masie całkowitej do 3,5 tony znajdujących się w Centralnej Ewidencji Pojazdów. Dane pochodzą ze strony carmarket.com.pl i obejmują okres od stycznia 2007 do lipca 2014. Zawierają one zarówno informacje o wszystkich zarejestrowanych samochodach, jak i z podziałem na poszczególne marki samochodów (uwzględnionych jest ponad 60 różnych marek).

Naszą analizę rozpoczniemy od szeregu czasowego złożonego z danych dotyczących wszystkich rejestrowanych samochodów, później natomiast przyjrzymy się bliżej danym dla kilku wybranych marek. Wszystkie analizy przeprowadzono w środowisku R.

1.1 Pytania biznesowe i analiza danych

Omawiane dane są niezwykle interesujące ze względu na ich bliskie powiązanie z danymi dotyczącymi sprzedaży nowych samochodów. Analiza danych sprzedażowych jest niezwykle ważna w zastosowaniach biznesowych i pomaga znaleźć odpowiedzi między innymi na następujące pytania:

  1. Jaka będzie sprzedaż w następnych okresach? A co za tym idzie — jaka powinna być wielkość produkcji w następnych okresach?
  2. Jakie są ogólne nastroje rynku — mamy do czynienia z okresem dobrej koniunktury czy raczej ze stagnacją bądź trendem spadkowym?
  3. Jak zmieniają się gusta nabywców nowych samochodów?

Oczywiste jest, że dla sprzedawców czy producentów odpowiedzi na takie pytania są niezbędne. Pokażemy poniżej, jak wykorzystanie narzędzi analizy szeregów czasowych może pomóc nam znaleźć na nie odpowiedzi.

1.2 Konstrukcja prognoz

By móc ocenić dokładność otrzymywanych prognoz, podzielimy nasze dane na podzbiór uczący i testowy, tj. część danych posłuży nam do zbudowania modelu, na podstawie których dokonamy predykcji na następny okres. Następnie przewidywane wartości zostaną porównane z prawdziwymi danymi z tego okresu — podzbiorem testowym.

W naszym przypadku podzbiorem uczącym będą dane z okresu styczeń 2007 – grudzień 2012 (czyli 6 pełnych lat), a podzbiorem testowym z okresu styczeń 2013 – lipiec 2014.

1.3 Ocena dokładności prognoz

By dobrze porównać prognozy uzyskane różnymi metodami, należy przyjąć pewne kryteria oceniające popełniony błąd, czyli różnicę między prognozą a rzeczywistymi wartościami. W praktyce najczęściej wykorzystywanych jest kilka kryteriów; w tym opracowaniu będziemy korzystać z następujących dwóch:

  1. MAPE – mean absolute percentage error, czyli średni bezwzględny błąd procentowy. Wartość MAPE mówi nam, o ile procent średnio różniła się wartość prognozowana od rzeczywistej.
  2. MASE – mean absolute scaled error, czyli średni bezwzględny błąd skalowany. Jest to porównywanie otrzymanego błędu predykcji z błędem, który popełnilibyśmy wykorzystując do prognozowania tzw. metodę naiwną (opisaną poniżej).

Będziemy wyliczać wartości obu błędów dla wszystkich wyznaczanych prognoz tak, aby móc później wybrać najlepszą, czyli obarczoną najmniejszym błędem, metodę prognozowania.

1.4 Przedziały predykcyjne

Często interesuje nas nie tylko prognozowana wartość, ale pewien przedział wartości oraz prawdopodobieństwo z jakim przyszłe (nieznane) wartości szeregu znajdą się w tym przedziale. Są to tak zwane przedziały predykcyjne. W zależności od prawdopodobieństwa (poziomu ufności) związanego z przedziałami, ich szerokości różnią się. Jeśli chcemy mieć dużą pewność (np. 95%), że prawdziwe wartości szeregu faktycznie znajdą się w przedziale predykcyjnym, będzie on szerszy niż taki, co do którego mamy na przykład tylko 70% pewność. W praktyce najczęściej spotyka się dwa poziomy ufności: 95% i 80%. Takie też będą poziomy ufności dla przedziałów predykcyjnych w naszej analizie.

Przedziały predykcyjne spełniają jeszcze jedną, ważną funkcję — pozwalają ocenić ryzyko towarzyszące prognozom punktowym (przez co mogą być uzupełnieniem kryteriów dokładności prognoz). Ponadto pozwalają na przeanalizowanie różnych scenariuszy dotyczących przyszłych wartości, a co za tym idzie, zaplanowanie różnych strategii biznesowych.

2 Analiza wszystkich zarejestrowanych pojazdów

Jak już wspomnieliśmy, zaczniemy od analizy danych dotyczących wszystkich zarejestrowanych nowych samochodów (do 3,5 tony) w okresie od stycznia 2007 do lipca 2014.

2.1 Podstawowe własności danych

Pierwszym krokiem w analizie szeregu czasowego jest najczęściej dokładne przyjrzenie się wykresowi danych. Wykres ten przedstawia rysunek 1.

Rysunek 1. Liczba zarejestrowanych nowych samochodów w Polsce w okresie 01.2007 - 07.2014

Rysunek 1. Liczba zarejestrowanych nowych samochodów w Polsce w okresie 01.2007 – 07.2014

Pierwszą rzeczą, którą możemy dostrzec na wykresie 1 jest gwałtowny wzrost liczby zarejestrowanych nowych samochodów pod koniec 2010 roku. Za każdą tego typu anomalią w szeregu czasowym stoi zwykle jakieś uzasadnienie, gospodarcze bądź społeczne. W tym wypadku powodem tak gwałtownego skoku jest wprowadzenie nowych regulacji prawnych dotyczących tzw. aut z kratką, czyli homologacją ciężarową — od 1. stycznia 2011 są one traktowane jak zwykłe samochody osobowe, to znaczy nie można było odliczyć od ich ceny pełnej stawki VAT (jak było to możliwe wcześniej). Z tego powodu wszyscy, którzy chcieli jeszcze skorzystać z poprzednich przepisów, kupowali auto tuż przed końcem roku, stąd gwałtowny wzrost liczby rejestrowanych samochodów. Podobna sytuacja miała miejsce w marcu 2014 — analogicznie, od 1. kwietnia 2014 w życie wchodziły przepisy, które jeszcze bardziej zawężały możliwości odliczenia podatku VAT w przypadku samochodów wykorzystywanych do tzw. celów mieszanych — zarówno jako samochód służbowy, jak i prywatny.

Kolejną rzeczą, którą chcielibyśmy wywnioskować z wykresu, jest obecność (lub brak) w analizowanym szeregu trendu. Dzięki temu możliwa byłaby odpowiedź na pytanie dotyczące długoterminowych tendencji i kondycji rynku. Na wykresie 1 nie widać jednak wyraźnego wzrostu bądź spadku, choć jeżeli przyjrzymy się bliżej, można zaryzykować stwierdzenie, że nastąpiło pewne zmniejszenie liczby rejestrowanych samochodów. Do dokładniejszej identyfikacji trendu wrócimy jeszcze w następnym rozdziale.

Na wykresie 2 (tak zwanym wykresie sezonowym) możemy zobaczyć, iż w naszych danych prawdopodobnie istnieje pewien regularny wzorzec, powtarzający się z roku na rok — liczba rejestrowanych samochodów maleje w sierpniu i wrześniu, a rośnie na koniec roku (kiedy zaczynają się wyprzedaże samochodów z danego rocznika).

Rysunek 2. Liczba zarejestrowanych nowych samochodów dla kolejnych lat

Rysunek 2. Liczba zarejestrowanych nowych samochodów dla kolejnych lat

Przypomnijmy, iż nasze dane są danymi miesięcznymi — znamy tylko sumaryczną liczbę samochodów zarejestrowanych w danym miesiącu. Warto zauważyć, że liczba samochodów zarejestrowanych w lutym może być z założenia mniejsza niż w styczniu czy marcu, ze względu na fakt, iż luty ma mniej dni. Z drugiej strony jednak, mówimy o rejestracji samochodów w wydziałach ruchu drogowego urzędów samorządowych, które są czynne tylko w dni robocze, więc powinniśmy rozpatrywać liczbę dni roboczych w danym miesiącu (np. w styczniu mamy dodatkowe dwa dni wolne, 1. i 6. stycznia). W tym przypadku możemy zastosować odpowiednią korektę danych, uwzględniającą zmienną liczbę dni roboczych w poszczególnych miesiącach (tzw. trading days adjustment). Na wykresie 3 jest przedstawione porównanie wykresów dla danych przed i po dostosowaniu.

Rysunek 3. Porównanie wykresów sezonowych przed i po zastosowaniu korekty

Rysunek 3. Porównanie wykresów sezonowych przed i po zastosowaniu korekty

Jak możemy zobaczyć na rysunku 3, zastosowanie korekty typu trading days adjustment zmienia nieco kształt przebiegów czasowych odpowiadających kolejnym latom. Jednakże w dalszym ciągu możemy zauważyć znaczący spadek w sierpniu i wrześniu oraz wzrost w grudniu. Warto więc pomyśleć o dokładniejszej analizie sezonowości, którą przeprowadzimy poniżej.

2.2 Identyfikacja regularnych wzorców w danych

Podstawowym podejściem umożliwiającym identyfikację regularnych wzorców (tendencji) jest dekompozycja, czyli wyodrębnienie z szeregu trzech składowych: trendu, sezonowości i losowych fluktuacji.

Zacznijmy od wyodrębnienia z danych składowej trendu. W tym celu wyznaczymy średnią kroczącą (Moving Average, w skrócie MA) — funkcję, która jako wartość trendu w danej chwili $t$ przyjmuje średnią z pewnej ustalonej liczby sąsiednich obserwacji (liczba tych obserwacji to rząd średniej kroczącej). Więcej szczegółów nt. metody średniej kroczącej można znaleźć w rozdziale Dodatki. Na rysunku 4 pokazane jest dopasowanie średniej kroczącej rzędu 3, 7 i 12.

Rysunek 4. Dopasowanie średniej kroczącej rzędu 3, 7 i 12

Rysunek 4. Dopasowanie średniej kroczącej rzędu 3, 7 i 12

Jak widać, średnia krocząca rzędu 12 najlepiej oddaje ogólny trend w danych — nic dziwnego, ponieważ im większy jest rząd tym więcej wartości uśredniamy, co skutkuje większą gładkością otrzymanej funkcji trendu. Patrząc na postać średniej kroczącej rzędu 12 (fioletowa linia na wykresie 4), możemy próbować dopasować na przykład malejący trend liniowy (choć nie będzie to z pewnością optymalne dopasowanie). Zwróćmy również uwagę na pewne długookresowe fluktuacje, które są widoczne w przebiegu omawianej średniej kroczącej rzędu 12 — mogą nam one sugerować istnienie pewnej dodatkowej cykliczności, innej niż sezonowość roczna.

Sprawdźmy jeszcze, czy w naszych danych występuje wyraźna składowa sezonowa (sezonowość). Patrząc na wykres 1 nie byliśmy w stanie jednoznacznie potwierdzić występowania powtarzającego się co roku wzorca wahań sezonowych, który był już wyraźniej widoczny na wykresie 2. Występującą w analizowanym szeregu sezonowość możemy zidentyfikować po usunięciu (wyeliminowaniu) z danych trendu, oszacowanego na przykład na bazie średniej kroczącej rzędu 12. Z tak przekształconych danych uzyskujemy postać wzorca sezonowego na podstawie tzw. indeksów sezonowych przypisanych każdemu z miesięcy, będących średnią z obserwacji dla danego miesiąca we wszystkich latach. Wyznaczone indeksy sezonowe przedstawia rysunek 5. Zauważmy, że indeks sezonowy dla kwietnia jest na tyle bliski 0, że nie jest widoczny na wykresie. Potwierdziły się również nasze wcześniejsze spostrzeżenia, że liczba zarejestrowanych nowych samochodów maleje w sierpniu i wrześniu, a rośnie na koniec roku (w grudniu).

Rysunek 5. Wykres indeksów sezonowych

Rysunek 5. Wykres indeksów sezonowych

2.3 Proste metody prognozowania

Nasze próby prognozowania liczby nowych samochodów, zarejestrowanych w okresie styczeń 2013 – lipiec 2014, zaczniemy od wykorzystania prostych, najbardziej intuicyjnych metod.

Najprostszą z możliwych metod prognozowania, jest tzw. metoda ,,naiwna”, w przypadku której jako prognozy przyszłych wartości przyjmujemy ostatnią zarejestrowaną wartość szeregu. Taka metoda oczywiście nie nadaje się do modelowania danych zarówno z sezonowością, jak i z trendem. Ponieważ nasze dane nie mają bardzo wyraźnego trendu, w pierwszym podejściu spróbujemy jednak zastosować metodę naiwną. Wynik jej działania można zobaczyć na rysunku 6. Ciemnoszary obszar to 80% przedział predykcyjny (czyli przedział, w którym z 80% pewnością będzie znajdowała się przysła wartość), a jasnoszary obszar to 95% przedział predykcyjny.

Rysunek 6. Prognoza otrzymana za pomocą metody naiwnej

Rysunek 6. Prognoza otrzymana za pomocą metody naiwnej

Spróbujmy teraz zastosować modyfikacje metody naiwnej, uwzględniające sezonowość oraz trend i porównać dokładność prognoz. Wartości kryteriów oceniających dokładność prognoz dla wszystkich trzech wariantów metody naiwnej znajdują się w tabeli 1, natomiast na rysunkach 78 przedstawione są prognozy, skonstruowane za pomocą odpowiednio: sezonowej metody naiwnej i metody uwzględniającej dryf, z analogicznie zaznaczonymi przedziałami predykcyjnymi.

Rysunek 7. Prognoza otrzymana za pomocą sezonowej metody naiwnej

Rysunek 7. Prognoza otrzymana za pomocą sezonowej metody naiwnej

Rysunek 8. Prognoza otrzymana za pomocą metody uwzględniającej dryf

Rysunek 8. Prognoza otrzymana za pomocą metody uwzględniającej dryf

Tabela 1. Błędy predykcji przy użyciu trzech wariantów metody naiwnej
MAPE MASE
Metoda naiwna 12.09 0.99
Sezonowa metoda naiwna 12.49 1.06
Metoda uwzględniająca dryf 12.14 1.00

Jak widać w tabeli 1, dokładność prognoz uzyskanych przy użyciu trzech powyższych metod jest bardzo zbliżona. Jednak patrząc na wykresy 6, 78 możemy zauważyć różne szerokości zarówno 80%, jak i 95% przedziałów predykcji — są one o wiele węższe dla sezonowej metody naiwnej. Z tego powodu predykcja tą metodą jest dla nas o wiele bardziej wartościowa: prognozy mogą mniej różnić się od rzeczywistej wartości (która z prawdopodobieństwem 80% lub 95% wpada do odpowiedniego przedziału). Innymi słowy, im węższy przedział predykcyjny tym większe nasze zaufanie do skonstruowanych prognoz. Zauważmy, że przedziały predykcyjne dla sezonowej metody naiwnej (zarówno 80% jak i 95%) nie pokryły wartości w marcu 2014. Jak już jednak wspomnieliśmy jest to raczej obserwacja nietypowa (odstająca), zwiazana z wprowadzonymi zmianami legislacyjnymi, a więc trudna do przewidzenia.

Przedstawione powyżej prognozy, wyznaczone za pomocą tzw. metod naiwnych, będziemy w dalszej części traktowali jako wyniki referencyjne. Posłużą nam one do oceny i porównania skuteczności bardziej złożonych metod prognozowania, które zaprezentujemy w następnych rozdziałach.

2.4 ARIMA

Zobaczmy teraz, jak dobrze do naszych danych dopasuje się model ARIMA (AutoRegressive Integrated Moving Average), który jest o wiele bardziej złożoną metodą konstrukcji prognoz. W tym przypadku zakładamy, że wartość szeregu (być może po zróżnicowaniu, czyli wyznaczeniu różnic pomiędzy sąsiednimi obserwacjami) w danej chwili $t$ jest liniową kombinacją wartości szeregu (część autoregresyjna) oraz zakłóceń (część związana ze średnią ruchomą), w pewnych chwilach poprzedzających $t$. Więcej informacji na temat modeli ARIMA można znaleźć w Dodatku.

Wybór odpowiedniej postaci modelu ARIMA nie jest prostym zadaniem; oczywiście istnieją określone kryteria pozwalające na porównanie kilku rozpatrywanych modeli i wybranie najbardziej odpowiedniego z nich. W wielu pakietach statystycznych (także w pakiecie R) istnieją funkcje, które automatycznie dokonują wyboru odpowiedniego modelu (w oparciu o wspomniane kryteria).

Dla naszych danych automatycznie dobrany został model sARIMA$(1,0,0)(1,0,0)_{12}$. Warto zaznaczyć, iż model ten jest stacjonarny, a więc zakłada brak trendu i sezonowości (choć wcześniej zidentyfikowaliśmy wyraźne wahania sezonowe). Prognozy skonstruowane na bazie tego modelu są przedstawione na rysunku 9. Jak widać oba przedziały predykcyjne, 80% i 95%, są węższe niż w przypadku sezonowej metody naiwnej, co jest oczywiście pożądaną cechą.

Rysunek 9. Wykres prognoz wyznaczonych na bazie modelu ARIMA

Rysunek 9. Wykres prognoz wyznaczonych na bazie modelu ARIMA

Błędy predykcyjne, które popełniamy, stosując tę metodę, są przedstawione w tabeli 2. Dokładność prognoz uzyskanych na bazie modelu ARIMA jest nieco lepsza w porównaniu do prostych metod prognozowania (tabela 1). Widzimy jednak, że wynik nie jest jeszcze w pełni zadowalający, dlatego w kolejnych rozdziałach zaprezentujemy inne metody, mogące poprawić dokładność predykcji.

Tabela 2. Błędy predykcji na bazie modelu ARIMA
MAPE MASE
Model ARIMA 11.55 0.98

2.5 Model ETS

Kolejną, bogatą rodziną modeli, które możemy wykorzystać do prognozowania szeregów czasowych, są modele ETS, czyli ExponenTial Smoothing, inaczej nazywane także Error Trend Seasonality. Jest to zaawansowana grupa modeli opartych na odpowiednim modelowaniu występujących w danych składowych: trendu, sezonowości i losowych fluktuacji, ale w o wiele bardziej skomplikowany sposób niż w przypadku klasycznej dekompozycji. Do modeli ETS należy między innymi Simple Exponential Smoothing (SES), czyli proste wygładzanie wykładnicze (o którym szerzej można przeczytać w Dodatku).

Analogicznie jak w przypadku modeli ARIMA, wybór odpowiedniego wariantu metody ETS jest dość skomplikowany. W naszym wypadku zastosowaliśmy automatyczny dobór modelu na bazie minimalizacji odpowiednich kryteriów, oceniających jakość dopasowania modelu do danych. Wybrany został model z multiplikatywną sezonowością i niezawierający składowej trendu (co może sugerować, że w naszych danych trend długoterminowy jednak nie występuje).

Rysunek 10. Wykres prognoz wyznaczonych na bazie modelu ETS

Rysunek 10. Wykres prognoz wyznaczonych na bazie modelu ETS

Jak widać na wykresie 10, na którym pokazana jest prognoza przy użyciu wyznaczonego modelu ETS, główną różnicą pomiędzy prognozami a danymi rzeczywistymi jest wartość w marcu 2014 roku, która, jak już wspominaliśmy, jest spowodowana wpływem zewnętrznych czynników (zmiana prawa). Przedziały predykcyjne dla tej prognozy są porównywalne z przedziałami dla sezonowej metody naiwnej (są szersze niż w przypadku modelu ARIMA). W tabeli 3 przedstawione są błędy MAPE i MASE dla dopasowanego modelu ETS. Jak możemy zauważyć, prognozy wyznaczone z wykorzystaniem tej metody są lepsze zarówno od tych przygotowanych za pomocą metody naiwnej, ale także od prognoz opartych na modelu ARIMA. Błąd procentowy (MAPE) jest mniejszy od 10%, co jest już akceptowalnym rezultatem.

Tabela 3. Błędy predykcji na bazie modelu ETS
MAPE MASE
Model ETS 8.35 0.73

2.6 Analiza harmoniczna

Wróćmy na moment do wykresu 4. Średnia kroczącą rzędu 12 nie przypomina prostej (choć dla prostoty modelowania trendu mogliśmy tak założyć, godząc się, że spowoduje to pewien błąd w prognozach), lecz ma pewne okresowe wzrosty i spadki. Warto zatem zastanowić się, czy poza sezonowością roczną, którą zidentyfikowaliśmy na przykład na wykresie 2 nie ma jeszcze innych cyklicznych składowych, które będą odpowiedzialne za fluktuacje o innym okresie niż roczny. W zidentyfikowaniu tego rodzaju zachowań okresowych może nam pomóc analiza harmoniczna.

Podejście to różni się od zaprezentowanych wyżej modeli. Zakładamy tutaj, że wartość szeregu w danym momencie może być przedstawiona w postaci sumy funkcji okresowych, takich jak sinus i cosinus, o różnych okresach. Reszty modelu zapisanego w ten sposób (czyli różnice wartości rzeczywistych i wartości prognozowanych) możemy modelować jako biały szum (czyli szereg nieskorelowany) bądź przy użyciu odpowiedniego modelu z klasy ARIMA (co jest znacznie bardziej ogólne).

Na wykresie 11 można zobaczyć prognozy, wyznaczone na bazie regresji harmonicznej, z odpowiednim modelem ARIMA dopasowywanym do reszt. Do wyznaczania tej prognozy zostały użyte 4 pierwsze harmoniki, czyli funkcje sinus i cosinus z częstotliwościami: $\frac{1}{12}$, $\frac{1}{6}$, $\frac{1}{4}$$\frac{1}{3}$, które odpowiadają składowym okresowym o okresach: 12, 6, 4 i 3 miesiące. Dla lepszego zobrazowania, co kryje się za tym modelem, na wykresie 12 zostały przedstawione składowe sinusoidalne dla wymienionych częstotliwości. Liczbę zarejestrowanych samochodów w danym miesiącu modelujemy jako sumę tych funkcji (z odpowiednimi współczynnikami) oraz wspomnianego już czynnika losowego.

Rysunek 11. Wykres prognoz wyznaczonych na bazie regresji harmonicznej

Rysunek 11. Wykres prognoz wyznaczonych na bazie regresji harmonicznej

Rysunek 12. Regresja harmoniczna: Składowe okresowe dla różnych częstotliwości

Rysunek 12. Regresja harmoniczna: Składowe okresowe dla różnych częstotliwości

Tabela 4. Błędy predykcji przy użyciu regresji harmonicznej
MAPE MASE
Regresja harmoniczna 9.41 0.82

W tabeli 4 możemy zobaczyć wyliczone miary błędów predykcji dla regresji harmonicznej. Widać, że metoda ta daje nieco gorsze rezultaty niż model ETS, aczkolwiek zdecydowanie lepsze niż metody naiwne czy nawet model ARIMA. Oprócz wyznaczenia dokładnych prognoz zastosowanie analizy harmonicznej ma jeszcze jedną zaletę — możemy zobaczyć (analizując współczynniki poszczególnych składowych okresowych), które ze składowych są dominujące i mają największy wpływ na wartość szeregu w danym miesiącu. Na wykresie 13 przedstawione są wybrane składowe okresowe, które występują w dopasowanym przez nas modelu regresji harmonicznej.

Rysunek 13. Wykres wybranych składowych w modelu regresji harmonicznej

Rysunek 13. Wykres wybranych składowych w modelu regresji harmonicznej

Powyższe wyniki sugerują, że w naszych danych występują pewne zachowania sezonowe, które nie są związane wyłącznie z sezonowością roczną (którą można stosunkowo łatwo zidentyfikować). Odpowiednie modelowanie okresowości może zatem wymagać zastosowania bardziej zaawansowanych modeli lub algorytmów. W kolejnym kroku spróbujemy zastosować dekompozycję STL, która pozwoli nam uwzględnić obecne w analizowanym szeregu niestandardowe efekty sezonowe.

2.7 STL

STL (czyli Seasonal Decomposition of Time Series by Loess, gdzie Loess oznacza regresję lokalną) jest metodą opartą na dekompozycji szeregu. W tym przypadku wyodrębnienie poszczególnych składowych jest jednak dużo bardziej skomplikowane niż w klasycznej dekompozycji szeregu czasowego. STL jest metodą elastyczną, pozwalającą między innymi na dostosowanie szerokości okna używanego przy wygładzaniu.

Na wykresie 14 zaprezentowana jest prognoza wyznaczona za pomocą algorytmu STL, natomiast w tabeli 5 znajdziemy wartości błędów MAPE i MASE. Dokładność prognoz uzyskanych tą metodą jest porównywalna z wynikami na bazie regresji harmonicznej i modelu ETS, a więc tę metodę również możemy uznać za skuteczną dla naszych danych.

Rysunek 14. Wykres prognoz wyznaczonych na bazie dekompozycji STL

Rysunek 14. Wykres prognoz wyznaczonych na bazie dekompozycji STL

Tabela 5. Błędy predykcji na bazie algorytmu STL
MAPE MASE
STL 9.01 0.79

2.8 Która metoda jest najlepsza?

W tabeli 6 przedstawione zostały wartości błędów MAPE i MASE dla wszystkich zastosowanych powyżej metod konstrukcji prognoz.

Tabela 6. Porównanie błędów predykcji
MAPE MASE
Metoda naiwna 12.09 0.99
Sezonowa metoda naiwna 12.49 1.06
Metoda uwzględniająca dryf 12.14 1.00
Model ARIMA 11.55 0.98
Model ETS 8.35 0.73
Regresja harmoniczna 9.41 0.82
STL 9.01 0.79

Jak widzimy najlepsze wyniki otrzymaliśmy dla jednej z najbardziej skomplikowanych metod — modelu ETS. Nie jest to jednak nic dziwnego, ponieważ zazwyczaj bardziej skomplikowane metody dają lepsze rezultaty. Również model ARIMA i dekompozycja STL dają zbliżone wyniki. Choć nie jesteśmy w pełni zadowoleni z dokładności prognoz, uzyskanych nawet z wykorzystaniem najbardziej zaawansowanych metod, trzeba podkreślić, że istotny wpływ na wyniki może mieć obserwacja odstająca, która pojawiła się w marcu 2014, związana ze zmianą przepisów dotyczących podatku VAT.

Warto również zauważyć, że wyznaczone powyżej miary błędów różnią się w zależności od horyzontu czasowego, dla którego wykonujemy prognozy — zazwyczaj im dłuższy horyzont, tym bardziej niedokładna prognoza (choć nie zawsze!). W tabeli 7 porównane zostały błędy predykcji dla każdego z powyższych modeli, dla krótszego (h=6 miesięcy) i dłuższego horyzontu (h=12 miesięcy).

Tabela 7. Porównanie błędów predykcji dla różnych horyzontów czasowych
h = 6 | MAPE h = 6 | MASE h = 12 | MAPE h = 12 | MASE
Metoda naiwna 12.05 0.88 12.09 0.99
Sezonowa metoda naiwna 11.47 0.91 12.49 1.06
Metoda uwzględniająca dryf 12.08 0.88 12.14 1.00
Model ARIMA 9.90 0.77 11.55 0.98
Model ETS 5.41 0.44 8.35 0.73
Regresja harmoniczna 6.10 0.50 9.41 0.82
STL 4.40 0.36 9.01 0.79

Możemy również porównać szerokości przedziałów predykcyjnych wyznaczonych dla poszczególnych metod. W tabeli 8 przedstawiono porównanie średnich względnych szerokości przedziałów dla poszczególnych metod konstrukcji prognoz. Wartości w danym wierszu oznaczają o ile procent (średnio) przedziały otrzymane metodą z odpowiedniej kolumny są szersze lub węższe od metody z tego wiersza (np. wartość -64.65% w 1-szym wierszu i 4-ej kolumnie oznacza, że przedziały predykcyjne dla metody ARIMA były średnio około 65% węższe niż przedziały dla metody naiwnej).

Tabela 8. Porównanie średnich względnych szerokości przedziałów predykcyjnych
naiwna naiwna sezonowa naiwna z dryfem ARIMA ETS
naiwna 0 % -54.43 % 4.74 % -64.65 % -63.41 %
naiwna sezonowa 150.13 % 0 % 163.6 % -21.93 % -11.88 %
naiwna z dryfem -4.48 % -56.14 % 0 % -65.99 % -64.96 %
ARIMA 219.33 % 28.12 % 236.49 % 0 % 12.59 %
ETS 178.03 % 20.96 % 191.89 % -5.95 % 0 %

Jak widać, najwęższe przedziały predykcyjne uzyskaliśmy na bazie modelu ARIMA, niemal równie wąskie stosując metodę ETS. Warianty metody naiwnej generują znacznie szersze przedziały.

Skoro wiemy już, który z modeli najlepiej dopasowuje się do naszych danych, spróbujmy za jego pomocą wykonać prognozy na kolejny rok, to jest od sierpnia 2014 do lipca 2015. Na rysunku 15 zaprezentowana została prognoza wykonana właśnie za pomocą modelu ETS, jednak z parametrami dopasowanymi do całych dostępnych danych (czyli łącznie dla podzbioru uczącego i testowego). Jak widać ogólna tendencja liczby nowych zarejestrowanych samochodów jest stała — nie spodziewamy się ani zdecydowanych wzrostów, ani spadków.

Rysunek 15. Prognoza liczby zarejestrowanych nowych samochodów dla nowych okresów

Rysunek 15. Prognoza liczby zarejestrowanych nowych samochodów dla nowych okresów

3 Analiza popularności konkretnych marek samochodów

3.1 Skoda

Analizy poświęcone konkretnym markom rozpoczniemy od obecnego lidera, czyli Skody.

3.1.1 Podstawowe własności danych

Na początku przyjrzyjmy się wykresowi wielkości sprzedaży w czasie, przedstawionym na rysunku 16.

Rysunek 16. Liczba zarejestrowanych nowych samochodów marki Skoda w Polsce

Rysunek 16. Liczba zarejestrowanych nowych samochodów marki Skoda w Polsce

W przeciwieństwie do zbiorczych danych, widać tutaj trend wznoszący: Skoda w 2007 roku plasowała się na trzeciej pozycji, wyprzedzały ją Fiat i Toyota, których dane sprzedażowe również przeanalizujemy. Można również dostrzec pewne regularne wzorce, aby sprawdzić na ile są one istotne przyjrzymy się wykresowi sezonowemu (rysunek 17).

Rysunek 18. Liczba zarejestrowanych nowych samochodów marki Skoda względem miesięcy

Rysunek 18. Liczba zarejestrowanych nowych samochodów marki Skoda względem miesięcy

W analizowanych danych można dostrzec podobną własność, jak w danych zbiorczych: spadek sprzedaży w sierpniu oraz wzrost z końcem roku.

3.1.2 Konstrukcja prognoz

Podobnie jak w wypadku danych dotyczących wszystkich marek, porównamy warianty metody naiwnej, model ARIMA oraz ETS. Na wykresie 19 przedstawiamy prognozę otrzymaną metoda naiwną, na wykresie 20 sezonową metodą naiwna, na wykresie 21 metodą wykorzystującą dryf. W tabeli 9 przedstawiliśmy natomiast porównanie dokładności tych metod.

Rysunek 19. Skoda: Prognoza otrzymana za pomocą metody naiwnej

Rysunek 19. Skoda: Prognoza otrzymana za pomocą metody naiwnej

Rysunek 20. Skoda: Prognoza otrzymana za pomocą sezonowej metody naiwnej

Rysunek 20. Skoda: Prognoza otrzymana za pomocą sezonowej metody naiwnej

Rysunek 21. Skoda: Prognoza na bazie metody wykorzystującej dryf

Rysunek 21. Skoda: Prognoza na bazie metody wykorzystującej dryf

Tabela 9. Skoda: Błędy predykcji dla trzech wariantów metody naiwnej
MAPE MASE
Metoda naiwna 20.73 1.91
Sezonowa metoda naiwna 22.99 2.33
Metoda uwzględniająca dryf 20.13 1.84

Widzimy, że w przypadku tych danych sezonowy wariant metody naiwnej sprawdza się gorzej niż dwa pozostałe warianty. Zobaczmy, jak poradzą sobie bardziej zaawansowane metody.

Wykres 22 przedstawia prognozy uzyskane na bazie modelu ARIMA, natomiast wykres 23 prognozy dla metody ETS. Tabela 10 przedstawia porównanie błędów predykcji dla obu tych metod. Podkreślmy, że zarówno model ETS, jak i ARIMA, były dopasowane po uprzednim zastosowaniu transformacji logarytmicznej danych (czyli transformacji Boxa-Coxa z parametrem $\lambda=0$).

Rysunek 22. Skoda: Wykres prognoz na bazie modelu ARIMA

Rysunek 22. Skoda: Wykres prognoz na bazie modelu ARIMA

Rysunek 23. Wykres prognoz na bazie modelu ETS

Rysunek 23. Wykres prognoz na bazie modelu ETS

Tabela 10. Skoda: Błędy predykcji na bazie modeli ARIMA i ETS
MAPE MASE
Model ARIMA 25.12 2.53
Model ETS 17.98 1.89

Tutaj ponownie widzimy przewagę metody ETS. Jednak w przeciwieństwie do zbiorczych danych, warianty metody naiwnej nie ustępują tak bardzo pod względem dokładności metodzie ETS.

3.2 Fiat

Przejdziemy teraz do marki, która w 2007 zajmowała pierwsze miejsce wśród wszystkich marek, a w 2014 zajmowała dopiero 8 miejsce, czyli Fiata.

3.2.1 Podstawowe własności danych

Na początku przyjrzyjmy się wykresowi wielkości sprzedaży w czasie, przedstawionym na rysunku 24.

Rysunek 24. Liczba zarejestrowanych nowych samochodów marki Fiat w Polsce w okresie 01.2007 - 07.2014

Rysunek 24. Liczba zarejestrowanych nowych samochodów marki Fiat w Polsce w okresie 01.2007 – 07.2014

W przeciwieństwie do danych dotyczących wszystkich producentów oraz Skody, wyraźna jest tendencja spadkowa. Tak samo jak poprzednio, można też dostrzec pewne regularne wzorce. Aby sprawdzić na ile są one istotne przyjrzymy się wykresowi sezonowemu (rysunek 25).

Rysunek 26. Liczba zarejestrowanych nowych samochodów marki Fiat względem miesięcy

Rysunek 26. Liczba zarejestrowanych nowych samochodów marki Fiat względem miesięcy

Tutaj powtarza się tylko jedna z dostrzeżonych przez nas wcześniej prawidłowości, tzn. wyraźny spadek sprzedaży w sierpniu.

3.2.2 Konstrukcja prognoz

Podobnie jak poprzednio, porównamy warianty metody naiwnej, model ARIMA oraz ETS. Na wykresie 27 przedstawiamy prognozę otrzymaną metoda naiwną, na wykresie 28 sezonową metodą naiwną, na wykresie 29 metodą wykorzystującą dryf. W tabeli 11 przedstawiliśmy natomiast porównanie dokładności prognoz dla tych metod.

Rysunek 27. Fiat: Prognoza otrzymana za pomocą metody naiwnej

Rysunek 27. Fiat: Prognoza otrzymana za pomocą metody naiwnej

Rysunek 28. Fiat: Prognoza otrzymana za pomocą sezonowej metody naiwnej

Rysunek 28. Fiat: Prognoza otrzymana za pomocą sezonowej metody naiwnej

Rysunek 29. Fiat: Prognoza otrzymana za pomocą metody uwzględniającej dryf

Rysunek 29. Fiat: Prognoza otrzymana za pomocą metody uwzględniającej dryf

Tabela 11. Fiat: Błędy predykcji dla trzech wariantów metody naiwnej
MAPE MASE
Metoda naiwna 10.16 0.38
Sezonowa metoda naiwna 10.92 0.40
Metoda uwzględniająca dryf 16.64 0.62

Widzimy, że w przypadku tych danych sezonowy wariant metody naiwnej sprawdza się odrobinę gorzej niż standardowa metoda naiwna. Z kolei prognozy skonstruowane na bazie metody metody uwzględniającej dryf są już wyraźnie gorsze. Zobaczmy, jak poradzą sobie bardziej zaawansowane metody.

Rysunek 30 przedstawia prognozy skonstruowane w oparciu o metodologię ARIMA, natomiast wykres 31 prognozy na bazie modelu ETS. Tabela 12 zawiera porównanie dokładności prognoz dla obu tych metod.

Rysunek 30. Fiat: Wykres prognoz na bazie modelu ARIMA

Rysunek 30. Fiat: Wykres prognoz na bazie modelu ARIMA

Rysunek 31. Fiat: Wykres prognoz na bazie modelu ETS

Rysunek 31. Fiat: Wykres prognoz na bazie modelu ETS

Tabela 12. Fiat: Błędy predykcji dla modeli ARIMA i ETS
MAPE MASE
Model ARIMA 8.95 0.34
Model ETS 7.71 0.29

Widzimy, że dla danych dotyczących Fiata dokładność wszystkich metod jest większa niż w przypadku Skody. Znów najlepsza okazała się metoda ETS, nieco gorzej spisała się ARIMA, a najgorzej metody naiwne. W tym wypadku, poza metodą ARIMA, transformacje danych nie wnosiły żadnej istotnej poprawy w kwestii jakości prognoz, więc analizę przeprowadzaliśmy dla oryginalnych danych. W przypadku modelu ARIMA zastosowaliśmy logarytmowanie (transformację Boxa-Coxa ze stałą $\lambda = 0$).

3.3 Toyota

Trzecią z analizowanych przez nas marek będzie Toyota, która praktycznie przez cały czas utrzymywała się w pierwszej trójce rankingu sprzedaży.

3.3.1 Podstawowe własności danych

Przyjrzyjmy się wykresowi wielkości sprzedaży w czasie, przedstawionym na rysunku 32.

Rysunek 32. Liczba zarejestrowanych nowych samochodów marki Toyota w Polsce

Rysunek 32. Liczba zarejestrowanych nowych samochodów marki Toyota w Polsce

W danych można zauważyć pewną tendencję spadkową. Na pierwszy rzut oka trudno stwierdzić czy występują jakieś tendencje sezonowe. Aby sprawdzić to dokładniej, przyjrzymy się wykresowi sezonowemu (rysunek 33).

Rysunek 34. Liczba zarejestrowanych nowych samochodów marki Toyota względem miesięcy

Rysunek 34. Liczba zarejestrowanych nowych samochodów marki Toyota względem miesięcy

Na podstawie wykresu sezonowego, nie możemy jednoznacznie potwierdzić obecności w danych regularnego wzorca wahań sezonowych (sezonowości).

3.3.2 Konstrukcja prognoz

Jak poprzednio, porównamy warianty metody naiwnej, model ARIMA oraz ETS. Na wykresie 35 przedstawiamy prognozę otrzymaną metoda naiwną, na wykresie 36 sezonową metodą naiwną, na wykresie 37 metodą uwzględniającą dryf, a w tabeli 13 kryteria MASE i MAPE dla wszystkich porównywanych metod.

Rysunek 35. Toyota: Prognoza otrzymana za pomocą metody naiwnej

Rysunek 35. Toyota: Prognoza otrzymana za pomocą metody naiwnej

Rysunek 36. Toyota: Prognoza otrzymana za pomocą sezonowej metody naiwnej

Rysunek 36. Toyota: Prognoza otrzymana za pomocą sezonowej metody naiwnej

Rysunek 37. Toyota: Prognoza na bazie metody uwzględniającej dryf

Rysunek 37. Toyota: Prognoza na bazie metody uwzględniającej dryf

Tabela 13. Toyota: Błędy predykcji dla trzech wariantów metody naiwnej
MAPE MASE
Metoda naiwna 17.39 0.90
Sezonowa metoda naiwna 22.34 1.12
Metoda uwzględniająca dryf 17.42 0.92

Tym razem również sezonowy wariant metody naiwnej wypada gorzej od metody naiwnej oraz metody naiwnej z dryfem. Jest to zgodne z wcześniejszym spostrzeżeniem, że w tych danych nie obserwujemy wyraźnych wzorców sezonowych. Zobaczmy więc, jak poradzą sobie bardziej zaawansowane metody.

Rysunek 38 przedstawia prognozy uzyskane na bazie modelu ARIMA, natomiast wykres 39 na bazie modelu ETS. Tabela 14 zawiera wartości kryteriów MAPE i MASE dla obu metod.

Rysunek 38. Toyota: Wykres prognoz na bazie modelu ARIMA

Rysunek 38. Toyota: Wykres prognoz na bazie modelu ARIMA

Rysunek 39. Toyota: Wykres prognoz na bazie modelu ETS

Rysunek 39. Toyota: Wykres prognoz na bazie modelu ETS

Tabela 14. Toyota: Błędy predykcji dla modeli ARIMA i ETS
MAPE MASE
Model ARIMA 15.17 0.82
Model ETS 13.98 0.77

W przypadku Toyoty ranking metod prognozowania pozostaje bez zmian w porównania do Fiata. Dla porządku dodajmy jeszcze, że metodę ARIMA zastosowaliśmy dla danych po transformacji Boxa-Coxa z $\lambda=0$. W pozostałych przypadkach dane nie były przekształcane.

3.4 Volkswagen

Ostatnią z analizowanych przez nas marek będzie Volkswagen, obecny wicelider rankingu sprzedaży.

3.4.1 Podstawowe własności danych

Wielkość sprzedaży nowych samochodów marki Volkswagen w kolejnych miesiącach przedstawia rysunek 40.

Rysunek 40. Liczba zarejestrowanych nowych samochodów marki Volkswagen w Polsce

Rysunek 40. Liczba zarejestrowanych nowych samochodów marki Volkswagen w Polsce

Na wykresie zwraca uwagę przede wszystkim duża zmienność danych. Można dostrzec delikatną tendencje wzrostową. Na pierwszy rzut oka trudno jednak stwierdzić, czy w danych występują wahania sezonowe. Aby sprawdzić to dokładniej, przyjrzymy się wykresowi sezonowemu (rysunek 41). Również na tym wykresie nie dostrzegamy wyraźnych tendencji sezonowych.

Rysunek 42. Liczba zarejestrowanych nowych samochodów marki Volkswagen względem miesięcy

Rysunek 42. Liczba zarejestrowanych nowych samochodów marki Volkswagen względem miesięcy

3.4.2 Konstrukcja prognoz

Analogicznie jak poprzednio, porównamy warianty metody naiwnej, model ARIMA oraz ETS. Na wykresie 43 przedstawiamy prognozę otrzymaną metoda naiwną, na wykresie 44 sezonową metodą naiwną, na wykresie 45 metodą wykorzystująca dryf. W tabeli 15 przedstawiliśmy porównanie dokładności tych metod.

Rysunek 43. Volkswagen: Prognoza otrzymana za pomocą metody naiwnej

Rysunek 43. Volkswagen: Prognoza otrzymana za pomocą metody naiwnej

Rysunek 44. Volkswagen: Prognoza otrzymana za pomocą sezonowej metody naiwnej

Rysunek 44. Volkswagen: Prognoza otrzymana za pomocą sezonowej metody naiwnej

Rysunek 45. Volkswagen: Prognoza otrzymana za pomocą metody uwzględniającej dryf

Rysunek 45. Volkswagen: Prognoza otrzymana za pomocą metody uwzględniającej dryf

Tabela 15. Volkswagen: Błędy predykcji dla trzech wariantów metody naiwnej
MAPE MASE
Metoda naiwna 18.13 1.29
Sezonowa metoda naiwna 13.32 1.04
Metoda uwzględniająca dryf 18.69 1.29

Tym razem sezonowy wariant metody naiwnej sprawdza się lepiej od pozostałych. Sprawdźmy jaka będzie skuteczność zaawansowanych metod prognozowania.

Rysunek 46 przedstawia prognozy skonstruowane na bazie modelu ARIMA, natomiast wykres 47 prognozy dla metody ETS. W obu przypadkach (ETS i ARIMA), aby poprawić jakość dopasowania modelu zastosowano transformację Boxa-Coxa z parametrem $\lambda=0$.Tabela 16 zawiera wartości kryteriów MAPE i MASE dla obu metod.

Rysunek 46. Volkswagen: Wykres prognoz na bazie modelu ARIMA

Rysunek 46. Volkswagen: Wykres prognoz na bazie modelu ARIMA

Rysunek 47. Volkswagen: Wykres prognoz na bazie modelu ETS

Rysunek 47. Volkswagen: Wykres prognoz na bazie modelu ETS

Tabela 16. Volkswagen: Błędy predykcji dla modeli ARIMA i ETS
MAPE MASE
Model ARIMA 16.71 1.33
Model ETS 18.38 1.34

W przypadku Volkswagena sytuacja wygląda podobnie jak dla Skody. Zaawansowane metody (ARIMA i ETS) nie prowadzą do istotnie lepszych prognoz niż metody naiwne. Co więcej, patrząc wyłącznie na wartości MASE dokładność metod zaawansowanych jest nawet gorsza. Jedną z przyczyn tego stanu rzeczy jest zapewne występowanie obserwacji odstającej w marcu 2014 (jeszcze wyraźniejsza niż w wypadku Skody), która może istotnie wpływać na wartości kryteriów oceniających dokładność prognoz.

3.5 Podsumowanie

Powyższe analizy pokazują, że w zależności od konkretnej marki dokładność różnych metod konstrukcji prognoz może się istotnie różnić. W wypadku Toyoty i Fiata najlepsze okazały się (podobnie jak w wypadku zbiorczych danych) metody zaawansowane, tj. ETS oraz ARIMA. Z drugiej strony, w wypadku danych dotyczących Volkswagena i Skody, metody zaawansowane nie miały przewagi, a nawet bywały gorsze, od metod naiwnych. Wynikało to najprawdopodobniej z występowania (w zbiorze testowym) wspomnianych już wcześniej obserwacji odstających z marca 2014. Ponadto, zaobserwowana zgodność wyników (dla Skody i Volkswagena) może być związana z tym, że Skoda jest częścią koncernu Volkswagen. Otrzymane przez nas wyniki pokazują również, że nie zawsze automatyczne metody konstrukcji prognoz są w stanie zagwarantować satysfakcjonujące wyniki.

Poszczególne marki samochodów różnią się również między sobą dokładnością predykcji. Najdokładniejsze prognozy otrzymaliśmy dla Fiata: w danych dominującą składową był trend spadkowy, więc łatwiej było otrzymać dokładny model. Wszystkie metody popełniały nieco większy błąd w przypadku Toyoty, ale wciąż możemy mówić o dokładnych prognozach. W wypadku Skody i Volkswagena dokładność nie była już zadowalająca. Wielkość sprzedaży dla tych marek wygląda więc na trudniejszą do prognozowania.

4 Analiza popularności konkretnej marki w różnych regionach

Kolejną interesującą analizą jest porównanie szeregów dotyczących liczby zarejestrowanych nowych pojazdów w poszczególnych regionach. Dla przykładu, skupimy się na samochodach marki Volkswagen w województwach: dolnośląskim, mazowieckim i podlaskim.

Czy taka analiza jest przydatna? Oczywiście. Załóżmy, że chcemy otworzyć nowy salon samochodowy danej marki i mamy do wyboru kilka potencjalnych lokalizacji. Jeżeli w danym regionie jest rejestrowanych dużo samochodów tego producenta, choć nie ma jeszcze jego salonu, może być to bardzo dobre miejsce. Z drugiej strony, jeżeli w okolicy nie ma jeszcze salonu tej marki, ale jednocześnie bardzo rzadko rejestrowane są takie samochody (czyli nie ma na nie popytu), jest to niezbyt dobry pomysł.

Na wykresie 48 zaprezentowane są szeregi dla wszystkich 3 województw (dane dla każdego z województw rozpatrujemy jako osobny szereg). Największe wartości możemy dostrzec dla danych dotyczących województwa mazowieckiego — nie jest to nic dziwnego, ponieważ tam rejestrowana jest m.in. większość nowych samochodów branych w leasing.

Rysunek 48. Wykres liczby zarejestrowanych nowych samochodów  marki Volkswagen w trzech województwach

Rysunek 48. Wykres liczby zarejestrowanych nowych samochodów marki Volkswagen w trzech województwach

Dla uproszczenia, w dalszej części analizy pominiemy prezentację graficzną prognoz dla wszystkich metod. Przedstawimy jedynie wykresy prognoz dla wybranych metod oraz tabele z wartościami MAPE i MASE, porównującymi skuteczność poszczególnych metod. Przejdźmy zatem do dokładniejszej analizy dla kolejnych województw.

4.1 Dolnośląskie

4.1.1 Podstawowe własności danych

Rysunek 49. Liczba zarejestrowanych nowych samochodów Volkswagen w woj. dolnośląskim

Rysunek 49. Liczba zarejestrowanych nowych samochodów Volkswagen w woj. dolnośląskim

Przyjrzyjmy się dokładnie wykresowi szeregu dla województwa dolnośląskiego (rysunek 49). Nie stwierdzamy obecności wyraźnego trendu czy wzorca sezonowego. Obecność bądź brak sezonowości łatwiej będzie jednak stwierdzić patrząc na wykres sezonowy (rysunek 50). Ponownie nie jesteśmy w stanie zauważyć żadnych konkretnych wzorców, więc prawdopodobnie w analizowanych danych nie występują wahania sezonowe.

Rysunek 50. Liczba zarejestrowanych nowych samochodów marki Volkswagen w woj. dolnośląskim

Rysunek 50. Liczba zarejestrowanych nowych samochodów marki Volkswagen w woj. dolnośląskim

4.1.2 Prognozy

W tabeli 17 przedstawione zostały błędy MAPE i MASE dla prognoz wyznaczonych za pomocą: trzech wariantów metody naiwnej, klasycznej dekompozycji (trend liniowy + sezonowość), modelu ARIMA oraz ETS.

Tabela 17. Volkswagen/woj.dolnośląskie: porównanie błędów predykcji
MAPE MASE
Metoda naiwna 23.57 1.46
Sezonowa metoda naiwna 14.09 1.00
Metoda uwzględniająca dryf 24.54 1.49
Metoda dekompozycji 17.81 1.35
Model ARIMA 18.09 1.26
Model ETS 20.34 1.37

Jak widać żaden z modeli nie dał wystarczająco dobrych prognoz. Co ciekawe, najlepsze prognozy otrzymaliśmy przy użyciu sezonowej metody naiwnej, chociaż wcześniej nie byliśmy w stanie zauważyć konkretnego, powtarzającego się wzorca sezonowego. Prognoza skonstruowana tą metodą jest przedstawiona na rysunku 51. Możemy zauważyć, że wysoki skok na początku 2014 roku został przybliżony (dość przypadkowo) podobnym, choć mniejszym skokiem, który wystąpił na początku roku 2013 i to był zapewne problem, z którym pozostałe (bardziej zaawansowane) modele nie potrafiły sobie poradzić. Nienajgorsze wyniki otrzymaliśmy też dla (niezbyt skomplikowanej) metody dekompozycji klasycznej, w której poza sezonowością uwzględnialiśmy też trend liniowy.

Rysunek 51. Prognoza liczby zarejestrowanych nowych samochodów marki VW w woj. dolnośląskim.

Rysunek 51. Prognoza liczby zarejestrowanych nowych samochodów marki VW w woj. dolnośląskim.

Spróbujmy wykorzystać jeszcze regresję harmoniczną i zobaczyć, czy jesteśmy w stanie otrzymać lepsze prognozy. Prognoza została skonstruowana przy użyciu tylko jednej składowej harmonicznej. Dodatkowo, ponieważ metoda prostej dekompozycji dała nam jeden z lepszych wyników, warto zbadać jak sprawdzi się bardziej zaawansowany model dekompozycji, czyli STL. W tabeli 18 przedstawione są błędy MAPE i MASE dla prognoz skonstruowanych na bazie regresji harmonicznej oraz algorytmu STL.

Tabela 18. Volkswagen/woj.dolnośląskie: porównanie błędów predykcji dla regresji harmonicznej i STL
MAPE MASE
Regresja harmoniczna 17.75 1.22
Model STL 13.92 1.00

Jak widzimy, wynik dla STL jest jak dotąd najlepszy spośród wszystkich, które otrzymaliśmy, choć dokładność prognoz nie jest dużo lepsza w porównaniu z sezonową metodą naiwną. Prognozy te przedstawiamy na rysunku 52. Jak pamiętamy algorytm STL to zaawansowana metoda dekompozycji, która pozwala na kontrolowanie stopnia dopasowania modelu poprzez odpowiedni wybór parametrów wygładzających (dla estymacji trendu i sezonowości). Niewykluczone więc, że dalsza optymalizacja parametrów algorytmu STL pozwoliłaby nam jeszcze poprawić dokładność prognoz.

Rysunek 52. Prognoza liczby zarejestrowanych nowych samochodów marki VW w woj. dolnośląskim.

Rysunek 52. Prognoza liczby zarejestrowanych nowych samochodów marki VW w woj. dolnośląskim.

4.2 Mazowieckie

4.2.1 Podstawowe własności danych

Na rysunku 53 przedstawiono wykres liczby nowych samochodów marki Volkswagen zarejestrowanych w województwie mazowieckim. W tym przypadku widzimy bardzo jednoznaczny trend wzrostowy.

Rysunek 53. Liczba zarejestrowanych samochodów Volkswagen w woj. mazowieckim

Rysunek 53. Liczba zarejestrowanych samochodów Volkswagen w woj. mazowieckim

Przyjrzyjmy się również wykresowi sezonowemu (rysunek 54). Możemy tu zauważyć pewien wzorzec sezonowy, ze spadkiem wartości w sierpniu. Uwzględnienie sezonowości może mieć zatem istotny wpływ na dokładność prognoz.

Rysunek 54. Liczba zarejestrowanych nowych samochodów marki Volkswagen w woj. mazowieckim

Rysunek 54. Liczba zarejestrowanych nowych samochodów marki Volkswagen w woj. mazowieckim

4.2.2 Prognozy

W tabeli 19 przedstawiamy porównanie błędów predykcji dla: trzech wariantów metody naiwnej, modelu ARIMA, ETS oraz algorytmu STL.

Tabela 19. Volkswagen/woj. mazowieckie: porównanie błędów predykcji
MAPE MASE
Metoda naiwna 18.30 1.14
Sezonowa metoda naiwna 21.09 1.34
Metoda uwzględniająca dryf 17.67 1.09
Metoda dekompozycji 18.48 1.21
Model ARIMA 21.50 1.26
Model ETS 19.08 1.21
Model STL 18.04 1.16

Najlepsze wyniki otrzymujemy dla metody naiwnej uwzględniającej dryf, choć trudno uznać je za satysfakcjonujące (m.in. błąd MASE dla wszystkich metod jest większy od 1). Zastosowanie zaawansowanych metod konstrukcji prognoz nie przyniosło poprawy dokładności prognoz. W tej kategorii metod najlepszą okazała się dekompozycja STL, która była jednak nieznacznie gorsza od metody uwzględniającej dryf.

4.3 Podlaskie

4.3.1 Podstawowe własności danych

Przyjrzyjmy się wykresowi szeregu czasowego przedstawiającego liczbę nowych samochodów marki Volkswagen zarejestrowanych w województwie podlaskim (rysunek 55). Jak widać dane te są bardzo nieregularne; warto też zwrócić uwagę na ich wartości — są znacznie mniejsze niż to było w przypadku województwa mazowieckiego.

Rysunek 55. Liczba zarejestrowanych nowych samochodów Volkswagen w woj. podlaskim

Rysunek 55. Liczba zarejestrowanych nowych samochodów Volkswagen w woj. podlaskim

Choć na pierwszy rzut oka nie byliśmy w stanie zauważyć żadnego trendu ani wzorca sezonowego, warto również spojrzeć na wykres sezonowy, przedstawiony na rysunku 56. Również on nie pozwala dostrzec regularnych wahań sezonowych (np. widoczny wcześniej spadek sprzedaży w sierpniu tu nie jest dostrzegalny). Może być to spowodowane faktem, że przy tak małych wartościach każda drobna zmiana (o 5-10 zarejestrowanych samochodów mniej lub więcej) jest zauważalna. Możemy się spodziewać, iż sezonowy wariant metody naiwnej nie da w tym przypadku dobrych rezultatów.

Rysunek 56. Liczba zarejestrowanych nowych samochodów Volkswagen w woj. podlaskim

Rysunek 56. Liczba zarejestrowanych nowych samochodów Volkswagen w woj. podlaskim

4.3.2 Prognozy

W tabeli 20 przedstawione zostały zostały wartości kryteriów MAPE i MASE oceniających dokładność prognoz skonstruowanych odpowiednio za pomocą: trzech wariantów metody naiwnej, modelu ARIMA, ETS oraz STL.

Tabela 20. Volkswagen/woj. podlaskie: porównanie błędów predykcji
MAPE MASE
Metoda naiwna 38.79 0.83
Sezonowa metoda naiwna 45.46 1.11
Metoda uwzględniająca dryf 38.58 0.83
Metoda dekompozycji 29.45 0.85
Model ARIMA 40.42 0.85
Model ETS 35.06 0.80
Model STL 39.51 0.84

Jak widzimy wartości błędów MAPE są bardzo duże. Jest to związane z faktem, że przy tak niewielkich wartościach szeregu każda drobna różnica między przewidywaną liczbą samochodów a rzeczywistą jest relatywnie znacząca (np. przy wartościach około 25 samochodów różnica 1 samochodu to już 4%). Konstrukcja dokładnych prognoz dla tego typu danych jest więc trudnym zadaniem; błąd MAPE, który otrzymujemy dla (optymalnego) modelu ETS, to aż 35%. Rysunek 57 przedstawia pprognozy skonstruowane za pomocą metody klasycznej dekompozycji, która okazała się najlepszą sposród wszystkich porównywanych.

Rysunek 58. Prognoza liczby zarejestrowanych nowych samochodów w woj. podlaskim

Rysunek 58. Prognoza liczby zarejestrowanych nowych samochodów w woj. podlaskim

4.4 Podsumowanie wyników dotyczących regionów

Jak mogliśmy zauważyć, szeregi czasowe odpowiadające poszczególnym regionom różnią się od siebie. Z tego powodu inne modele i metody konstrukcji prognoz okazywały się tymi odpowiednimi. W szczególności, metody zastosowane do prognozowania liczby zarejestrowanych nowych samochodów marki Volkswagen w całym kraju nie zawsze dawały równie dobre wyniki dla poszczególnych województw. Warto również zauważyć, że błędy MAPE i MASE dla województw dolnośląskiego i mazowieckiego są zbliżone, natomiast dużo trudniejszym zadaniem było prognozowanie dla województwa podlaskiego, co może świadczyć o większej nieprzewidywalności wielkości sprzedaży nowych samochodów w tamtym regionie.

Choć dopasowanie modeli dla naszych danych nie zawsze było zadowalające, na zakończenie możemy pokusić się o wyznaczenie prognoz na kolejny rok, aby sprawdzić, jakie będą tendencje w kolejnych okresach. Na rysunkach 59, 6061 przedstawione zostały prognozy dla wszystkich trzech województw, skonstruowane na bazie modeli, które dla dane regionu okazały się najbardziej odpowiednie. We wszystkich trzech przypadkach nie spodziewamy się znaczących długoterminowych spadków ani wzrostów. Zauważamy też, że wyznaczone przedziały predykcyjne charakteryzują się znaczną szerokością, co może świadczyć o dużej niepewności towarzyszącej skonstruowanych prognozom.

Rysunek 59. Prognoza liczby zarejestrowanych nowych samochodów marki VW w woj. dolnośląskim

Rysunek 59. Prognoza liczby zarejestrowanych nowych samochodów marki VW w woj. dolnośląskim

Rysunek 60. Prognoza liczby zarejestrowanych nowych samochodów marki VW w woj. mazowieckim

Rysunek 60. Prognoza liczby zarejestrowanych nowych samochodów marki VW w woj. mazowieckim

Rysunek 61. Prognoza liczby zarejestrowanych nowych samochodów marki VW w woj. podlaskim

Rysunek 61. Prognoza liczby zarejestrowanych nowych samochodów marki VW w woj. podlaskim

Spróbuj ponownie