Rozdział 1 Wprowadzenie

1.1 Krótki rys historyczny

  • Początki statystyki sięgają początków ludzkości.
  • Potrzeba zbierania danych, zliczania zasobów i planowania przyszłych potrzeb musiała powstać, gdy ludzie zaczęli żyć w zorganizowanych wspólnotach.
  • Pierwsze badania statystyczne związane były m.in. ze spisami ludności (2000 lat p.n.e. w Chinach).
  • Pochodzenie nazwy “statystyka”: status (łac.) – państwo, termin użyty po raz pierwszy w XVIII w.
  • Termin kojarzony z procesem zbierania, przetwarzania danych liczbowych potrzebnych do rządzenia państwem.
  • Z czasem zakres pojęcia “statystyka” uległ jednak zmianie…

1.2 Potoczne rozumienie

STATYSTYKA to:

  • Gromadzenie i analizowanie danych (badania ankietowe, demograficzne, itp.).
  • Interpretowanie i analizowanie danych w celach decyzyjnych (wydobywanie informacji z danych).
  • Analiza statystyczna często obejmuje próbę uogólnienia informacji zawartej w danych.
Definition 1.1 (C.R. Rao, Statystyka i prawda, PWN, 1994.) Znany statystyk, profesor Rao określił statystykę między innymi jako ,,metodę uczenia się z doświadczenia i podejmowania decyzji w warunkach niepewności (…)’’.

1.3 Współczesne zastosowania statystyki

  • Badania marketingowe i sondażowe.
  • Demografia.
  • Medycyna (np. porównanie skuteczności dwóch różnych lekarstw lub terapii, poszukiwanie biomarkerów nowotworowych, identyfikacja czynników ryzyka, itp.).
  • Biologia (biostatystyka, genetyka).
  • Ekonomia (prognozowanie wskaźników makroekonomicznych).
  • Finanse i bankowość (np. analiza ryzyka, prognozowanie).
  • Zarządzanie.
  • Przemysł (np. kontrola jakości, planowanie, kontrola zapasów).
  • Wiele innych…

1.4 Dane

1.4.1 Źródła pochodzenia danych

  • Wynik przeprowadzonego eksperymentu (np. pomiar ciśnienia tętniczego dla grupy pacjentów, przed i po zażyciu lekarstwa).
  • Badania ankietowe/sondażowe (dane w postaci formularza).
  • Informacja o losowo wybranej próbie (podzbiorze) pochodzącej z określonej populacji (np. losowej próbie wybranej z populacji wszystkich studentów danej uczelni).
  • Uwaga: Dane charakteryzują się zazwyczaj losową zmiennością!
  • Aby uwzględnić tę losowość w analizie danych będziemy potrzebowali metod (narzędzi) zapożyczonych z rachunku prawdopodobieństwa (np. zmienne losowe o różnych rozkładach).

1.4.2 Przykładowe dane

Przykład 1: Dane ankietowe zawierające informacje o 237-iu studentach, uczęszczających na kurs ze statystki, University of Adelaide (źródło: R-pakiet MASS)

library(MASS)
head(survey)
Sex Wr.Hnd NW.Hnd W.Hnd Fold Pulse Clap Exer Smoke Height M.I Age
Female 18.5 18.0 Right R on L 92 Left Some Never 173.00 Metric 18.250
Male 19.5 20.5 Left R on L 104 Left None Regul 177.80 Imperial 17.583
Male 18.0 13.3 Right L on R 87 Neither None Occas NA NA 16.917
Male 18.8 18.9 Right R on L NA Neither None Never 160.00 Metric 20.333
Male 20.0 20.0 Right Neither 35 Right Some Never 165.00 Metric 23.667
Female 18.0 17.7 Right L on R 64 Right Some Never 172.72 Imperial 21.000

Przykład 2: Dane demograficzne. Informacja o ludności zamieszkującej poszczególne stany w USA (źródło: R)

data(state)
head(state.x77)
Population Income Illiteracy Life Exp Murder HS Grad Frost Area
Alabama 3615 3624 2.1 69.05 15.1 41.3 20 50708
Alaska 365 6315 1.5 69.31 11.3 66.7 152 566432
Arizona 2212 4530 1.8 70.55 7.8 58.1 15 113417
Arkansas 2110 3378 1.9 70.66 10.1 39.9 65 51945
California 21198 5114 1.1 71.71 10.3 62.6 20 156361
Colorado 2541 4884 0.7 72.06 6.8 63.9 166 103766

Przykład 3: Dane o 93 samochodach sprzedawanych w USA w roku 1993. (źródło: R-pakiet MASS)

library(MASS)
head(Cars93)
Manufacturer Model Type Min.Price Price Max.Price MPG.city MPG.highway AirBags DriveTrain Cylinders EngineSize Horsepower RPM Rev.per.mile Man.trans.avail Fuel.tank.capacity Passengers Length Wheelbase Width Turn.circle Rear.seat.room Luggage.room Weight Origin Make
Acura Integra Small 12.9 15.9 18.8 25 31 None Front 4 1.8 140 6300 2890 Yes 13.2 5 177 102 68 37 26.5 11 2705 non-USA Acura Integra
Acura Legend Midsize 29.2 33.9 38.7 18 25 Driver & Passenger Front 6 3.2 200 5500 2335 Yes 18.0 5 195 115 71 38 30.0 15 3560 non-USA Acura Legend
Audi 90 Compact 25.9 29.1 32.3 20 26 Driver only Front 6 2.8 172 5500 2280 Yes 16.9 5 180 102 67 37 28.0 14 3375 non-USA Audi 90
Audi 100 Midsize 30.8 37.7 44.6 19 26 Driver & Passenger Front 6 2.8 172 5500 2535 Yes 21.1 6 193 106 70 37 31.0 17 3405 non-USA Audi 100
BMW 535i Midsize 23.7 30.0 36.2 22 30 Driver only Rear 4 3.5 208 5700 2545 Yes 21.1 4 186 109 69 39 27.0 13 3640 non-USA BMW 535i
Buick Century Midsize 14.2 15.7 17.3 22 31 Driver only Front 4 2.2 110 5200 2565 No 16.4 6 189 105 69 41 28.0 16 2880 USA Buick Century

1.5 Dwa etapy w statystycznej analizie danych

  1. Analiza opisowa
  2. Formalne wnioskowanie statystyczne

Etap 1: Analiza opisowa (statystyka opisowa)

  • Cel: Podanie zwięzłego opisu danych za pomocą tzw. statystyk opisowych, m.in.: miar położenia (np. średnia, mediana, moda) oraz miar rozproszenia (m.in.: wariancja, odchylenie standardowe)
  • Przedstawienie charakterystycznych cech zbioru danych w postaci wykresów (np.: histogramy, diagramy słupkowe, wykresy rozrzutu).
  • Ważne: W analizie opisowej nie ma odwołań do mechanizmów losowych!
  • Analiza opisowa często używana jest także do porównania różnych zbiorów danych.
  • Metody stosowane w analizie opisowej (wskaźniki sumaryczne i wykresy) będą omówione bardziej szczegółowo w rozdziale 2.

Przykład: Analiza opisowa – dane Cars93

Dane Cars93 - analiza opisowa: przykładowe wykresy.

Figure 1.1: Dane Cars93 - analiza opisowa: przykładowe wykresy.

Dane Cars93 - analiza opisowa:  wykresy rozrzutu.

Figure 1.2: Dane Cars93 - analiza opisowa: wykresy rozrzutu.

Etap 2: Formalne wnioskowanie statystyczne

  • Cel: uogólnienie wniosków uzyskanych dla konkretnej próby na przypadek całej populacji.
  • Czy rezultaty otrzymane na bazie analizy opisowej, przeprowadzonej dla konkretnej próby, możemy uogólnić na całą zbiorowość?
  • Jaki błąd popełniamy przy takim postępowaniu?
  • Idea: Przyjmujemy odpowiedni model matematyczny (model losowy/probabilistyczny/stochastyczny) opisujący losowy mechanizm powstawania danych
  • Przykłady: oszacowanie (estymacja) parametrów, konstrukcja przedziałów ufności, sprawdzanie hipotez statystycznych, dopasowanie modelu matematycznego (np. rozkład prawdopodobieństwa)

Przykład: dane Cars93 (model matematyczny – regresja liniowa)

Dane Cars93 - wnioskowanie statystyczne: dopasowane modele regresji

Figure 1.3: Dane Cars93 - wnioskowanie statystyczne: dopasowane modele regresji

1.5.1 Od próby do populacji

  • Populacja – zbiór osób, obiektów lub interesujących nas elementów. Populacja może być zdefiniowana bardzo szeroko (np. zbiór wszystkich studentów) lub zawężona do określonej grupy (np. studenci Wydziału Matematyki Politechniki Wrocławskiej)
  • Próba losowa (próba) – wybrana z całej populacji (najczęściej losowo) reprezentatywna grupa (podzbiór).
  • Zazwyczaj nie mamy możliwości zgromadzenia interesujących nas danych dla całej populacji!
  • W większości przypadków analizę statystyczną przeprowadzamy więc na bazie próby losowej
  • Wnioskowanie statystyczne – korzystając z teorii prawdopodobieństwa próbujemy uogólnić wnioski uzyskane dla konkretnych danych (próby losowej) na całą populację

Przykłady

  • Badanie występowania skutków ubocznych dla nowego lekarstwa. Testujemy nowe lekarstwo na losowej grupie pacjentów. Wyniki takich testów mogą być wykorzystane do wnioskowania o całej populacji ludzi, którzy będą zażywali lekarstwo po jego wprowadzeniu na rynek.

  • Kontrola jakości produkcji. Aby upewnić się, że wyprodukowano mniej niż 3% wadliwych elementów, pobieramy (losowo) próbę elementów i analizujemy ich jakość. Opierając się na tych wynikach możemy wnioskować, jaką część całej populacji będą stanowiły wadliwe elementy.

## Warning: pakiet 'knitr' został zbudowany w wersji R 3.3.2