09.07

2014

Jak poprawić wizualizację danych?

Autor: artur

Dzisiaj gościnny wpis Justyny Jankowiak o tym, jak lepiej wizualizować dane. Na kilku przykładach udoskonalenia ilustracji znalezionych w Sieci zobaczysz, w jaki sposób można czytelnie (i nieczytelnie) wizualizować dane, pokazywać zależności i relacje.

Oczywiście, wszystkie wykresy zostały przygotowane w R.

Dobre i złe wizualizacje

Wizualizacja danych służy przedstawieniu danych w obrazowy sposób. Przy tworzeniu wykresu powinnyśmy trzymać się kilku podstawowych zasad — powinien być on jednoznaczny, estetyczny i prosty w interpretacji. Niedopuszczalne jest stosowanie tricków, które w wyraźny sposób sugerują manipulację danymi.

Zaprezentujemy trzy przykłady wizualizacji zaczerpniętych z zasobów Internetu. Każda z nich jest w pewiem sposób błędna. Omówimy, co w wykresie jest nie tak oraz poprawimy go w taki sposób, by z wykresu można było łatwo wyciągnąć potrzebne informacje.

W tym artykule krótko przedstawię, jak powinna wyglądać dobra wizualizacja danych. Wszystkie wykresy zostały wygenerowane w R, przy użyciu pakietu ggplot2.

Przykład 1



Spójrzmy na powyższy rysunek. Trudno domyśleć się, co autor tej wizualizacji miał na myśli. Jest to coś na kształ wykresu kołowego z dziwnym efektem 3D. Jakie dane na nim przedstawiono? Wykres nie ma tytułu, więc gdyby nie artykuł, z którego wykres został zaczerpnięty nigdy byśmy się tego nie dowiedzieli. Graf ma na celu przedstawienie ilości ataków rekinów danego gatunku w stosunku do ataków ze skutkiem śmiertelnym. Jednak wykres ,,kołowy” nie w tym przypadku dobrym wykresem. Co prawda dobrze zastosowano go pod tym względem, że rzeczywiście ilość ataków wszystkich rekinów sumuje sie do 100%. Jednak jak ten wykres ma się do ataków ze skutkiem śmiertelnym? Z wykresu nie możemy wyczytać żadnych relacji między tymi dwoma zmiennymi.

Skoro chcemy wyczytać relację, to dobrym wykresem będzie zapewne wykres rozrzutu. W tytule dokładnie napisano, co przedstawia wykres: zależność między całkowitą liczbą ataków rekinów danego rodzaju do liczby zabitych przez te rekiny. Etykietki dodano tylko do kropek reprezetujących gatunki szczególnie niebezpieczne, gdyż to one nas najbardziej interesują. I tak widzimy, że rekiny białe atakują najwięcej ludzi i stosunkowo dużo z nich nie przeżywa ataku. Nie bez powodu często nazywane są ludojadami. Mimo, że żarłacz tygrysi i tępogłowy (odpowiednio ”tiger shark” i ”bull shark”) nie atakują tak często, jak rekin biały, wskaźnik śmiertelności wśród ofiar wynosi aż ok. 20%! Czy bylibyśmy w stanie wyciągnąć w tak łatwy sposób informacje z oryginalnego wykresu?

Tytuł1

Przykład 2

Kolejna wizualizacja przedstawia jak w ciągu dnia zmienia się liczba linków na stronie głównej na portalach Reddit i Digg. Trzeba przyznać, że wykres grafika jest ładna i przyciąga wzrok, jednak nie jesteśmy w stanie zobaczyć jaki mamy trend w ciągu doby. Możemy patrzeć tylko na poszczególne liczby w każdej godzinie. Zatem wykres ten nie spełnia swojej podstawowej roli — nie jest czytelny.



Na rysunku poniżej przedstawiono poprawiony wykres. Poprzez zastosowanie wykresu liniowego doskonale widzimy zmienność analizowanej wartości w ciągu doby — poza godzinami nocnymi jest raczej podobna na obu stronach. Na pierwszy rzut oka widać, że Digg jest o wiele bardziej popularnym portalem.

Tytuł1

Przykład 3

Ostatnim wykresem, który omówimy jest wykres prezentujący zarobki w firmie Google na różnych stanowiskach. Ponownie, wizualizacja jest efektowna ale nie jest łatwo nam wyczytać z grafu potrzebne informacje. Nie wiadomo co oznacza wykres kołowy na środku, ale na pewno dane w żaden sposób nie sumują się do 100%.



Wykres na poniższym rysunku jest zdecydowanie lepszy do tego typu danych. Zastosowano wykres pudełkowy. Oznacza to, że dla każdego stanowiska mamy jedno ,,pudełko”, które zawiera widełki zarobków — od najniższej pensji do najwyższej. Stanowiska posortowano kierując się średnią zarobków, czyli wartością pośrodku pudełka.

Tytuł1

Spróbuj ponownie