Jak wykonać test chi-kwadrat w Calcu?

Test chi-kwadrat (χ²) to jedno z podstawowych narzędzi statystyki indukcyjnej. Jest powszechnie wykorzystywany przez przedstawicieli nauk społecznych, używających do jego obliczenia specjalistycznych programów komputerowych. Jednak identyczne efekty można uzyskać w darmowym arkuszu kalkulacyjnym LibreOffice Calc, o czym przekonamy się w niniejszym artykule.

Wstęp

Na początku należy podkreślić, że tekst poświęcony jest przede wszystkim procedurze obliczania testu χ². Oczywiście nie sposób uniknąć zagadnień związanych z teorią wnioskowania statystycznego, jednak zostały one ograniczone do niezbędnego minimum. Ich omówienie jest możliwie poprawne, ale z pewnością nie precyzyjne. Artykuł zawiera wiele uproszczeń, których uświadomienie oraz zrozumienie wymaga zaczerpnięcia wiedzy z innych źródeł.

Zacznijmy od krótkiego przedstawienia testu chi-kwadrat. Służy on do sprawdzenia, czy dwie zmienne (badane zjawiska — odpowiedzi na pytania w kwestionariuszu, czas wykonywania jakiejś czynności itp.) są od siebie zależne. Jest testem bardzo liberalnym — można go stosować niemal we wszystkich sytuacjach (jedynemu ograniczeniu przyjrzymy się przy omawianiu tabeli wartości oczekiwanych). Jednak za tę wszechstronność płacimy ilością informacji — po przeprowadzeniu testu wiemy jedynie, czy analizowane zjawiska są ze sobą w jakiś sposób powiązane, oraz otrzymujemy podstawę do wnioskowania o sile tego związku. Niestety, jego kierunek oraz natura pozostają dla nas tajemnicą.

O tym, co to dokładnie znaczy, przekonamy się na przykładzie. Naszym zadaniem będzie analiza listy laureatów nagrody Nobla w celu sprawdzenia powiązania pomiędzy płcią a dziedziną, w której nastąpiło wyróżnienie. Ujmując rzecz językiem literackim, dążymy do uzyskania odpowiedzi na pytanie: czy płeć laureata wpływa na to, w której dziedzinie zostanie wyróżniony?

Na zajęciach ze statystyki odpowiedź uzyskalibyśmy poprzez wykonanie następujących czynności:

  1. Przygotowanie tabeli krzyżowej rozkładu wartości obserwowanych (empirycznych).
  2. Przygotowanie tabeli krzyżowej rozkładu wartości oczekiwanych (teoretycznych).
  3. Dla każdej komórki w tabeli: obliczenie kwadratu różnicy pomiędzy wartością obserwowaną a oczekiwaną, podzielonego przez wartość oczekiwaną.
  4. Zsumowanie otrzymanych wyników.
  5. Odczytanie wartości krytycznej z tablic rozkładu chi-kwadrat i wyciągnięcie wniosku.

Te same czynności wykonamy w dalszej części artykułu. Następnie zobaczymy, jak można było przyspieszyć pracę dzięki funkcjom wbudowanym w LibreOffice Calc. Na końcu sprawdzimy siłę zweryfikowanego związku.

Tabela krzyżowa wartości obserwowanych

Pierwszym krokiem jest przygotowanie tabeli krzyżowej wartości obserwowanych (empirycznych).

Bardzo często posiadamy ją już w momencie rozpoczęcia analizy, możemy więc pominąć jej konstruowanie i od razu zająć się tabelą wartości oczekiwanych. W pozostałych przypadkach musimy utworzyć ją samodzielnie.

Najprościej jest to zrobić przy pomocy tabeli przestawnej. Skorzystanie z tej metody jest możliwe tylko wtedy, gdy dane zostały przygotowane w odpowiedni sposób — zmienne są ułożone w kolumnach, obserwacje/badani w wierszach. Na szczęście nasz arkusz spełnia te wymagania, możemy więc przystąpić do działania.

Po umieszczeniu kursora gdziekolwiek w obrębie zbioru danych, wybieramy z menu DaneTabela przestawnaUtwórz.... Pojawi się nowe okno, w którym wybieramy Bieżące zaznaczenie. W kolejnym oknie projektujemy tabelę przestawną — dziedzina umieszczamy w obszarze wierszy, płeć w obszarze kolumn a id w obszarze danych. Na ten ostatni przycisk klikamy dwukrotnie i z listy wybieramy Liczba. Zamykamy oba okna klikając OK.

Okno projektowania tabeli przestawnej. Przycisk dziedzina umieszczono na obszarze wierszy, przycisk płeć na obszarze kolumn a przycisk id na obszarze danych.

Test χ² jest bardzo czuły na puste komórki w tabeli krzyżowej, dlatego ich liczbę powinniśmy ograniczyć co niezbędnego minimum. Możemy to zrobić na dwa sposoby: usuwając z tabeli wiersze/kolumny zawierające puste komórki lub łącząc je z innymi. Oczywiście za każdym razem powinniśmy rozważyć, czy po takim przekształceniu tabela nadal będzie sensownie oddawać rzeczywistość (np. łączenie w jedną kategorię osób bardzo młodych i bardzo starych jest raczej dyskusyjne).

Nasza tabela zawiera aż pięć pustych komórek. Pozbędziemy się ich usuwając ostatnią kolumnę z danymi. Zabieg taki jest uzasadniony z dwóch powodów. Po pierwsze, traktowanie „organizacji” jako trzeciej płci jest raczej mało powszechne. Po drugie, statut Fundacji Nobla stanowi, iż organizacje oraz instytucje mogą być wyróżnione jedynie przy pomocy nagrody pokojowej. Tak więc uwzględniając w analizie organizacje, z pewnością dowiedziemy, iż dziedzina wyróżnienia zależy od „płci” laureata. Rzecz jednak w tym, że wiemy to nawet bez otwierania arkusza kalkulacyjnego.

Likwidacja ostatniej kolumny sprowadza się do kliknięcia strzałki w dół w komórce „płeć”, odznaczenia pola wyboru przy Org i kliknięcia OK. Calc automatycznie przeprojektuje tabelę oraz przeliczy wartości w kolumnie podsumowania.

Tabela krzyżowa wartości oczekiwanych

Naszym drugim zadaniem jest przygotowanie tabeli krzyżowej wartości oczekiwanych (teoretycznych).

Pokazuje ona, jak powinny rozkładać się liczby w poszczególnych komórkach tabeli, gdyby analizowane zjawiska były od siebie całkowicie niezależne. Obliczenia opierają się na założeniu niezmienności proporcjonalnego udziału każdej z podgrup wśród ogółu badanych jednostek. Posługując się przykładem: jeżeli nagrodę z chemii otrzymało 19,23% wszystkich laureatów (163/839), to nagrodę taką powinno otrzymać około 9 kobiet i blisko 154 mężczyzn (czyli 19,23% z kolejno 44 oraz 795).

Wartość oczekiwaną w konkretnej komórce tabeli otrzymujemy więc ze wzoru:

całkowita liczba jednostek w wierszu * całkowita liczba jednostek w kolumnie / całkowita liczba wszystkich jednostek

Tabelę wartości oczekiwanych najłatwiej jest skonstruować kopiując tabelę zawierającą wartości obserwowane. Najpierw wklejamy ją w jakimś wolnym miejscu arkusza, następnie usuwamy jej środek (pozostawiamy wiersz oraz kolumnę podsumowania) i wreszcie wprowadzamy formułę obliczającą wartość teoretyczną w danej komórce. Na końcu kopiujemy formułę do pozostałych komórek tabeli.

Po skonstruowaniu tabeli krzyżowej wartości oczekiwanych, powinniśmy się jej dobrze przyjrzeć, ponieważ związane jest z nią jedyne ograniczenie testu χ². Mianowicie nie należy go wykonywać, jeżeli więcej niż 20% komórek zawiera liczby mniejsze lub równe pięć (można również spotkać opinię, że komórki takie mogą być co najwyżej dwie).

Chociaż niektóre komórki w naszej tabeli zawierają tak małe liczby, jest ich wystarczająco niewiele, abyśmy mogli kontynuować pracę.

Obliczanie statystyki χ²

Statystykę χ² obliczamy zgodnie ze wzorem:

Wzór na statystykę chi-kwadrat. Nie wiem, jak mam to przedstawić, aby było czytelne dla osób z problemami ze wzrokiem...

Ujmując rzecz słownie: musimy obliczyć kwadrat różnicy pomiędzy liczebnością obserwowaną a liczebnością oczekiwaną, podzielony przez liczebność oczekiwaną. Działanie to powtarzamy dla wszystkich komórek tabeli krzyżowej, a otrzymane wyniki sumujemy.

W arkuszu kalkulacyjnym działanie to jest najprościej wykonać przygotowując kolejną tabelę krzyżową. Zakładając, że komórka w lewym górnym rogu tabeli wartości empirycznych znajduje się na pozycji B5, a analogiczna komórka w tabeli wartości teoretycznych na pozycji B16, możemy wykorzystać formułę:

=((B5-B16)^2)/B16

Następnie kopiujemy ją do sąsiednich komórek arkusza w taki sposób, aby pokryć zakres o rozmiarach początkowej tabeli krzyżowej. Należy przy tym pominąć wiersz oraz kolumnę podsumowania.

Na końcu dodajemy do siebie wszystkie otrzymane wyniki za pomocą funkcji SUMA.

Wyciągnięcie wniosku

Wartość statystyki χ², sama w sobie, jest praktycznie bezwartościowa. Nie ma bowiem znaczenia, czy jest ona „wysoka” czy „niska”. Liczy się jedynie, jak wypada w porównaniu z wartością krytyczną, odczytaną z tablic rozkładu chi-kwadrat.

My jednak nie po to wykorzystujemy arkusz kalkulacyjny, aby teraz zaglądać do papierowych tablic rozkładów statystycznych. Odejdziemy więc od podejścia zazwyczaj przedstawianego na zajęciach ze statystyki na rzecz podejścia alternatywnego, opartego na wartości p (p-value).

Wartość p jest najwyższym poziomem istotności, przy którym otrzymana wartość statystyki nie pozwala na odrzucenie hipotezy zerowej.

Hipoteza zerowa w przypadku testu chi-kwadrat mówi, że badane zjawiska są od siebie niezależne (nie wpływają na siebie).

Poziom istotności to przyjęte arbitralnie prawdopodobieństwo pomylenia się i odrzucenia hipotezy zerowej pomimo tego, że jest ona prawdziwa. W naukach społecznych zazwyczaj przyjmuje się poziom istotności równy 0,05, rzadziej 0,01. W naukach ścisłych, medycznych i inżynieryjnych często dąży się do poziomu istotności równego 0,001.

Tak więc jeżeli otrzymana wartość p jest mniejsza od przyjętego poziomu istotności, to możemy odrzucić hipotezę zerową („test wyszedł”).

Wartość p dla testu χ² obliczamy przy pomocy funkcji ROZKŁAD.CHI. Przyjmuje ona dwie wartości. Pierwszą jest wartość statystyki χ² (obliczona w poprzednim kroku), drugą zaś — liczba stopni swobody.

Liczba stopni swobody testu χ² jest iloczynem liczby kolumn tabeli krzyżowej wartości obserwowanych, pomniejszonej o jeden, oraz liczby wierszy tej tabeli, również pomniejszonej o jeden. Lub, posługując się symbolami:

df = (k-1)*(w-1)

Należy przy tym podkreślić, że kolumna oraz wiersz podsumowania nie są częścią tabeli rozkładu.

W naszym przypadku tabela krzyżowa składa się z dwóch kolumn oraz sześciu wierszy, a więc liczba stopni swobody to 5 ((2-1)*(6-1) = 1*5 = 5).

Okno arkusza Calc. W komórce C34 wprowadzono formułę =ROZKŁAD.CHI(C32;C33)

Wywołanie funkcji ROZKŁAD.CHI na naszych wartościach daje wynik na tyle mały, że LibreOffice prezentuje go w notacji naukowej. Jeżeli mamy problem z jej odczytaniem i wolimy zwykły ułamek dziesiętny, musimy kliknąć na komórkę prawym przyciskiem myszy i wybrać z menu Formatuj komórki.... Następnie zwiększamy liczbę miejsc po przecinku do momentu, aż podgląd po prawej stronie okna będzie nas satysfakcjonował.

Okno formatowania komórek, karta Liczby. Z listy po lewej wybrano „Ilość” („Liczba”, w niektórych tłumaczeniach). Ustawiono 12 miejsc po przecinku, dzięki czemu otrzymaną wartość p można przedstawić jako zwykły ułamek dziesiętny.

Ponieważ otrzymana liczba jest znacznie mniejsza od 0,05 (a nawet 0,001), mamy podstawy do odrzucenia hipotezy zerowej. Innymi słowy: płeć laureatów faktycznie wpływa na to, w której dziedzinie zostaną wyróżnieni.

Uproszczenie działań

LibreOffice posiada aż dziesięć funkcji związanych z rozkładem oraz testem chi-kwadrat. Pozwalają one pominąć kilka kroków, które wykonaliśmy powyżej, a tym samym przyspieszają proces wykonywania testu χ².

Podstawą jest funkcja TEST.CHI. Przyjmuje ona dwa argumenty — pierwszym jest zakres zawierający tabelę krzyżową wartości obserwowanych, a drugim zakres zawierający tabelę krzyżową wartości oczekiwanych (w obu przypadkach pomijamy wiersz i kolumnę z podsumowaniem). Wynikiem jej działania jest wartość p.

Wartość statystyki χ² poznamy przy pomocy funkcji ROZKŁAD.CHI.ODW. Ona również przyjmuje dwa argumenty. Pierwszym jest założony poziom istotności (czyli obliczona wcześniej wartość p), drugim — liczba stopni swobody.

Okno programu Calc. W komórce F26 umieszczono formułę =TEST.CHI(B5:C10;B17:C22); wynikiem jest wartość p. W komórce F27 umieszczono formułę =ROZKŁAD.CHI.ODW(F26;C33); wynikiem jest wartość statystyki χ².

Ocena siły zależności

Jak wspomniałem na początku, test χ² informuje jedynie o tym, czy dwa zjawiska są ze sobą powiązane. Nie mówi jednak nic na temat siły związku, jeśli on występuje. Ubytek ten możemy uzupełnić przy pomocy C kontyngencji, obliczanego ze wzoru:

Wzór na C kontyngencji.

Jak widać, działanie opiera się na wartości statystyki χ² oraz liczbie badanych jednostek.

Otrzymany wynik zawiera się w przedziale pomiędzy zero a jeden, gdzie zero oznacza całkowity brak związku, zaś jeden — bezpośrednią zależność. Tak więc im większą liczbę otrzymamy, tym silniejszy jest związek pomiędzy badanymi zjawiskami.

Jednak w rzeczywistości maksymalna wartość osiągana przez współczynnik C jest uzależniona od wielkości tabeli krzyżowej wartości obserwowanych. Dlatego bardzo często posługuje się miarą uwzględniającą maksymalną wielkość C osiągalną w danym przypadku (tzw. skorygowane C kontyngencji). Możemy ją obliczyć przy pomocy wzoru:

Wzór na skorygowany współczynnik kontyngencji C

Chociaż wzór wygląda na dość skomplikowany, wcale taki nie jest. Warto zauważyć, że w liczniku znajduje się C kontyngencji, zaś w mianowniku średnia z dwóch pierwiastków. Obliczenia w arkuszu możemy sobie ułatwić rozkładając je na kilka komórek.

Okno arkusza Calc. W komórce C37 wprowadzono formułę =PIERWIASTEK(C32/(C32+D23)); jej wynikiem jest współczynnik C kontyngencji. W komórce C38 wprowadzono formułę =ŚREDNIA(PIERWIASTEK((2-1)/2);PIERWIASTEK((6-1)/6)); jej wynikiem jest teoretyczny najwyższy współczynnik kontyngencji C w danym przypadku. W komórce C39 wprowadzono formułę =C37/C38; jej wynikiem jest skorygowany współczynnik C kontyngencji

Jak widać, w naszym przypadku nawet skorygowany współczynnik C osiąga dość niewielką wartość. Tak więc zależność pomiędzy dziedziną, w której wyróżniony został laureat, a jego płcią istnieje, ale jest raczej nikła.

Podobał Ci się ten artykuł? Zapisz się na listę subskrybentów i otrzymuj informacje o następnych

Dodaj komentarz