Statystyka, która została stworzona w browarze Guinnessa
Pisałem już w tych felietonach, że o wyborze sposobów leczenia powinna decydować statystyka. Tekst zatytułowany „Dlaczego w medycynie wyniki badań bez analizy statystycznej mają zerową wartość naukową?” dostępny jest w internecie, więc Czytelnik zainteresowany szczegółami może go bez trudu „wygooglać” i dowiedzieć się, jak używa się statystyki do oceny skuteczności działania leków.
Procedura jest dość skomplikowana, bo trzeba znaleźć zbiór pacjentów, których należy losowo podzielić na grupę osób przyjmujących badany lek oraz grupę kontrolną. Ci z grupy kontrolnej otrzymują tak zwane placebo - tabletki wyglądające tak samo, jak badany lek, ale niezawierające badanej substancji leczniczej.
Pojawia się jednak problem, jak wyciągnąć naukowe wnioski na podstawie tak przeprowadzonego badania. Trudność polega na tym, że zamiast wnioskować na podstawie pojedynczych wyników trzeba wziąć pod uwagę wynik reprezentatywny dla całej grupy. Najczęściej przyjmuje się wartość średnią wyników poszczególnych pacjentów. Jeśli średnia miara skuteczności jest lepsza u pacjentów leczonych badanym lekiem niż u pacjentów grupy kontrolnej - to pozornie możemy twierdzić, że lek naprawdę pomaga.
Pozornie, bo wartość średnia w każdej grupie wyznaczona jest z pewnym błędem. Dlatego wnioskując statystycznie trzeba pamiętać także o rozrzucie danych, na podstawie których te średnie zostały obliczone. Miarą tego rozrzutu przy ujęciu matematycznym odwołującym się do rozkładu Gaussa jest wariancja, która w badaniach praktycznych przybliżana jest przez dające się łatwo obliczyć tak zwane odchylenie standardowe. Posługując się krzywymi normalnego rozkładu prawdopodobieństwa dla danych pacjentów leczonych badanym lekiem i tych z grupy kontrolnej, można dokładnie wyliczyć, jakie jest prawdopodobieństwo tego, że lek naprawdę działa.
No dobrze, ale gdzie w tym wszystkim jest browar Guinnessa przywołany w tytule?
Otóż jest, i to bardzo ważny. Opisane wyżej rozumowanie, odwołujące się do rozkładu Gaussa, wymagało tego, żeby odchylenia standardowe obliczać na podstawie bardzo dużej liczby obserwacji. Wartości średnie nawet przy niezbyt licznych obserwacjach są wiarygodne. Odchylenia standardowe nie. Obliczane na podstawie niewielkiej liczby obserwacji może być istotnie różne, niż obliczone na dużym zbiorze obserwacji. Tymczasem uzyskanie w badaniach medycznych dużego zbioru obserwacji jest kłopotliwe, kosztowne i czasochłonne, a ponadto wątpliwe moralnie, bo część pacjentów (grupa kontrolna) jest leczona gorzej, niż by to było możliwe.
Fakt ten dostrzegł jako pierwszy nie lekarz, tylko zatrudniony w browarze Guinnessa absolwent Oxfordu, William Gosset. Na studiach poznał on zasady statystyki prezentowane przez Karla Pearsona, ale gdy podjął próbę ich zastosowania do usprawnienia procesu warzenia piwa - zetknął się z problemem małej liczby próbek, na podstawie których trzeba było prowadzić wnioskowanie. Usiłując powiązać kwasowość piwa z temperaturą fermentacji Gosset miał do dyspozycji dane pochodzące z nielicznych pomiarów (często mniej niż 5), a to nie wystarczało do zastosowania metod opartych na średniej i odchyleniu standardowym.
Gosset był badaczem ambitnym i wymyślił, że w takim przypadku nie należy używać rozkładu Gaussa, tylko inny, matematycznie bardziej złożony rozkład prawdopodobieństwa, uwzględniający małą liczebność próbek. Gosset zbudował taki rozkład i nazwał go rozkładem t. Swoją publikację na ten temat podpisał „Student”.
No i tak do dnia dzisiejszego wyniki odkryć medycznych badane są i weryfikowane przy użyciu tak zwanego „testu t Studenta”, ale prawie nikt już nie pamięta, że to wszystko wywodzi się z browaru!