Modelowanie statystyczne: metody, opis, zastosowanie

Spisu treści:

Modelowanie statystyczne: metody, opis, zastosowanie
Modelowanie statystyczne: metody, opis, zastosowanie
Anonim

Założenia zawarte w modelowaniu statystycznym opisują zbiór rozkładów prawdopodobieństwa, z których niektóre zakłada się, że odpowiednio przybliżają rozkład. Z definicji wybierany jest określony zestaw danych. Rozkłady prawdopodobieństwa nieodłącznie związane z modelowaniem statystycznym odróżniają modele statystyczne od innych, niestatystycznych modeli matematycznych.

Image
Image

Połączenie z matematyką

Ta metoda naukowa jest zakorzeniona przede wszystkim w matematyce. Statystyczne modelowanie systemów jest zwykle podawane za pomocą równań matematycznych, które wiążą jedną lub więcej zmiennych losowych i ewentualnie inne zmienne nielosowe. Zatem model statystyczny jest „formalną reprezentacją teorii” (Hermann Ader, cytując Kennetha Bollena).

Wszystkie testy hipotez statystycznych i wszystkie oszacowania statystyczne pochodzą z modeli statystycznych. Bardziej ogólnie, modele statystyczne są częścią podstawy wnioskowania statystycznego.

Metody statystycznemodelowanie

Nieformalnie model statystyczny można traktować jako założenie statystyczne (lub zbiór założeń statystycznych) o określonej właściwości: to założenie pozwala nam obliczyć prawdopodobieństwo dowolnego zdarzenia. Jako przykład rozważ parę zwykłych kości sześciościennych. Przeanalizujemy dwa różne założenia statystyczne dotyczące kości.

Pierwsze założenie statystyczne stanowi model statystyczny, ponieważ przy jednym założeniu możemy obliczyć prawdopodobieństwo dowolnego zdarzenia. Alternatywne założenie statystyczne nie stanowi modelu statystycznego, ponieważ przy jednym tylko założeniu nie możemy obliczyć prawdopodobieństwa każdego zdarzenia.

Typowy model statystyczny
Typowy model statystyczny

W powyższym przykładzie z pierwszym założeniem łatwo jest obliczyć prawdopodobieństwo zdarzenia. Jednak w niektórych innych przykładach obliczenia mogą być złożone lub nawet niepraktyczne (na przykład mogą wymagać milionów lat obliczeń). Dla założenia stanowiącego model statystyczny ta trudność jest akceptowalna: wykonanie obliczeń nie musi być praktycznie wykonalne, tylko teoretycznie możliwe.

Przykłady modeli

Załóżmy, że mamy populację uczniów z równomiernie rozmieszczonymi dziećmi. Wzrost dziecka będzie stochastycznie powiązany z wiekiem: na przykład, gdy wiemy, że dziecko ma 7 lat, wpływa to na prawdopodobieństwo, że dziecko będzie miało 5 stóp wzrostu (około 152 cm). Możemy sformalizować tę zależność w modelu regresji liniowej, na przykład: wzrost=b0 + b1agei+ εi, gdzie b0 to przecięcie, b1 to parametr, przez który mnoży się wiek przy otrzymywaniu prognozy wzrostu, εi to składnik błędu. Oznacza to, że wzrost jest przewidywany na podstawie wieku z pewnym błędem.

Prawidłowy model musi pasować do wszystkich punktów danych. Tak więc linia prosta (heighti=b0 + b1agei) nie może być równaniem dla modelu danych - chyba że dokładnie pasuje do wszystkich punktów danych, tj. wszystkie punkty danych leżą idealnie na linii. Składnik błędu εi musi być zawarty w równaniu, aby model pasował do wszystkich punktów danych.

statystyki dotyczące płci
statystyki dotyczące płci

Aby dokonać wnioskowania statystycznego, najpierw musimy założyć pewne rozkłady prawdopodobieństwa dla εi. Na przykład możemy założyć, że rozkłady εi są gaussowskie, ze średnią zerową. W tym przypadku model będzie miał 3 parametry: b0, b1 oraz wariancję rozkładu Gaussa.

Opis ogólny

Model statystyczny to specjalna klasa modeli matematycznych. Tym, co odróżnia model statystyczny od innych modeli matematycznych, jest to, że jest niedeterministyczny. Służy do modelowania danych statystycznych. Zatem w modelu statystycznym zdefiniowanym równaniami matematycznymi niektóre zmienne nie mają określonych wartości, lecz mają rozkłady prawdopodobieństwa; to znaczy, że niektóre zmienne są stochastyczne. W powyższym przykładzie ε jest zmienną stochastyczną; bez tej zmiennej model byłbyłoby deterministyczne.

Modele statystyczne są często używane w analizie statystycznej i modelowaniu, nawet jeśli modelowany proces fizyczny jest deterministyczny. Na przykład rzucanie monetami jest w zasadzie procesem deterministycznym; jednak jest zwykle modelowany jako stochastyczny (poprzez proces Bernoulliego).

statystyki ocieplenia
statystyki ocieplenia

Modele parametryczne

Modele parametryczne to najczęściej używane modele statystyczne. W odniesieniu do modeli półparametrycznych i nieparametrycznych Sir David Cox powiedział: „Zazwyczaj zawierają mniej założeń dotyczących struktury i kształtu rozkładu, ale zwykle zawierają silne założenia niezależności”. Podobnie jak wszystkie inne wymienione modele, są one również często wykorzystywane w statystycznej metodzie modelowania matematycznego.

Modele wielopoziomowe

Modele wielopoziomowe (znane również jako hierarchiczne modele liniowe, modele danych zagnieżdżonych, modele mieszane, współczynniki losowe, modele efektów losowych, modele parametrów losowych lub modele podzielone na partycje) to modele parametrów statystycznych, które różnią się na więcej niż jednym poziomie. Przykładem jest model osiągnięć uczniów, który zawiera metryki dla poszczególnych uczniów, a także metryki dla klas, w których uczniowie są pogrupowani. Modele te można traktować jako uogólnienia modeli liniowych (w szczególności regresji liniowej), chociaż można je również rozszerzyć na modele nieliniowe. Modele te stały sięznacznie bardziej popularne, gdy dostępna będzie wystarczająca moc obliczeniowa i oprogramowanie.

Statystyki segmentu
Statystyki segmentu

Modele wielopoziomowe są szczególnie przydatne w projektach badawczych, w których dane uczestników są zorganizowane na więcej niż jednym poziomie (tj. dane zagnieżdżone). Jednostki analizy to zwykle jednostki (na niższym poziomie), które są zagnieżdżone w jednostkach kontekstu/agregatu (na wyższym poziomie). Podczas gdy najniższy poziom danych w modelach wielopoziomowych jest zwykle indywidualny, można również rozważyć powtarzane pomiary osób. W ten sposób modele wielopoziomowe zapewniają alternatywny typ analizy dla jednowymiarowej lub wielowymiarowej analizy powtarzanych pomiarów. Można rozważyć indywidualne różnice w krzywych wzrostu. Ponadto modele wielopoziomowe mogą być stosowane jako alternatywa dla ANCOVA, w których wyniki zmiennych zależnych są korygowane o współzmienne (np. różnice indywidualne) przed testowaniem różnic w leczeniu. Modele wielopoziomowe są w stanie analizować te eksperymenty bez zakładania jednolitych nachyleń regresji wymaganych przez ANCOVA.

Modele wielopoziomowe mogą być używane do danych o wielu poziomach, chociaż modele dwupoziomowe są najbardziej powszechne i na nich koncentruje się pozostała część tego artykułu. Zmienną zależną należy zbadać na najniższym poziomie analizy.

Wykres ciśnienia atmosferycznego
Wykres ciśnienia atmosferycznego

Wybór modelu

Wybór modelupolega na wyborze z zestawu modeli kandydujących podanych danych, realizowanym w ramach modelowania statystycznego. W najprostszych przypadkach rozważany jest już istniejący zbiór danych. Jednak zadanie może również obejmować projektowanie eksperymentów, tak aby zebrane dane były dobrze dopasowane do zadania wyboru modelu. Biorąc pod uwagę modele kandydujące o podobnej mocy predykcyjnej lub wyjaśniającej, najprostszy model będzie prawdopodobnie najlepszym wyborem (brzytwa Ockhama).

Konishi i Kitagawa mówią: „Większość problemów z wnioskowaniem statystycznym można uznać za problemy związane z modelowaniem statystycznym”. Podobnie, Cox powiedział: „Jak dokonuje się przełożenia przedmiotu na model statystyczny, jest często najważniejszą częścią analizy”.

Wybór modelu może również odnosić się do problemu wyboru kilku reprezentatywnych modeli z dużego zestawu modeli obliczeniowych do celów decyzji lub optymalizacji w warunkach niepewności.

Wzory graficzne

Model graficzny lub probabilistyczny model graficzny (PGM) lub ustrukturyzowany model probabilistyczny to model probabilistyczny, dla którego wykres wyraża strukturę zależności warunkowej między zmiennymi losowymi. Są powszechnie używane w teorii prawdopodobieństwa, statystykach (zwłaszcza statystykach Bayesa) i uczeniu maszynowym.

Model statystyczny z wykresem
Model statystyczny z wykresem

Modele ekonometryczne

Modele ekonometryczne to modele statystyczne używane wekonometria. Model ekonometryczny definiuje relacje statystyczne, które, jak się uważa, istnieją między różnymi wielkościami ekonomicznymi związanymi z określonym zjawiskiem gospodarczym. Model ekonometryczny można wyprowadzić z deterministycznego modelu ekonomicznego, który uwzględnia niepewność, lub z modelu ekonomicznego, który sam w sobie jest stochastyczny. Jednak możliwe jest również wykorzystanie modeli ekonometrycznych, które nie są związane z żadną konkretną teorią ekonomii.

Zalecana: