Model statystyczny: istota metody, konstrukcja i analiza

Spisu treści:

Model statystyczny: istota metody, konstrukcja i analiza
Model statystyczny: istota metody, konstrukcja i analiza
Anonim

Model statystyczny to matematyczna projekcja zawierająca zestaw różnych założeń dotyczących generowania niektórych przykładowych danych. Termin ten jest często przedstawiany w bardzo wyidealizowanej formie.

Założenia wyrażone w modelu statystycznym przedstawiają zbiór rozkładów prawdopodobieństwa. Wiele z nich ma na celu prawidłowe przybliżenie rozkładu, z którego pobierany jest określony zestaw informacji. Rozkłady prawdopodobieństwa nieodłącznie związane z modelami statystycznymi odróżniają projekcję od innych modyfikacji matematycznych.

Projekt ogólny

statystyczne modele procesów
statystyczne modele procesów

Model matematyczny to opis systemu przy użyciu określonych pojęć i języka. Dotyczą one nauk przyrodniczych (m.in. fizyka, biologia, nauka o ziemi, chemia) i inżynierskich (m.in. informatyka, elektrotechnika), a także społecznych (m.in. ekonomia, psychologia, socjologia, politologia).

Model może pomóc w wyjaśnieniu systemu ibadać wpływ różnych elementów i przewidywać zachowania.

Modele matematyczne mogą przybierać różne formy, w tym układy dynamiczne, projekcje statystyczne, równania różniczkowe lub parametry teorii gier. Te i inne typy mogą się pokrywać, a model ten zawiera wiele abstrakcyjnych struktur. Ogólnie, projekcje matematyczne mogą również zawierać elementy logiczne. W wielu przypadkach jakość dziedziny naukowej zależy od tego, jak dobrze opracowane teoretycznie modele matematyczne zgadzają się z wynikami powtarzanych eksperymentów. Brak zgodności między procesami teoretycznymi a pomiarami eksperymentalnymi często prowadzi do istotnych postępów w miarę opracowywania lepszych teorii.

W naukach fizycznych tradycyjny model matematyczny zawiera dużą liczbę następujących elementów:

  • Równania sterujące.
  • Dodatkowe podmodele.
  • Zdefiniuj równania.
  • Równania składowe.
  • Założenia i ograniczenia.
  • Warunki początkowe i brzegowe.
  • Klasyczne więzy i równania kinematyczne.

Formuła

Model statystyczny z reguły jest ustalany za pomocą równań matematycznych, które łączą jedną lub więcej zmiennych losowych i ewentualnie inne zmienne występujące w przyrodzie. Podobnie projekcja jest uważana za „formalną koncepcję pojęcia”.

Wszystkie testowanie hipotez statystycznych i oceny statystyczne są uzyskiwane na podstawie modeli matematycznych.

Wprowadzenie

statystyczne modele matematyczne
statystyczne modele matematyczne

Nieformalnie model statystyczny może być postrzegany jako założenie (lub zbiór założeń) o określonej właściwości: pozwala obliczyć prawdopodobieństwo dowolnego zdarzenia. Jako przykład rozważ parę zwykłych kości sześciościennych. Należy zbadać dwa różne założenia statystyczne dotyczące kości.

Pierwsze założenie to:

Dla każdej kostki prawdopodobieństwo uzyskania jednej z liczb (1, 2, 3, 4, 5 i 6) wynosi: 1/6.

Z tego założenia możemy obliczyć prawdopodobieństwo obu kostek: 1:1/6×1/6=1/36.

Bardziej ogólnie, możesz obliczyć prawdopodobieństwo dowolnego zdarzenia. Należy jednak rozumieć, że niemożliwe jest obliczenie prawdopodobieństwa jakiegokolwiek innego nietrywialnego zdarzenia.

Tylko pierwsza opinia zbiera statystyczny model matematyczny: ze względu na to, że przy jednym tylko założeniu możliwe jest określenie prawdopodobieństwa każdego działania.

W powyższym przykładzie z początkowym zezwoleniem łatwo jest określić możliwość wystąpienia zdarzenia. W przypadku innych przykładów obliczenia mogą być trudne lub nawet nierealistyczne (na przykład mogą wymagać wielu lat obliczeń). Dla osoby projektującej model analizy statystycznej taka złożoność jest uważana za niedopuszczalną: wykonanie obliczeń nie powinno być praktycznie niemożliwe i teoretycznie niemożliwe.

Definicja formalna

W kategoriach matematycznych model statystyczny systemu jest zwykle traktowany jako para (S, P), gdzie S tozbiór możliwych obserwacji, tj. przestrzeń próbki, a P jest zbiorem rozkładów prawdopodobieństwa na S.

Intuicja tej definicji jest następująca. Zakłada się, że istnieje „prawdziwy” rozkład prawdopodobieństwa spowodowany przez proces generujący określone dane.

Ustaw

To on określa parametry modelu. Parametryzacja zazwyczaj wymaga różnych wartości, aby uzyskać różne rozkłady, tj.

Konsekwencja modelu
Konsekwencja modelu

musi wytrzymać (innymi słowy, musi być iniektywna). Mówi się, że parametryzacja, która spełnia wymagania, jest możliwa do zidentyfikowania.

Przykład

Wykres statystyk
Wykres statystyk

Załóżmy, że jest pewna liczba uczniów w różnym wieku. Wzrost dziecka będzie stochastycznie powiązany z rokiem urodzenia: na przykład, gdy uczeń ma 7 lat, wpływa to na prawdopodobieństwo wzrostu, tylko po to, aby osoba była wyższa niż 3 centymetry.

Możesz sformalizować to podejście w model regresji prostoliniowej, na przykład w następujący sposób: wysokość i=b 0 + b 1agei + εi, gdzie b 0 jest przecięciem, b 1 jest parametrem, według którego wiek jest pomnożone podczas uzyskiwania monitorowania wysokości. To jest pojęcie błędu. Oznacza to, że zakłada, że wzrost jest przewidywany przez wiek z pewnym błędem.

Prawidłowy formularz musi pasować do wszystkich punktów informacyjnych. Zatem kierunek prostoliniowy (poziom i=b 0 + b 1agei) nie może być równaniem modelu danych - jeśli nie odpowiada jednoznacznie na wszystkie punkty. Tjbez wyjątku wszystkie informacje leżą bezbłędnie na linii. Margines błędu εi musi być wprowadzony do równania, aby formularz pasował absolutnie do wszystkich informacji.

Aby dokonać wnioskowania statystycznego, najpierw musimy założyć pewne rozkłady prawdopodobieństwa dla ε i. Na przykład można założyć, że rozkłady ε i mają kształt Gaussa ze średnią zerową. W tym przypadku model będzie miał 3 parametry: b 0, b 1 oraz wariancję rozkładu Gaussa.

Możesz formalnie określić model jako (S, P).

W tym przykładzie model jest zdefiniowany przez określenie S, więc można przyjąć pewne założenia dotyczące P. Istnieją dwie opcje:

Ten wzrost może być przybliżony przez liniową funkcję wieku;

Że błędy w aproksymacji są rozłożone jak wewnątrz Gaussa.

Uwagi ogólne

Statystyczne parametry modeli to specjalna klasa projekcji matematycznej. Co odróżnia jeden gatunek od drugiego? Tak więc model statystyczny jest niedeterministyczny. W ten sposób, w przeciwieństwie do równań matematycznych, pewne zmienne nie mają określonych wartości, lecz mają rozkład możliwości. Oznacza to, że poszczególne zmienne są uważane za stochastyczne. W powyższym przykładzie ε jest zmienną stochastyczną. Bez niego projekcja byłaby deterministyczna.

Budowanie modelu statystycznego jest często stosowane, nawet jeśli proces materialny jest uważany za deterministyczny. Na przykład rzucanie monetami jest w zasadzie czynnością z góry determinującą. Jednak w większości przypadków jest to modelowane jako stochastyczne (poprzez proces Bernoulliego).

Według Konishiego i Kitagawy model statystyczny ma trzy cele:

  • Prognozy.
  • Eksploracja informacji.
  • Opis struktur stochastycznych.

Rozmiar projekcji

Załóżmy, że istnieje statystyczny model predykcyjny, Model nazywa się parametrycznym, jeśli O ma skończony wymiar. W rozwiązaniu musisz napisać, że

Różnica modelu
Różnica modelu

gdzie k jest dodatnią liczbą całkowitą (R oznacza dowolne liczby rzeczywiste). Tutaj k nazywamy wymiarem modelu.

Jako przykład możemy założyć, że wszystkie dane pochodzą z jednowymiarowego rozkładu Gaussa:

Formuła statystyki
Formuła statystyki

W tym przykładzie wymiar k wynosi 2.

I jako kolejny przykład, można założyć, że dane składają się z (x, y) punktów, które są rozłożone w linii prostej z resztami Gaussa (o zerowej średniej). Wtedy wymiar statystycznego modelu ekonomicznego jest równy 3: przecięcie prostej, jej nachylenie i wariancja rozkładu reszt. Należy zauważyć, że w geometrii linia prosta ma wymiar 1.

Chociaż powyższa wartość jest technicznie jedynym parametrem, który ma wymiar k, czasami uważa się, że zawiera k różnych wartości. Na przykład przy jednowymiarowym rozkładzie Gaussa O jest jedynym parametrem o rozmiarze 2, ale czasami uważa się, że zawiera dwaparametr indywidualny - wartość średnia i odchylenie standardowe.

Statystyczny model procesu jest nieparametryczny, jeśli zbiór wartości O jest nieskończenie wymiarowy. Jest również półparametryczny, jeśli ma zarówno parametry skończenie wymiarowe, jak i nieskończenie wymiarowe. Formalnie, jeśli k jest wymiarem O, a n jest liczbą próbek, modele półparametryczne i nieparametryczne mają

Wzór modelu
Wzór modelu

wtedy model jest półparametryczny. W przeciwnym razie projekcja jest nieparametryczna.

Modele parametryczne to najczęściej używane statystyki. Odnośnie projekcji półparametrycznych i nieparametrycznych, Sir David Cox stwierdził:

"Zazwyczaj zawierają najmniej hipotez dotyczących tekstury i kształtu rozkładu, ale zawierają potężne teorie dotyczące samowystarczalności."

Modele zagnieżdżone

Nie myl ich z projekcjami wielopoziomowymi.

Dwa modele statystyczne są zagnieżdżane, jeśli pierwszy można przekształcić w drugi, nakładając ograniczenia na parametry pierwszego. Na przykład zbiór wszystkich rozkładów Gaussa zawiera zagnieżdżony zbiór rozkładów o średniej zerowej:

Oznacza to, że musisz ograniczyć średnią w zbiorze wszystkich rozkładów Gaussa, aby uzyskać rozkłady o zerowej średniej. Jako drugi przykład, model kwadratowy y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) ma osadzony model liniowy y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - tzn. parametr b2 jest równy 0.

W obu tych przykładach pierwszy model ma większą wymiarowość niż model drugi. Dzieje się tak często, ale nie zawsze. Innym przykładem jest zbiór rozkładów Gaussa o dodatniej średniej, który ma wymiar 2.

Porównanie modeli

model statystyczny
model statystyczny

Zakłada się, że istnieje „prawdziwy” rozkład prawdopodobieństwa leżący u podstaw zaobserwowanych danych wywołanych przez proces, który je wygenerował.

A także modele można ze sobą porównywać za pomocą analizy eksploracyjnej lub konfirmacyjnej. W analizie eksploracyjnej formułuje się różne modele i ocenia się, jak dobrze każdy z nich opisuje dane. W analizie konfirmacyjnej porównuje się wcześniej sformułowaną hipotezę z pierwotną. Typowe kryteria tego obejmują P 2, czynnik bayesowski i prawdopodobieństwo względne.

Myśl Konishiego i Kitagawy

„Większość problemów w statystycznym modelu matematycznym można traktować jako pytania predykcyjne. Zazwyczaj formułuje się je jako porównania kilku czynników.”

Ponadto, Sir David Cox powiedział: „Jako tłumaczenie tematu, problem w modelu statystycznym jest często najważniejszą częścią analizy.”

Zalecana: