Regresja logistyczna: model i metody

Spisu treści:

Regresja logistyczna: model i metody
Regresja logistyczna: model i metody
Anonim

Metody regresji logistycznej i analizy dyskryminacyjnej są stosowane, gdy konieczne jest wyraźne rozróżnienie respondentów według kategorii docelowych. W tym przypadku same grupy są reprezentowane przez poziomy jednego parametru jednowariantowego. Przyjrzyjmy się bliżej modelowi regresji logistycznej i dowiedzmy się, dlaczego jest on potrzebny.

regresja logistyczna
regresja logistyczna

Informacje ogólne

Przykładem problemu, w którym wykorzystuje się regresję logistyczną, jest podział respondentów na grupy, które kupują i nie kupują musztardy. Zróżnicowanie odbywa się zgodnie z cechami społeczno-demograficznymi. Należą do nich w szczególności wiek, płeć, liczba krewnych, dochody itp. W operacjach występują kryteria zróżnicowania i zmienna. Ten ostatni koduje kategorie docelowe, na które de facto należy podzielić respondentów.

Nuanse

Należy powiedzieć, że zakres przypadków, w których stosowana jest regresja logistyczna, jest znacznie węższy niż w przypadku analizy dyskryminacyjnej. W związku z tym rozważa się zastosowanie tego ostatniego jako uniwersalnej metody różnicowaniabardziej preferowane. Ponadto eksperci zalecają rozpoczęcie badań klasyfikacyjnych od analizy dyskryminacyjnej. I tylko w przypadku niepewności co do wyników można zastosować regresję logistyczną. Ta potrzeba wynika z kilku czynników. Regresję logistyczną stosuje się, gdy istnieje jasne zrozumienie rodzaju zmiennych niezależnych i zależnych. W związku z tym wybierana jest jedna z 3 możliwych procedur. W analizie dyskryminacyjnej badacz ma zawsze do czynienia z jedną operacją statyczną. Obejmuje jedną zależną i kilka niezależnych zmiennych kategorialnych z dowolnym rodzajem skali.

Wyświetlenia

Zadaniem badania statystycznego wykorzystującego regresję logistyczną jest określenie prawdopodobieństwa, że dany respondent zostanie przypisany do określonej grupy. Różnicowanie odbywa się według określonych parametrów. W praktyce, według wartości jednego lub więcej niezależnych czynników, można podzielić respondentów na dwie grupy. W tym przypadku ma miejsce binarna regresja logistyczna. Określonych parametrów można również użyć przy podziale na grupy składające się z więcej niż dwóch. W takiej sytuacji następuje wielomianowa regresja logistyczna. Otrzymane grupy są wyrażone w poziomach pojedynczej zmiennej.

regresja logistyczna
regresja logistyczna

Przykład

Powiedzmy, że są odpowiedzi respondentów na pytanie, czy są zainteresowani ofertą zakupu działki na przedmieściach Moskwy. Opcje to „nie”i tak. Konieczne jest ustalenie, jakie czynniki mają dominujący wpływ na decyzję potencjalnych nabywców. W tym celu respondentom zadaje się pytania dotyczące infrastruktury terytorium, odległości od stolicy, obszaru terenu, obecności / braku budynku mieszkalnego itp. Za pomocą regresji binarnej można dystrybuować respondentów na dwie grupy. W pierwszej znajdą się zainteresowani przejęciem - potencjalni nabywcy, a w drugiej odpowiednio ci, którzy nie są zainteresowani taką ofertą. Dla każdego respondenta dodatkowo zostanie obliczone prawdopodobieństwo przypisania do tej lub innej kategorii.

Cechy porównawcze

Różnica od dwóch powyższych opcji to inna liczba grup oraz rodzaj zmiennych zależnych i niezależnych. Na przykład w regresji binarnej badana jest zależność czynnika dychotomicznego od jednego lub więcej niezależnych warunków. Co więcej, te ostatnie mogą mieć dowolny rodzaj skali. Regresja wielomianowa jest uważana za odmianę tej opcji klasyfikacji. W nim więcej niż 2 grupy należą do zmiennej zależnej. Niezależne czynniki muszą mieć skalę porządkową lub nominalną.

Regresja logistyczna w spss

W pakiecie statystycznym 11-12 wprowadzono nową wersję analizy - porządkową. Metodę tę stosuje się, gdy czynnik zależny należy do tej samej nazwy (liczby porządkowej) skali. W tym przypadku wybierane są zmienne niezależne jednego konkretnego typu. Muszą być albo porządkowe, albo nominalne. Za najważniejszą uważa się podział na kilka kategoriiuniwersalny. Metodę tę można stosować we wszystkich badaniach wykorzystujących regresję logistyczną. Jednak jedynym sposobem na poprawę jakości modelu jest zastosowanie wszystkich trzech technik.

kontrola jakości adekwatności i regresja logistyczna
kontrola jakości adekwatności i regresja logistyczna

Porządkowa klasyfikacja

Należy powiedzieć, że wcześniej w pakiecie statystycznym nie było typowej możliwości wykonania specjalistycznej analizy dla czynników zależnych ze skalą porządkową. Dla wszystkich zmiennych z więcej niż 2 grupami zastosowano wariant wielomianowy. Wprowadzona stosunkowo niedawno analiza porządkowa ma szereg cech. Uwzględniają specyfikę skali. Tymczasem w pomocy dydaktycznych porządkowa regresja logistyczna często nie jest traktowana jako osobna technika. Wynika to z tego, że: analiza porządkowa nie ma żadnych znaczących przewag nad wielomianem. Badacz może z powodzeniem użyć tego ostatniego w obecności zarówno porządkowej, jak i nominalnej zmiennej zależnej. Jednocześnie same procesy klasyfikacji prawie nie różnią się od siebie. Oznacza to, że wykonanie analizy porządkowej nie spowoduje żadnych trudności.

Opcja analizy

Rozważmy prosty przypadek - regresję binarną. Załóżmy, że w procesie badań marketingowych ocenia się zapotrzebowanie na absolwentów pewnej uczelni metropolitalnej. W ankiecie respondentom zadano pytania, m.in.:

  1. Czy jesteś zatrudniony? (ql).
  2. Wpisz rok ukończenia szkoły (q 21).
  3. Jaka jest średniaocena ukończenia szkoły (średnia).
  4. Płeć (q22).

Regresja logistyczna oceni wpływ niezależnych czynników aver, q 21 i q 22 na zmienną ql. Mówiąc najprościej, celem analizy będzie określenie prawdopodobnego zatrudnienia absolwentów na podstawie informacji o kierunku, roku ukończenia studiów i GPA.

logistyczny wskaźnik regresji sigmoidalnej
logistyczny wskaźnik regresji sigmoidalnej

Regresja logistyczna

Aby ustawić parametry za pomocą regresji binarnej, użyj menu Analiza►Regresja►Logistyka binarna. W oknie Regresja logistyczna wybierz czynnik zależny z listy dostępnych zmiennych po lewej stronie. To jest ql. Ta zmienna musi być umieszczona w polu Zależna. Następnie na wykresie współzmiennych należy wprowadzić niezależne czynniki - q 21, q 22, śr. Następnie musisz wybrać, jak uwzględnić je w swojej analizie. Jeżeli liczba czynników niezależnych jest większa niż 2, to stosowana jest domyślnie ustawiona metoda jednoczesnego wprowadzania wszystkich zmiennych, ale krok po kroku. Najpopularniejszym sposobem jest Backward:LR. Za pomocą przycisku Wybierz możesz uwzględnić w badaniu nie wszystkich respondentów, a jedynie określoną kategorię docelową.

Zdefiniuj zmienne kategorialne

Przycisk Kategoryczny powinien być używany, gdy jedna ze zmiennych niezależnych jest nominalna i zawiera więcej niż 2 kategorie. W tej sytuacji w oknie Definiuj zmienne kategorialne właśnie taki parametr umieszczamy w sekcji Współzmienne kategorialne. W tym przykładzie nie ma takiej zmiennej. Następnie na liście rozwijanej Kontrast następujewybierz pozycję Odchylenie i naciśnij przycisk Zmień. W rezultacie z każdego czynnika nominalnego powstanie kilka zmiennych zależnych. Ich liczba odpowiada liczbie kategorii warunku początkowego.

Zapisz nowe zmienne

Za pomocą przycisku Zapisz w głównym oknie dialogowym badania można ustawić tworzenie nowych parametrów. Będą zawierały wskaźniki wyliczone w procesie regresji. W szczególności możesz tworzyć zmienne, które definiują:

  1. Przynależność do określonej kategorii klasyfikacji (członkostwo w grupie).
  2. Prawdopodobieństwo przypisania respondenta do każdej grupy badawczej (Prawdopodobieństwo).

Kiedy użyjesz przycisku Opcje, badacz nie otrzymuje żadnych znaczących opcji. W związku z tym można go zignorować. Po kliknięciu przycisku „OK” wyniki analizy zostaną wyświetlone w głównym oknie.

współczynnik regresji logistycznej
współczynnik regresji logistycznej

Kontrola jakości pod kątem adekwatności i regresji logistycznej

Rozważ tabelę omnibusowych testów współczynników modelu. Wyświetla wyniki analizy jakości aproksymacji modelu. Ze względu na to, że ustawiono opcję krok po kroku, należy przyjrzeć się wynikom ostatniego etapu (Krok 2). Wynik dodatni zostanie rozpatrzony w przypadku stwierdzenia wzrostu wskaźnika Chi-kwadrat przy przechodzeniu do następnego etapu przy wysokim stopniu istotności (Sig. < 0,05). Jakość modelu oceniana jest w linii Model. Jeżeli uzyskana zostanie wartość ujemna, ale nie jest ona uważana za istotną przy ogólnej wysokiej istotności modelu, ostatniamożna uznać za praktycznie odpowiednie.

Stoły

Podsumowanie modelu umożliwia oszacowanie całkowitego wskaźnika wariancji, który jest opisany przez skonstruowany model (wskaźnik R-kwadrat). Zaleca się stosowanie wartości Nagelkera. Parametr Nagelkerke R Square można uznać za pozytywny wskaźnik, jeśli jest powyżej 0,50. Następnie oceniane są wyniki klasyfikacji, w której rzeczywiste wskaźniki przynależności do tej lub innej badanej kategorii są porównywane z przewidywanymi na podstawie modelu regresji. W tym celu stosuje się tabelę klasyfikacyjną. Pozwala także na wyciągnięcie wniosków na temat poprawności zróżnicowania dla każdej z rozważanych grup.

model regresji logistycznej
model regresji logistycznej

Poniższa tabela daje możliwość poznania istotności statystycznej niezależnych czynników wprowadzonych do analizy, jak również każdego niestandaryzowanego współczynnika regresji logistycznej. Na podstawie tych wskaźników można przewidzieć przynależność każdego respondenta w próbie do określonej grupy. Za pomocą przycisku Zapisz możesz wprowadzić nowe zmienne. Będą zawierać informacje o przynależności do określonej kategorii klasyfikacji (Predictedcategory) oraz prawdopodobieństwie zaliczenia do tych grup (Predicted probabilities members). Po kliknięciu „OK” wyniki obliczeń pojawią się w głównym oknie Wielomianowej Regresji Logistycznej.

Pierwsza tabela, która zawiera ważne dla badacza wskaźniki, to Informacje o dopasowaniu modelu. Wysoki poziom istotności statystycznej wskazuje na wysoką jakość iprzydatność wykorzystania modelu w rozwiązywaniu problemów praktycznych. Inną ważną tabelą jest Pseudo R-Square. Pozwala oszacować proporcję całkowitej wariancji w czynniku zależnym, który wyznaczają wybrane do analizy zmienne niezależne. Zgodnie z tabelą Likelihood Ratio Tests możemy wyciągnąć wnioski na temat statystycznej istotności tych ostatnich. Oszacowania parametrów odzwierciedlają niestandaryzowane współczynniki. Służą do budowy równania. Dodatkowo dla każdej kombinacji zmiennych określono statystyczną istotność ich wpływu na czynnik zależny. Tymczasem w badaniach marketingowych często konieczne staje się zróżnicowanie respondentów według kategorii nie indywidualnie, ale jako część grupy docelowej. W tym celu używana jest tabela obserwowanych i przewidywanych częstotliwości.

Praktyczne zastosowanie

Rozważana metoda analizy jest szeroko stosowana w pracy traderów. W 1991 roku opracowano logistyczny wskaźnik regresji sigmoidalnej. Jest to łatwe w użyciu i skuteczne narzędzie do przewidywania prawdopodobnych cen, zanim się „przegrzeją”. Wskaźnik jest przedstawiony na wykresie jako kanał utworzony przez dwie równoległe linie. Są one jednakowo oddalone od trendu. Szerokość korytarza będzie zależeć wyłącznie od ram czasowych. Wskaźnik jest używany podczas pracy z prawie wszystkimi aktywami - od par walutowych po metale szlachetne.

regresja logistyczna w spss
regresja logistyczna w spss

W praktyce opracowano 2 kluczowe strategie korzystania z instrumentu: dla wybicia ina turę. W tym drugim przypadku trader skupi się na dynamice zmian cen w kanale. Gdy wartość zbliża się do linii wsparcia lub oporu, obstawia się prawdopodobieństwo, że ruch rozpocznie się w przeciwnym kierunku. Jeśli cena zbliża się do górnej granicy, możesz pozbyć się aktywa. Jeśli jest na dolnym limicie, powinieneś pomyśleć o zakupie. Strategia wybicia polega na wykorzystaniu zleceń. Są instalowane poza granicami w stosunkowo niewielkiej odległości. Biorąc pod uwagę, że cena w niektórych przypadkach narusza je na krótki czas, należy zachować ostrożność i ustawić stop loss. Jednocześnie, oczywiście, niezależnie od wybranej strategii, trader musi jak najspokojniej postrzegać i oceniać sytuację, jaka zaistniała na rynku.

Wniosek

Tak więc zastosowanie regresji logistycznej pozwala na szybkie i łatwe klasyfikowanie respondentów do kategorii według podanych parametrów. Podczas analizy możesz użyć dowolnej konkretnej metody. W szczególności regresja wielomianowa jest uniwersalna. Eksperci zalecają jednak stosowanie wszystkich metod opisanych powyżej w połączeniu. Wynika to z faktu, że w tym przypadku jakość modelu będzie znacznie wyższa. To z kolei rozszerzy zakres jego zastosowania.

Zalecana: