Informacje statystyczne: gromadzenie, przetwarzanie, analiza

2026 Autor: Angel Austin | [email protected]. Ostatnio zmodyfikowany: 2025-01-23 12:29:40

W historii statystyki podejmowano różne próby stworzenia taksonomii poziomów pomiaru. Psychofizyk Stanley Smith Stevens zdefiniował skale nominalną, porządkową, interwałową i proporcjonalną.

Pomiary nominalne nie mają znaczącej kolejności rang wśród wartości i pozwalają na dowolną konwersję jeden do jednego.

Wymiary zwykłe mają niedokładne różnice między kolejnymi wartościami, ale mają określoną kolejność tych wartości i umożliwiają dowolną transformację z zachowaniem kolejności.

Pomiary interwałowe mają znaczące odległości między punktami, ale wartość zero jest dowolna (jak w przypadku pomiaru długości geograficznej i temperatury w stopniach Celsjusza lub Fahrenheita) i pozwala na dowolną transformację liniową.

Wymiary proporcjonalne mają zarówno znaczącą wartość zerową, jak i odległości między różnymi wymiarami i pozwalają na dowolną transformację skalowania.

Zmienne i klasyfikacja informacji

Ponieważ zmienneodpowiadające tylko nominalnym lub porządkowym pomiarom nie mogą być rozsądnie zmierzone liczbowo i czasami są grupowane jako zmienne kategorialne. Pomiary ilorazowe i interwałowe są pogrupowane jako zmienne ilościowe, które mogą być dyskretne lub ciągłe ze względu na ich liczbowy charakter. Takie rozróżnienia są często luźno związane z typem danych w informatyce, ponieważ dychotomiczne zmienne kategorialne mogą być reprezentowane przez wartości logiczne, politomiczne zmienne kategorialne z arbitralnymi liczbami całkowitymi w integralnym typie danych oraz zmienne ciągłe z rzeczywistymi składnikami, które wymagają obliczeń zmiennoprzecinkowych. Ale wyświetlanie typów danych statystycznych zależy od zastosowanej klasyfikacji.

Inne klasyfikacje

Utworzono również inne klasyfikacje danych statystycznych (informacji). Na przykład Mosteller i Tukey rozróżniali stopnie, rangi, policzone udziały, liczby, kwoty i salda. Nelder kiedyś opisał zliczenia ciągłe, współczynniki ciągłe, korelację zliczeń i kategoryczne sposoby przekazywania danych. Wszystkie te metody klasyfikacji są wykorzystywane w gromadzeniu informacji statystycznych.

Problemy

Kwestia, czy właściwe jest stosowanie różnego rodzaju metod statystycznych do danych uzyskanych za pomocą różnych procedur pomiarowych (zbierania), komplikują kwestie związane z konwersją zmiennych i precyzyjną interpretacją pytańBadania. „Związek między danymi a tym, co opisują, po prostu odzwierciedla fakt, że niektóre rodzaje stwierdzeń statystycznych mogą mieć wartości prawdy, które nie są niezmienne w przypadku pewnych przekształceń. To, czy transformacja jest warta rozważenia, zależy od pytania, na które próbujesz odpowiedzieć.

Co to jest typ danych

Typ danych jest podstawowym składnikiem semantycznej zawartości zmiennej i kontroluje, jakiego rodzaju rozkłady prawdopodobieństwa można logicznie wykorzystać do opisania zmiennej, dozwolonych operacji na niej, rodzaju analizy regresji użytej do jej przewidzenia, itp. Pojęcie typu danych jest podobne w pojęciu poziomu pomiaru, ale bardziej szczegółowe - na przykład zliczenia danych wymagają innego rozkładu (Poissona lub dwumianu) niż w przypadku nieujemnych wartości rzeczywistych, ale oba mają ten sam poziom pomiaru (skala współczynnika).

Wagi

Podejmowano różne próby stworzenia taksonomii poziomów pomiarowych do przetwarzania informacji statystycznych. Psychofizyk Stanley Smith Stevens zdefiniował skale nominalną, porządkową, interwałową i proporcjonalną. Pomiary nominalne nie mają znaczącej kolejności rang wśród wartości i pozwalają na dowolną konwersję jeden do jednego. Zwykłe pomiary mają nieprecyzyjne różnice między kolejnymi wartościami, ale różnią się istotną kolejnością tych wartości i pozwalajądowolna transformacja zachowująca porządek. Pomiary interwałowe mają znaczące odległości między pomiarami, ale wartość zerowa jest dowolna (jak w przypadku pomiaru długości geograficznej i temperatury w stopniach Celsjusza czy Fahrenheita) i pozwala na dowolną transformację liniową. Wymiary współczynnika mają zarówno znaczącą wartość zerową, jak i odległości między różnymi zdefiniowanymi wymiarami i pozwalają na dowolną transformację skalowania.

Dane, których nie można opisać za pomocą jednej liczby, są często zawarte w losowych wektorach rzeczywistych zmiennych losowych, chociaż istnieje rosnąca tendencja do samodzielnego ich przetwarzania. Takie przykłady zostaną omówione poniżej.

Losowe wektory

Poszczególne elementy mogą być skorelowane lub nie. Przykładami rozkładów używanych do opisu skorelowanych wektorów losowych są wielowymiarowy rozkład normalny i wielowymiarowy rozkład t. Ogólnie rzecz biorąc, mogą istnieć dowolne korelacje między dowolnymi elementami, jednak często staje się to niemożliwe do opanowania powyżej pewnego rozmiaru, co wymaga dodatkowych ograniczeń na skorelowane komponenty.

Macierze losowe

Macierze losowe można układać liniowo i traktować jako losowe wektory, jednak może to nie być skuteczny sposób przedstawiania korelacji między różnymi elementami. Niektóre rozkłady prawdopodobieństwa są specjalnie zaprojektowane dla macierzy losowych, takich jak macierz normalnadystrybucja i dystrybucja Wishart.

Sekwencje losowe

Czasami są one traktowane tak samo jak wektory losowe, ale w innych przypadkach termin ten jest stosowany konkretnie do przypadków, w których każda zmienna losowa koreluje tylko z pobliskimi zmiennymi (jak w modelu Markowa). Jest to szczególny przypadek sieci bayesowskiej i jest używany dla bardzo długich sekwencji, takich jak łańcuchy genów lub długie dokumenty tekstowe. Szereg modeli jest specjalnie zaprojektowanych do takich sekwencji, jak na przykład ukryte sekwencje Markowa.

Procesy losowe

Są podobne do ciągów losowych, ale tylko wtedy, gdy długość ciągu jest nieskończona lub nieskończona, a elementy ciągu są przetwarzane jeden po drugim. Jest to często używane w przypadku danych, które można opisać jako szeregi czasowe. Dotyczy to na przykład ceny akcji następnego dnia.

Wniosek

Analiza informacji statystycznych całkowicie zależy od jakości ich zbierania. To drugie z kolei jest silnie związane z możliwościami jego klasyfikacji. Oczywiście istnieje wiele rodzajów klasyfikacji informacji statystycznych, o których czytelnik mógł się przekonać podczas lektury tego artykułu. Niemniej jednak obecność skutecznych narzędzi i dobra znajomość matematyki, a także wiedzy z zakresu socjologii spełni swoje zadanie, pozwalając na przeprowadzenie dowolnej ankiety lub badania bez znaczących poprawek błędów. Źródła informacji statystycznych w postaciludzie, organizacje i inne przedmioty socjologiczne są na szczęście reprezentowane w wielkiej liczbie. I żadna trudność nie może stanąć na drodze prawdziwego odkrywcy.