Skalowanie wielowymiarowe: definicja, cele, zadania i przykład

Spisu treści:

Skalowanie wielowymiarowe: definicja, cele, zadania i przykład
Skalowanie wielowymiarowe: definicja, cele, zadania i przykład
Anonim

Skalowanie wielowymiarowe (MDS) to narzędzie do wizualizacji poziomu podobieństwa poszczególnych przypadków w zbiorze danych. Odnosi się do zestawu powiązanych metod porządkowania stosowanych w wizualizacji informacji, w szczególności do wyświetlania informacji zawartych w macierzy odległości. Jest to forma nieliniowej redukcji wymiarowości. Algorytm MDS ma na celu umieszczenie każdego obiektu w przestrzeni N-wymiarowej w taki sposób, aby odległości między obiektami były zachowane jak najlepiej. Każdemu obiektowi są następnie przypisywane współrzędne w każdym z wymiarów N.

Liczba wymiarów wykresu MDS może przekraczać 2 i jest określona a priori. Wybranie N=2 optymalizuje rozmieszczenie obiektów na wykresie rozrzutu 2D. Możesz zobaczyć przykłady skalowania wielowymiarowego na zdjęciach w artykule. Przykłady z symbolami w języku rosyjskim są szczególnie ilustracyjne.

Skalowanie wielowymiarowe
Skalowanie wielowymiarowe

Esencja

Metoda skalowania wielowymiarowego (MMS,MDS) to rozszerzony zestaw klasycznych narzędzi, które uogólniają procedurę optymalizacji dla zestawu funkcji strat i macierzy wejściowych znanych odległości z wagami i tak dalej. W tym kontekście użyteczna funkcja straty nazywana jest stresem, która jest często minimalizowana przez procedurę zwaną majorizacją stresu.

Podręcznik

Istnieje kilka opcji skalowania wielowymiarowego. Programy MDS automatycznie minimalizują obciążenie, aby uzyskać rozwiązanie. Rdzeniem niemetrycznego algorytmu MDS jest dwojaki proces optymalizacji. Najpierw należy znaleźć optymalną monotoniczną transformację bliskości. Po drugie, punkty konfiguracyjne muszą być optymalnie rozmieszczone, aby ich odległości były jak najbardziej zgodne ze skalowanymi wartościami bliskości.

Przykład skalowania wielowymiarowego
Przykład skalowania wielowymiarowego

Rozszerzenie

Rozszerzenie metrycznego skalowania wielowymiarowego w statystyce, gdzie przestrzeń docelowa jest dowolnie gładką przestrzenią nieeuklidesową. Gdzie różnice są odległościami na powierzchni, a przestrzeń docelowa to inna powierzchnia. Programy tematyczne umożliwiają znalezienie mocowania z minimalnym zniekształceniem jednej powierzchni w drugą.

Kroki

Przeprowadzanie badania przy użyciu skalowania wielowymiarowego składa się z kilku etapów:

  1. Sformułowanie problemu. Jakie zmienne chcesz porównać? Ile zmiennych chcesz porównać? W jakim celu będzie wykorzystane badanie?
  2. Pobieranie danych wejściowych. Respondentom zadaje się szereg pytań. W przypadku każdej pary produktów są proszeni o ocenę podobieństwa (zwykle w 7-punktowej skali Likerta od bardzo podobnego do bardzo niepodobnego). Pierwsze pytanie może dotyczyć na przykład Coca-Coli/Pepsi, następne o piwo, następne o Dr. Pepper itp. Liczba pytań zależy od liczby marek.
Skalowanie odległości
Skalowanie odległości

Alternatywne podejście

Są dwa inne podejścia. Istnieje technika zwana „Dane percepcyjne: podejście pochodne”, w której produkty są rozkładane na atrybuty, a ocena odbywa się w semantycznej skali różnicowej. Inną metodą jest „podejście oparte na danych o preferencjach”, w którym respondenci są pytani o preferencje, a nie o podobieństwa.

Składa się z następujących kroków:

  1. Uruchomienie programu statystycznego MDS. Oprogramowanie do wykonywania procedury jest dostępne w wielu pakietach oprogramowania statystycznego. Często istnieje wybór między metrycznym MDS (który dotyczy danych na poziomie interwałowym lub ilorazowym) a niemetrycznym MDS (zajmującym się danymi porządkowymi).
  2. Określanie liczby pomiarów. Badacz musi określić liczbę pomiarów, które chce wykonać na komputerze. Im więcej pomiarów, tym lepsze dopasowanie statystyczne, ale trudniej jest zinterpretować wyniki.
  3. Wyświetl wyniki i zdefiniuj pomiary - program statystyczny (lub powiązany moduł) wyświetli wyniki. Mapa wyświetli każdy produkt (zwykle w 2D).przestrzeń). Bliskość produktów do siebie wskazuje na ich podobieństwo lub preferencje, w zależności od zastosowanego podejścia. Jednak to, w jaki sposób pomiary faktycznie odpowiadają pomiarom zachowania systemu, nie zawsze jest jasne. Tutaj można dokonać subiektywnej oceny zgodności.
  4. Sprawdź wyniki pod kątem rzetelności i trafności - oblicz współczynnik R-kwadrat, aby określić proporcję skalowanej wariancji danych, którą można uwzględnić w procedurze MDS. Kwadrat R 0,6 jest uważany za minimalny akceptowalny poziom. R kwadrat 0,8 jest uważany za dobry do skalowania metrycznego, a 0,9 jest uważany za dobry do skalowania niemetrycznego.
Wyniki skalowania wielowymiarowego
Wyniki skalowania wielowymiarowego

Różne testy

Inne możliwe testy to testy warunków skrajnych typu Kruskala, testy podzielonych danych, testy stabilności danych i ponowne testy niezawodności. Napisz szczegółowo o wynikach testu. Wraz z mapowaniem należy określić przynajmniej miarę odległości (np. wskaźnik Sorensona, wskaźnik Jaccarda) i niezawodność (np. wartość naprężeń).

Wysoce pożądane jest również podanie algorytmu (np. Kruskal, Mather), który jest często określany przez używany program (czasami zastępując raport algorytmu), jeśli podałeś konfigurację początkową lub miałeś losowy wybór, liczbę przebiegów wymiarowania, wyniki Monte Carlo, liczbę iteracji, wynik stabilności i proporcjonalną wariancję każdej osi (r-kwadrat).

Informacje wizualne i metoda analizy danychskalowanie wielowymiarowe

Wizualizacja informacji to nauka o interaktywnych (wizualnych) reprezentacjach abstrakcyjnych danych w celu poprawy ludzkiego poznania. Dane abstrakcyjne obejmują zarówno dane numeryczne, jak i nienumeryczne, takie jak informacje tekstowe i geograficzne. Jednak wizualizacja informacji różni się od wizualizacji naukowej: „jest informacyjna (wizualizacja informacji), gdy wybrana jest reprezentacja przestrzenna, a scivis (wizualizacja naukowa), gdy podana jest reprezentacja przestrzenna”.

Działa wizualizacji informacji wyłoniła się z badań nad interakcją człowiek-komputer, zastosowaniami informatyki, grafiką, projektowaniem wizualnym, psychologią i metodami biznesowymi. Jest coraz częściej wykorzystywany jako niezbędny element badań naukowych, bibliotek cyfrowych, eksploracji danych, danych finansowych, badań rynku, kontroli produkcji itd.

Metody i zasady

Wizualizacja informacji sugeruje, że metody wizualizacji i interakcji wykorzystują bogactwo ludzkiej percepcji, umożliwiając użytkownikom jednoczesne oglądanie, eksplorowanie i rozumienie dużych ilości informacji. Wizualizacja informacji ma na celu stworzenie podejść do komunikowania abstrakcyjnych danych, informacji w intuicyjny sposób.

Wielowymiarowe skalowanie kolorów
Wielowymiarowe skalowanie kolorów

Analiza danych jest integralną częścią wszystkich badań stosowanych i rozwiązywania problemów w przemyśle. BardzoPodstawowe podejścia do analizy danych to wizualizacja (histogramy, wykresy punktowe, wykresy powierzchniowe, mapy drzew, wykresy współrzędnych równoległych itp.), statystyki (testowanie hipotez, regresja, PCA itp.), analiza danych (dopasowywanie itp.)..d.) i metody uczenia maszynowego (klastrowanie, klasyfikacja, drzewa decyzyjne itp.).

Wśród tych podejść wizualizacja informacji lub wizualna analiza danych są najbardziej zależne od umiejętności poznawczych personelu analitycznego i umożliwiają odkrywanie nieustrukturyzowanych, praktycznych spostrzeżeń, które są ograniczone jedynie ludzką wyobraźnią i kreatywnością. Analityk nie musi uczyć się żadnych skomplikowanych technik, aby móc interpretować wizualizacje danych. Wizualizacja informacji jest również schematem generowania hipotez, któremu zwykle towarzyszy bardziej analityczna lub formalna analiza, taka jak testowanie hipotez statystycznych.

Badanie

Współczesne studia nad wizualizacją rozpoczęły się od grafiki komputerowej, która „od samego początku służyła do badania problemów naukowych. Jednak we wczesnych latach brak mocy graficznej często ograniczał jej użyteczność. rozwijać się w 1987 roku, wraz z wydaniem specjalnego oprogramowania do grafiki komputerowej i wizualizacji w informatyce naukowej. Od tego czasu odbyło się kilka konferencji i warsztatów organizowanych wspólnie przez IEEE Computer Society i ACM SIGGRAPH.

Omówili ogólne tematy wizualizacji danych, wizualizacji informacji i wizualizacji naukowej,a także bardziej szczegółowe obszary, takie jak renderowanie objętości.

Wielowymiarowe skalowanie marki
Wielowymiarowe skalowanie marki

Podsumowanie

Uogólnione skalowanie wielowymiarowe (GMDS) to rozszerzenie metrycznego skalowania wielowymiarowego, w którym przestrzeń docelowa nie jest euklidesowa. Gdy różnice dotyczą odległości na powierzchni, a przestrzeń docelowa jest inną powierzchnią, GMDS umożliwia znalezienie zagnieżdżenia jednej powierzchni w drugiej przy minimalnym zniekształceniu.

GMDS to nowa linia badań. Obecnie główne zastosowania to rozpoznawanie obiektów odkształcalnych (na przykład rozpoznawanie twarzy 3D) i mapowanie tekstur.

Celem skalowania wielowymiarowego jest reprezentowanie danych wielowymiarowych. Dane wielowymiarowe, to znaczy dane, które wymagają więcej niż dwóch lub trzech wymiarów do przedstawienia, mogą być trudne do interpretacji. Jednym z podejść do uproszczenia jest założenie, że dane będące przedmiotem zainteresowania znajdują się w osadzonych nieliniowych rozmaitościach w przestrzeni wielowymiarowej. Jeśli kolektor ma wystarczająco mały wymiar, dane można wizualizować w przestrzeni o małych wymiarach.

Wiele metod nieliniowej redukcji wymiarowości jest powiązanych z metodami liniowymi. Metody nieliniowe można ogólnie podzielić na dwie grupy: te, które zapewniają odwzorowanie (od przestrzeni wysokowymiarowej do osadzania niskowymiarowego lub odwrotnie) oraz te, które po prostu zapewniają wizualizację. W kontekście uczenia maszynowego metody mapowania można postrzegać jako:wstępny etap wyodrębniania cech, po którym stosowane są algorytmy rozpoznawania wzorców. Zwykle te, które po prostu dają wizualizacje, bazują na danych zbliżeniowych – czyli pomiarach odległości. Skalowanie wielowymiarowe jest również dość powszechne w psychologii i innych naukach humanistycznych.

Skalowanie wielowymiarowe po przekątnej
Skalowanie wielowymiarowe po przekątnej

Jeśli liczba atrybutów jest duża, to przestrzeń unikalnych możliwych ciągów jest również wykładniczo duża. Tak więc im większy wymiar, tym trudniejsze staje się zobrazowanie przestrzeni. To powoduje wiele problemów. Algorytmy operujące na danych wielowymiarowych mają zwykle bardzo dużą złożoność czasową. Redukcja danych do mniejszej liczby wymiarów często zwiększa wydajność algorytmów analizy i może pomóc algorytmom uczenia maszynowego w tworzeniu dokładniejszych prognoz. Dlatego tak popularne jest wielowymiarowe skalowanie danych.

Zalecana: