Metoda klastrowania: opis, podstawowe pojęcia, funkcje aplikacji

Spisu treści:

Metoda klastrowania: opis, podstawowe pojęcia, funkcje aplikacji
Metoda klastrowania: opis, podstawowe pojęcia, funkcje aplikacji
Anonim

Metoda grupowania polega na pogrupowaniu zbioru obiektów w taki sposób, aby w tej samej grupie były bardziej do siebie podobne niż obiekty z innych branż. Jest to główne zadanie eksploracji danych i ogólnej techniki analizy statystycznej stosowanej w wielu dziedzinach, w tym w uczeniu maszynowym, rozpoznawaniu wzorców, rozpoznawaniu obrazów, wyszukiwaniu informacji, kompresji danych i grafice komputerowej.

Problem z optymalizacją

przy użyciu metody klastrowania
przy użyciu metody klastrowania

Sama metoda grupowania nie jest jednym konkretnym algorytmem, ale ogólnym zadaniem, które należy rozwiązać. Można to osiągnąć za pomocą różnych algorytmów, które znacznie różnią się w zrozumieniu, co stanowi grupę i jak ją skutecznie znaleźć. Zastosowanie metody grupowania do tworzenia metapodmiotów obejmuje użycie grupy zmałe odległości między elementami, gęste obszary przestrzeni, interwały lub pewne rozkłady statystyczne. Dlatego grupowanie można sformułować jako problem optymalizacji wielokryterialnej.

Właściwe ustawienia metody i parametrów (w tym elementy, takie jak używana funkcja odległości, próg gęstości lub liczba oczekiwanych klastrów) zależą od indywidualnego zestawu danych i zamierzonego wykorzystania wyników. Analiza jako taka nie jest zadaniem automatycznym, ale iteracyjnym procesem odkrywania wiedzy lub interaktywną wielocelową optymalizacją. Ta metoda grupowania obejmuje próby i próby błędów. Często konieczne jest modyfikowanie wstępnego przetwarzania danych i parametrów modelu, dopóki wynik nie osiągnie pożądanych właściwości.

Oprócz terminu „grupowanie” istnieje wiele słów o podobnym znaczeniu, w tym automatyczna klasyfikacja, taksonomia numeryczna, boryologia i analiza typologiczna. Subtelne różnice często polegają na wykorzystaniu metody grupowania do tworzenia relacji metapodmiotowych. Podczas gdy w ekstrakcji danych wynikowe grupy są interesujące, w automatycznej klasyfikacji jest to już siła dyskryminacyjna, która wykonuje te funkcje.

Analiza skupień została oparta na licznych pracach Kroebera z 1932 roku. Został wprowadzony do psychologii przez Zubina w 1938 roku i przez Roberta Tryona w 1939 roku. Prace te były wykorzystywane przez Cattella od 1943 roku do wskazania klasyfikacji metod grupowania w teorii.

Termin

stosowaniemetoda
stosowaniemetoda

Pojęcia „klaster” nie można precyzyjnie zdefiniować. To jeden z powodów, dla których istnieje tak wiele metod grupowania. Istnieje wspólny mianownik: grupa obiektów danych. Jednak różni badacze stosują różne modele. Każde z tych zastosowań metod grupowania obejmuje inne dane. Koncepcja znaleziona przez różne algorytmy różni się znacznie pod względem właściwości.

Korzystanie z metody grupowania jest kluczem do zrozumienia różnic między instrukcjami. Typowe wzorce klastrów obejmują:

  • Centroida s. Dzieje się tak na przykład, gdy grupowanie k-średnich reprezentuje każdy klaster z jednym wektorem średniej.
  • Modele łączności s. Jest to na przykład klastrowanie hierarchiczne, które buduje modele w oparciu o łączność na odległość.
  • Model dystrybucji s. W tym przypadku klastry są modelowane przy użyciu metody grupowania w celu utworzenia rozkładów statystycznych metapodmiotu. Takich jak wielowymiarowa separacja normalna, która ma zastosowanie do algorytmu maksymalizacji oczekiwań.
  • Model gęstości s. Są to na przykład DBSCAN (Algorytm klastrowania przestrzennego z szumem) i OPTICS (Punkty porządkowania wykrywania struktur), które definiują klastry jako połączone gęste regiony w przestrzeni danych.
  • Model podprzestrzenny c. W biklastrowaniu (znanym również jako wspólne klastrowanie lub dwa tryby) grupy są modelowane z obydwoma elementami i odpowiednimi atrybutami.
  • Model s. Niektóre algorytmy nieudoskonalona relacja dla ich metody grupowania w celu generowania wyników metatematycznych i prostego grupowania informacji.
  • Model oparty na wykresie s. Klikę, czyli podzbiór węzłów, tak że każde dwa połączenia w części krawędziowej można uznać za prototyp kształtu klastra. Osłabienie całkowitego popytu nazywamy quasi-klikami. Dokładnie ta sama nazwa jest prezentowana w algorytmie klastrowania HCS.
  • Modele neuronowe s. Najbardziej znaną siecią nienadzorowaną jest samoorganizująca się mapa. I to właśnie te modele można zwykle scharakteryzować jako podobne do jednej lub więcej z powyższych metod grupowania w celu tworzenia wyników metapodmiotowych. Obejmuje systemy podprzestrzenne, gdy sieci neuronowe wdrażają niezbędną formę analizy głównych lub niezależnych komponentów.

Ten termin jest w rzeczywistości zbiorem takich grup, które zwykle zawierają wszystkie obiekty w zestawie metod grupowania danych. Ponadto może wskazywać wzajemne relacje klastrów, takie jak hierarchia wbudowanych w siebie systemów. Grupowanie można podzielić na następujące aspekty:

  • Twarda metoda grupowania centroidów. Tutaj każdy obiekt należy do grupy lub jest poza nią.
  • Miękki lub rozmyty system. W tym momencie każdy obiekt należy już w pewnym stopniu do dowolnego klastra. Jest to również nazywane rozmytą metodą klastrowania c-średnich.

Możliwe są również bardziej subtelne różnice. Na przykład:

  • Ścisłe klastrowanie partycjonowania. Tutajkażdy obiekt należy do dokładnie jednej grupy.
  • Ścisłe klastrowanie partycjonowania z wartościami odstającymi. W takim przypadku obiekty mogą również nie należeć do żadnego klastra i być uważane za niepotrzebne.
  • Nakładające się klastry (również alternatywne, z wieloma widokami). Tutaj obiekty mogą należeć do więcej niż jednej gałęzi. Zazwyczaj dotyczy solidnych klastrów.
  • Hierarchiczne metody grupowania. Obiekty należące do grupy podrzędnej również należą do podsystemu nadrzędnego.
  • Tworzenie podprzestrzeni. Chociaż podobne do nakładających się klastrów, w ramach jednoznacznie zdefiniowanego systemu, wzajemne grupy nie powinny się pokrywać.

Instrukcje

przy użyciu metody grupowania do formowania
przy użyciu metody grupowania do formowania

Jak wspomniano powyżej, algorytmy grupowania można klasyfikować na podstawie ich modelu klastrowego. W poniższym przeglądzie wymienimy tylko najbardziej widoczne przykłady tych instrukcji. Ponieważ może istnieć ponad 100 opublikowanych algorytmów, nie wszystkie zapewniają modele dla swoich klastrów i dlatego nie można ich łatwo sklasyfikować.

Nie ma obiektywnie poprawnego algorytmu grupowania. Ale, jak wspomniano powyżej, instrukcja jest zawsze w polu widzenia obserwatora. Najbardziej odpowiedni algorytm grupowania dla konkretnego problemu często musi być wybrany eksperymentalnie, chyba że istnieje matematyczny powód, aby preferować jeden model nad inny. Należy zauważyć, że algorytm zaprojektowany dla jednego typu zwykle nie działa zzbiór danych, który zawiera radykalnie inny temat. Na przykład k-średnie nie mogą znaleźć grup niewypukłych.

Klastrowanie oparte na połączeniach

metoda grupowania
metoda grupowania

Ten związek jest również znany pod nazwą, model hierarchiczny. Opiera się na typowym założeniu, że obiekty są bardziej połączone z sąsiednimi częściami niż z tymi, które są znacznie dalej. Algorytmy te łączą obiekty, tworząc różne klastry, w zależności od ich odległości. Grupę można opisać głównie za pomocą maksymalnej odległości, jaka jest potrzebna do połączenia różnych części klastra. Na wszystkich możliwych odległościach powstaną inne grupy, które można przedstawić za pomocą dendrogramu. To wyjaśnia, skąd pochodzi powszechna nazwa „grupowanie hierarchiczne”. Oznacza to, że algorytmy te nie zapewniają pojedynczej partycji zbioru danych, ale zapewniają szeroki porządek uprawnień. To dzięki niemu w pewnych odległościach dochodzi do drenażu. Na dendrogramie oś y oznacza odległość, w jakiej gromady się łączą. A obiekty są ułożone wzdłuż linii X, aby grupy się nie mieszały.

Klusterowanie oparte na połączeniach to cała rodzina metod różniących się sposobem obliczania odległości. Oprócz zwykłego wyboru funkcji odległości, użytkownik musi również zdecydować o kryterium połączenia. Ponieważ klaster składa się z kilku obiektów, istnieje wiele możliwości jego obliczania. Popularnym wyborem jest grupowanie jednodźwigniowe, to jest metodapełne łącze, które zawiera UPGMA lub WPGMA (nieważony lub ważony zespół par ze średnią arytmetyczną, znany również jako grupowanie średnich łączy). Ponadto system hierarchiczny może być aglomeracyjny (zaczynając od poszczególnych elementów i łącząc je w grupy) lub dzielący (zaczynając od pełnego zbioru danych i dzieląc go na sekcje).

Rozproszone klastry

metoda grupowania w celu utworzenia
metoda grupowania w celu utworzenia

Te modele są najściślej powiązane ze statystykami opartymi na podziałach. Klastry można łatwo zdefiniować jako obiekty, które najprawdopodobniej należą do tej samej dystrybucji. Przydatną cechą tego podejścia jest to, że jest bardzo podobne do sposobu tworzenia sztucznych zestawów danych. Pobierając losowe obiekty z dystrybucji.

Chociaż podstawy teoretyczne tych metod są doskonałe, cierpią one z powodu jednego kluczowego problemu, zwanego nadmiernym dopasowaniem, chyba że nałożono ograniczenia na złożoność modelu. Większe stowarzyszenie zwykle lepiej wyjaśnia dane, co utrudnia wybór właściwej metody.

Model mieszanki Gaussa

Ta metoda wykorzystuje różnego rodzaju algorytmy maksymalizacji oczekiwań. W tym przypadku zestaw danych jest zwykle modelowany ze stałą (aby uniknąć nadpisania) liczbą rozkładów Gaussa, które są inicjowane losowo i których parametry są iteracyjnie optymalizowane, aby lepiej pasowały do zestawu danych. System ten zbiegnie się do lokalnego optimum. Dlatego kilka biegów może daćróżne wyniki. Aby uzyskać jak najściślejsze grupowanie, obiekty są często przypisywane do rozkładu Gaussa, do którego najprawdopodobniej należą. A w przypadku bardziej miękkich grup nie jest to konieczne.

Klastrowanie oparte na dystrybucji tworzy złożone modele, które mogą ostatecznie uchwycić korelację i zależności między atrybutami. Algorytmy te nakładają jednak na użytkownika dodatkowe obciążenie. W przypadku wielu zbiorów danych ze świata rzeczywistego może nie istnieć zwięźle zdefiniowany model matematyczny (na przykład założenie, że rozkład Gaussa jest dość mocnym założeniem).

Klastrowanie na podstawie gęstości

grupowanie w formę
grupowanie w formę

W tym przykładzie grupy są zasadniczo zdefiniowane jako obszary o większej nieprzepuszczalności niż reszta zestawu danych. Obiekty w tych rzadkich częściach, które są niezbędne do oddzielenia wszystkich komponentów, są zwykle uważane za punkty szumu i krawędzi.

Najpopularniejszą metodą klastrowania opartą na gęstości jest DBSCAN (Algorytm klastrowania szumów przestrzennych). W przeciwieństwie do wielu nowszych metod, ma dobrze zdefiniowany komponent klastra zwany „osiągalnością gęstości”. Podobnie jak w przypadku klastrów opartych na łączach, opiera się ono na punktach połączeń w określonych progach odległości. Jednak ta metoda zbiera tylko te elementy, które spełniają kryterium gęstości. W pierwotnej wersji, zdefiniowanej jako minimalna liczba innych obiektów w tym promieniu, klaster składa się ze wszystkichelementy związane z gęstością (które mogą tworzyć grupę o dowolnej formie, w przeciwieństwie do wielu innych metod) oraz wszystkie obiekty, które znajdują się w dozwolonym zakresie.

Kolejną interesującą właściwością DBSCAN jest to, że jego złożoność jest dość niska - wymaga liniowej liczby zapytań o zakres w bazie danych. Niezwykłe jest również to, że w każdym przebiegu uzyska w zasadzie te same wyniki (jest to deterministyczne dla punktów rdzenia i szumu, ale nie dla elementów brzegowych). Dlatego nie ma potrzeby wielokrotnego uruchamiania.

Główną wadą DBSCAN i OPTICS jest to, że oczekują pewnego spadku gęstości w celu wykrycia granic klastrów. Na przykład w zestawach danych z nakładającymi się rozkładami Gaussa - powszechnym przypadkiem użycia sztucznych obiektów - granice klastrów generowane przez te algorytmy często wydają się arbitralne. Dzieje się tak, ponieważ gęstość grup stale się zmniejsza. A w zestawie danych mieszanin Gaussa algorytmy te prawie zawsze przewyższają metody, takie jak grupowanie EM, które są w stanie dokładnie modelować tego typu systemy.

Średnie przemieszczenie to metoda grupowania, w której każdy obiekt przesuwa się do najgęstszego obszaru w sąsiedztwie w oparciu o oszacowanie całego jądra. W końcu obiekty zbiegają się do lokalnych maksimów nieprzenikalności. Podobnie jak w przypadku grupowania k-średnich, te „atraktory gęstości” mogą służyć jako reprezentanci zbioru danych. Ale średnia zmianapotrafi wykryć dowolnie ukształtowane klastry podobne do DBSCAN. Ze względu na kosztowną procedurę iteracyjną i szacowanie gęstości, średnie przemieszczenie jest zwykle wolniejsze niż DBSCAN lub k-średnie. Ponadto zastosowanie typowego algorytmu przesunięcia do danych wielowymiarowych jest trudne ze względu na niejednolite zachowanie oszacowania gęstości jądra, co prowadzi do nadmiernej fragmentacji ogonów klastra.

Ocena

metoda grupowania do tworzenia metapodmiotu
metoda grupowania do tworzenia metapodmiotu

Weryfikacja wyników grupowania jest tak samo trudna, jak samo grupowanie. Popularne podejścia obejmują punktację „wewnętrzną” (gdzie system jest sprowadzony do pojedynczej miary jakości) i oczywiście punktację „zewnętrzną” (gdzie grupowanie jest porównywane z istniejącą klasyfikacją „podstawowej prawdy”). Ręczny i pośredni wynik eksperta można znaleźć, badając przydatność grupowania w zamierzonym zastosowaniu.

Wewnętrzne flagi mają problem z tym, że reprezentują funkcje, które same w sobie można uznać za cele klastrowania. Na przykład, możliwe jest grupowanie danych podanych przez współczynnik Silhouette, z tym wyjątkiem, że nie ma znanego wydajnego algorytmu, który by to robił. Korzystając z takiej wewnętrznej miary do oceny, lepiej porównać podobieństwo problemów optymalizacyjnych.

Zewnętrzny znak ma podobne problemy. Jeśli istnieją takie etykiety „podstawowej prawdy”, to nie ma potrzeby grupowania. A w praktycznych zastosowaniach zwykle nie ma takich koncepcji. Z drugiej strony etykiety odzwierciedlają tylko jeden możliwy podział zbioru danych, co nie oznacza:że nie ma innego (może nawet lepszego) klastrowania.

Więc żadne z tych podejść nie może ostatecznie ocenić rzeczywistej jakości. Ale to wymaga ludzkiej oceny, która jest wysoce subiektywna. Niemniej jednak takie statystyki mogą być przydatne w identyfikowaniu złych klastrów. Ale nie należy lekceważyć subiektywnej oceny osoby.

Wewnętrzny znak

Gdy wynik grupowania jest oceniany na podstawie danych, które same zostały pogrupowane, jest to określane jako ten termin. Metody te zazwyczaj przypisują najlepszy wynik algorytmowi, który tworzy grupy o wysokim podobieństwie w obrębie i niskim poziomie między grupami. Jedną z wad stosowania kryteriów wewnętrznych w ewaluacji klastrów jest to, że wysokie wyniki niekoniecznie prowadzą do skutecznych aplikacji do wyszukiwania informacji. Ponadto ten wynik jest przesunięty w kierunku algorytmów korzystających z tego samego modelu. Na przykład grupowanie k-średnich w naturalny sposób optymalizuje odległości cech, a oparte na nich wewnętrzne kryterium prawdopodobnie przeszacowuje wynikowe grupowanie.

Dlatego te miary oceny najlepiej nadają się do zorientowania się w sytuacjach, w których jeden algorytm działa lepiej niż inny. Nie oznacza to jednak, że każda informacja daje bardziej wiarygodne wyniki niż inne. Okres ważności mierzony przez taki indeks zależy od stwierdzenia, że struktura istnieje w zbiorze danych. Algorytm opracowany dla niektórych typów nie ma szans, jeśli zestaw zawiera radykalnieinny skład lub jeśli ocena mierzy różne kryteria. Na przykład grupowanie k-średnich może znaleźć tylko skupienia wypukłe, a wiele wskaźników punktacji przyjmuje ten sam format. W zestawie danych z modelami niewypukłymi niewłaściwe jest stosowanie k-średnich i typowych kryteriów oceny.

Ocena zewnętrzna

W przypadku tego rodzaju grupowania wyniki grupowania są oceniane na podstawie danych, które nie zostały użyte do grupowania. To znaczy, takie jak znane etykiety klas i testy zewnętrzne. Takie pytania składają się z zestawu wstępnie sklasyfikowanych pozycji i często są tworzone przez ekspertów (ludzi). W związku z tym zestawy referencyjne mogą być postrzegane jako złoty standard oceny. Te typy metod oceniania mierzą, jak blisko danych klas referencyjnych znajduje się klaster. Jednak ostatnio dyskutowano, czy jest to adekwatne dla danych rzeczywistych, czy tylko dla zestawów syntetycznych z rzeczywistą prawdą podstawową. Ponieważ klasy mogą zawierać strukturę wewnętrzną, a istniejące atrybuty mogą nie pozwalać na rozdzielenie klastrów. Ponadto, z punktu widzenia odkrywania wiedzy, odtworzenie znanych faktów niekoniecznie daje oczekiwany rezultat. W specjalnym ograniczonym scenariuszu grupowania, w którym meta-informacje (takie jak etykiety klas) są już używane w procesie grupowania, zachowanie wszystkich informacji do celów oceny nie jest proste.

Teraz jest jasne, co nie dotyczy metod grupowania i jakie modele są wykorzystywane do tych celów.

Zalecana: