Sieci bayesowskie: definicja, przykłady i sposób ich działania

2026 Autor: Angel Austin | austin@vogueindustry.com. Ostatnio zmodyfikowany: 2025-01-23 12:29:44

Przekonanie, sieć decyzyjna, model bayesowski (ian) lub model grafu acyklicznego opartego na probabilistyce to schemat wariantowy (rodzaj modelu statystycznego), który reprezentuje zestaw zmiennych i ich warunkowe zależności poprzez ukierunkowany graf acykliczny (DAG).

Na przykład sieć bayesowska może reprezentować probabilistyczne relacje między chorobami a objawami. Biorąc pod uwagę to drugie, sieć można wykorzystać do obliczenia możliwości zachorowania na różne choroby. Na poniższym filmie możesz zobaczyć przykład sieci wierzeń bayesowskich z obliczeniami.

Wydajność

Wydajne algorytmy mogą przeprowadzać wnioskowanie i uczenie się w sieciach bayesowskich. Sieci modelujące zmienne (takie jak sygnały mowy lub sekwencje białek) nazywane są sieciami dynamicznymi. Uogólnienia sieci bayesowskich, które mogą reprezentować i rozwiązywać problemy w warunkach niepewności, nazywane są diagramami wpływu.

Esencja

FormalnieSieci bayesowskie to DAG-y, których węzły reprezentują zmienne w sensie bayesowskim: mogą to być obserwowane wartości, ukryte zmienne, nieznane parametry lub hipotezy. Bo to bardzo ciekawe.

Przykład sieci bayesowskiej

Dwa zdarzenia mogą spowodować zmoknięcie trawy: aktywny zraszacz lub deszcz. Deszcz ma bezpośredni wpływ na użytkowanie zraszacza (a mianowicie, że gdy pada, zraszacz jest zwykle nieaktywny). Sytuację tę można modelować za pomocą sieci bayesowskiej.

Symulacja

Ponieważ sieć bayesowska jest kompletnym modelem dla swoich zmiennych i ich relacji, może być używana do odpowiadania na pytania probabilistyczne na ich temat. Na przykład można go wykorzystać do aktualizacji wiedzy o stanie podzbioru zmiennych, gdy obserwowane są inne dane (zmienne dowodowe). Ten interesujący proces nazywa się wnioskowaniem probabilistycznym.

A posteriori daje uniwersalnie wystarczającą statystykę dla aplikacji wykrywających podczas wybierania wartości dla podzbioru zmiennych. Tak więc algorytm ten można uznać za mechanizm automatycznego stosowania twierdzenia Bayesa do złożonych problemów. Na zdjęciach w artykule możesz zobaczyć przykłady bayesowskich sieci przekonań.

Metody wyjściowe

Najczęstsze metody wnioskowania dokładnego to: eliminacja zmiennych, która eliminuje (przez całkowanie lub sumowanie) to, co nieobserwowalneparametry niezwiązane z zapytaniem jeden po drugim przez przypisanie kwoty do produktu.

Kliknij propagację „drzewa”, które buforuje obliczenia, dzięki czemu można odpytywać wiele zmiennych naraz, a nowe dowody mogą być szybko propagowane; oraz rekurencyjne dopasowywanie i/lub wyszukiwanie, które pozwalają na kompromisy między przestrzenią a czasem i dopasowują skuteczność eliminacji zmiennych, gdy jest używana wystarczająca ilość miejsca.

Wszystkie te metody mają szczególną złożoność, która zależy wykładniczo od długości sieci. Najczęstsze algorytmy wnioskowania przybliżonego to eliminacja minisegmentów, cykliczna propagacja przekonań, uogólniona propagacja przekonań i metody wariacyjne.

Sieć

Aby w pełni określić sieć bayesowską, a tym samym w pełni przedstawić łączny rozkład prawdopodobieństwa, konieczne jest określenie dla każdego węzła X rozkładu prawdopodobieństwa X ze względu na rodziców X.

Podział X warunkowo przez jego rodziców może mieć dowolną formę. Często pracuje się z rozkładami dyskretnymi lub Gaussa, ponieważ upraszcza to obliczenia. Czasami znane są tylko ograniczenia dystrybucji. Następnie możesz użyć entropii do określenia pojedynczego rozkładu, który ma najwyższą entropię, biorąc pod uwagę ograniczenia.

Podobnie, w specyficznym kontekście dynamicznej sieci bayesowskiej, rozkład warunkowy dla czasowej ewolucji utajonejstan jest zwykle ustawiony na maksymalizację szybkości entropii dorozumianego procesu losowego.

Bezpośrednia maksymalizacja prawdopodobieństwa (lub prawdopodobieństwa a posteriori) jest często trudna, biorąc pod uwagę obecność nieobserwowanych zmiennych. Dotyczy to zwłaszcza Bayesowskiej sieci decyzyjnej.

Klasyczne podejście

Klasyczne podejście do tego problemu to algorytm maksymalizacji oczekiwań, który naprzemiennie oblicza oczekiwane wartości nieobserwowanych zmiennych zależnych od obserwowanych danych z maksymalizacją całkowitego prawdopodobieństwa (lub wartości a posteriori), zakładając, że wcześniej obliczona wartość oczekiwana wartości są poprawne. W warunkach umiarkowanej regularności proces ten zbiega się w maksymalnych (lub maksymalnych a posteriori) wartościach parametrów.

Bardziej kompletne podejście bayesowskie do parametrów polega na potraktowaniu ich jako dodatkowych nieobserwowanych zmiennych i obliczeniu pełnego rozkładu a posteriori we wszystkich węzłach na podstawie zaobserwowanych danych, a następnie zintegrowanie parametrów. Takie podejście może być kosztowne i skutkować dużymi modelami, czyniąc klasyczne podejście do strojenia parametrów bardziej dostępnym.

W najprostszym przypadku sieć bayesowska jest definiowana przez eksperta, a następnie używana do wnioskowania. W innych aplikacjach zadanie określenia jest zbyt trudne dla człowieka. W tym przypadku struktura sieci neuronowej bayesowskiej i parametry rozkładów lokalnych muszą być poznane wśród danych.

Metoda alternatywna

Alternatywna metoda uczenia strukturalnego wykorzystuje wyszukiwanie optymalizujące. Wymaga to zastosowania funkcji oceny i strategii wyszukiwania. Powszechnym algorytmem punktacji jest prawdopodobieństwo a posteriori struktury z danymi treningowymi, takimi jak BIC lub BDeu.

Czas wymagany do wyczerpującego wyszukiwania zwracającego strukturę, która maksymalizuje wynik jest superwykładniczy pod względem liczby zmiennych. Lokalna strategia wyszukiwania wprowadza stopniowe zmiany w celu poprawy szacowania struktury. Friedman i jego koledzy rozważali wykorzystanie wzajemnych informacji między zmiennymi w celu znalezienia pożądanej struktury. Ograniczają zbiór nadrzędnych kandydatów do k węzłów i dokładnie je przeszukują.

Szczególnie szybką metodą dokładnego badania BN jest wyobrażenie sobie problemu jako problemu optymalizacyjnego i rozwiązanie go za pomocą programowania całkowitoliczbowego. Ograniczenia acykliczności są dodawane do programu liczb całkowitych (IP) podczas rozwiązywania w postaci płaszczyzn cięcia. Taka metoda radzi sobie z problemami do 100 zmiennych.

Rozwiązywanie problemów

Aby rozwiązać problemy z tysiącami zmiennych, potrzebne jest inne podejście. Najpierw należy wybrać jedno zamówienie, a następnie znaleźć optymalną strukturę BN w odniesieniu do tego zamówienia. Wiąże się to z pracą w przestrzeni poszukiwań ewentualnego porządkowania, co jest wygodne, ponieważ jest mniejsze niż przestrzeń struktur sieciowych. Następnie wybieranych i ocenianych jest kilka zamówień. Ta metoda się sprawdziłanajlepiej dostępne w literaturze, gdy liczba zmiennych jest ogromna.

Inną metodą jest skupienie się na podklasie modeli rozkładalnych, dla których MLE są zamknięte. Następnie możesz znaleźć spójną strukturę dla setek zmiennych.

Badanie sieci bayesowskich o ograniczonej szerokości trzech linii jest konieczne, aby zapewnić dokładne, możliwe do interpretacji wnioskowanie, ponieważ złożoność najgorszego przypadku tych ostatnich jest wykładnicza w długości drzewa k (zgodnie z hipotezą czasu wykładniczego). Jednak jako globalna właściwość grafu znacznie zwiększa złożoność procesu uczenia się. W tym kontekście K-drzewo może być wykorzystywane do efektywnej nauki.

Rozwój

Rozwój Bayesian Web of Trust często zaczyna się od utworzenia DAG G tak, że X spełnia lokalną właściwość Markowa w odniesieniu do G. Czasami jest to przyczynowy DAG. Szacuje się rozkłady prawdopodobieństwa warunkowego każdej zmiennej nad jej rodzicami w G. W wielu przypadkach, w szczególności gdy zmienne są dyskretne, jeśli łączny rozkład X jest iloczynem tych rozkładów warunkowych, wtedy X staje się siecią bayesowską w odniesieniu do G.

Koc z węzła Markowa to zestaw węzłów. Kołdra Markowa uniezależnia węzeł od reszty pustej części węzła o tej samej nazwie i jest wystarczającą wiedzą do obliczenia jego rozkładu. X jest siecią bayesowską względem G, jeśli każdy węzeł jest warunkowo niezależny od wszystkich innych węzłów, biorąc pod uwagę jego markowskąkoc.