Pojęcie entropii informacyjnej implikuje ujemny logarytm funkcji masy prawdopodobieństwa dla wartości. Zatem, gdy źródło danych ma wartość z mniejszym prawdopodobieństwem (tj. gdy ma miejsce zdarzenie o niskim prawdopodobieństwie), zdarzenie niesie więcej „informacji” („niespodzianka”) niż gdy dane źródłowe mają wartość o wyższym prawdopodobieństwie.
Ilość informacji przekazywanych przez każde zdarzenie zdefiniowane w ten sposób staje się zmienną losową, której oczekiwaną wartością jest entropia informacji. Generalnie entropia odnosi się do nieuporządkowania lub niepewności, a jej definicja stosowana w teorii informacji jest bezpośrednio analogiczna do tej stosowanej w termodynamice statystycznej. Pojęcie IE zostało wprowadzone przez Claude Shannona w swoim artykule z 1948 r. „A Mathematical Theory of Communication”. Stąd wzięło się określenie „informacyjna entropia Shannona”.
Definicja i system
Podstawowy model systemu transmisji danych składa się z trzech elementów: źródła danych, kanału komunikacyjnego i odbiornika,i, jak to ujmuje Shannon, „podstawowy problem z komunikacją” polega na tym, że odbiornik jest w stanie zidentyfikować, jakie dane zostały wygenerowane przez źródło na podstawie sygnału, który otrzymuje przez kanał. Entropia zapewnia bezwzględne ograniczenie możliwie najkrótszej średniej długości kodowania bezstratnego skompresowanych danych źródłowych. Jeśli entropia źródła jest mniejsza niż przepustowość kanału komunikacyjnego, dane, które generuje, mogą być niezawodnie przesyłane do odbiornika (przynajmniej teoretycznie, być może pomijając pewne praktyczne względy, takie jak złożoność systemu wymaganego do przesyłania danych i czas potrzebny na przesłanie danych).
Entropia informacyjna jest zwykle mierzona w bitach (nazywanych alternatywnie "shannonami") lub czasami w "jednostkach naturalnych" (nats) lub miejscach dziesiętnych (nazywanych "dits", "bans" lub "hartleys"). Jednostka miary zależy od podstawy logarytmu, który służy do określenia entropii.
Właściwości i logarytm
Rozkład logarytmiczny prawdopodobieństwa jest użyteczny jako miara entropii, ponieważ jest addytywny dla niezależnych źródeł. Na przykład entropia uczciwego zakładu monety wynosi 1 bit, podczas gdy entropia m-woluminów wynosi m bitów. W prostej reprezentacji log2(n) bitów są potrzebne do reprezentowania zmiennej, która może przyjąć jedną z n wartości, jeśli n jest potęgą 2. Jeśli te wartości są jednakowo prawdopodobne, entropia (w bitach) wynosi równa tej liczbie. Jeżeli jedna z wartości jest bardziej prawdopodobna niż pozostałe, obserwacja, że tak jestpojawia się znaczenie, jest mniej pouczające niż gdyby wystąpił jakiś mniej ogólny wynik. I odwrotnie, rzadsze zdarzenia zapewniają dodatkowe informacje o śledzeniu.
Ponieważ obserwacje mniej prawdopodobnych zdarzeń są rzadsze, nie ma nic wspólnego, że entropia (uważana za informację średnią) uzyskaną z nierównomiernie rozłożonych danych jest zawsze mniejsza lub równa log2(n). Entropia wynosi zero, gdy zdefiniowano jeden wynik.
Entropia informacyjna Shannona określa ilościowo te rozważania, gdy znany jest rozkład prawdopodobieństwa danych źródłowych. Znaczenie obserwowanych zdarzeń (znaczenie komunikatów) nie ma znaczenia w definicji entropii. Ta ostatnia uwzględnia jedynie prawdopodobieństwo zobaczenia konkretnego zdarzenia, więc zawarte w nim informacje są danymi o leżącym u podstaw rozkładzie możliwości, a nie o znaczeniu samych zdarzeń. Właściwości entropii informacji pozostają takie same, jak opisano powyżej.
Teoria informacji
Podstawową ideą teorii informacji jest to, że im więcej się wie na dany temat, tym mniej informacji można na jego temat uzyskać. Jeśli zdarzenie jest bardzo prawdopodobne, nie jest zaskakujące, kiedy ono występuje i dlatego dostarcza niewiele nowych informacji. Odwrotnie, jeśli wydarzenie było nieprawdopodobne, o wiele bardziej pouczające było to, że wydarzenie się wydarzyło. Dlatego ładunek jest rosnącą funkcją odwrotnego prawdopodobieństwa zdarzenia (1 / p).
Teraz, jeśli wydarzy się więcej wydarzeń, entropiamierzy średnią zawartość informacji, jakiej można się spodziewać, jeśli wystąpi jedno ze zdarzeń. Oznacza to, że rzucanie kostką ma większą entropię niż rzucanie monetą, ponieważ każdy wynik kryształu ma mniejsze prawdopodobieństwo niż każdy wynik monety.
Funkcje
Zatem entropia jest miarą nieprzewidywalności stanu lub, co jest tym samym, jego przeciętną zawartością informacyjną. Aby uzyskać intuicyjne zrozumienie tych terminów, rozważ przykład sondażu politycznego. Zwykle takie sondaże mają miejsce, ponieważ wyniki np. wyborów nie są jeszcze znane.
Innymi słowy, wyniki ankiety są stosunkowo nieprzewidywalne, aw rzeczywistości przeprowadzenie jej i zbadanie danych dostarcza nowych informacji; są to po prostu różne sposoby powiedzenia, że wcześniejsza entropia wyników ankiety jest duża.
Teraz rozważmy przypadek, w którym ta sama ankieta jest przeprowadzana po raz drugi wkrótce po pierwszym. Ponieważ wynik pierwszego badania jest już znany, wyniki drugiego badania można dobrze przewidzieć, a wyniki nie powinny zawierać wielu nowych informacji; w tym przypadku entropia a priori drugiego wyniku ankiety jest niewielka w porównaniu z pierwszym.
Rzut monetą
Rozważmy teraz przykład rzutu monetą. Zakładając, że prawdopodobieństwo reszek jest takie samo jak prawdopodobieństwo orła, entropia rzutu monetą jest bardzo wysoka, ponieważ jest to swoisty przykład entropii informacyjnej systemu.
To dlatego, żeże nie da się przewidzieć, że wynik rzucenia monetą zostanie rzucony z wyprzedzeniem: jeśli musimy wybierać, to najlepiej, jak możemy przewidzieć, że moneta wyląduje na reszkach i ta prognoza będzie słuszna z prawdopodobieństwem 1 / 2. Taki rzut monetą ma jeden bit entropii, ponieważ są dwa możliwe wyniki, które mają miejsce z równym prawdopodobieństwem, a badanie rzeczywistego wyniku zawiera jeden bit informacji.
Wręcz przeciwnie, rzucanie monetą przy użyciu obu stron z ogonami i bez orzełków ma zerową entropię, ponieważ moneta zawsze wyląduje na tym znaku, a wynik można dokładnie przewidzieć.
Wniosek
Jeśli schemat kompresji jest bezstratny, co oznacza, że zawsze możesz odzyskać całą oryginalną wiadomość przez dekompresję, wówczas skompresowana wiadomość zawiera taką samą ilość informacji jak oryginał, ale jest przesyłana w mniejszej liczbie znaków. Oznacza to, że ma więcej informacji lub wyższą entropię na postać. Oznacza to, że skompresowana wiadomość ma mniejszą nadmiarowość.
Z grubsza rzecz biorąc, twierdzenie Shannona o kodowaniu kodu źródłowego stwierdza, że schemat bezstratnej kompresji nie może zredukować wiadomości średnio tak, aby zawierały więcej niż jeden bit informacji na bit wiadomości, ale można uzyskać dowolną wartość mniejszą niż jeden bit informacji na bit wiadomości przy użyciu odpowiedniego schematu kodowania. Entropia wiadomości w bitach razy jej długość jest miarą tego, ile zawiera ogólnych informacji.