Analiza tekstu częstotliwości: cechy i przykłady

Spisu treści:

Analiza tekstu częstotliwości: cechy i przykłady
Analiza tekstu częstotliwości: cechy i przykłady
Anonim

Spotkałeś się z tą koncepcją więcej niż raz w życiu, jeśli musiałeś pracować z tekstami. W szczególności możesz skorzystać z kalkulatorów internetowych, które przeprowadzają dokładnie analizę częstotliwości tekstu. Te przydatne narzędzia pokazują, ile razy dany znak lub litera występuje w dowolnym fragmencie tekstu. Często pokazywany jest również procent. Dlaczego jest to potrzebne? Jak analiza częstotliwości tekstu przyczynia się do „łamania” prostych szyfrów? Jaka jest jego istota, kto ją wymyślił? Na te i inne ważne pytania na ten temat odpowiemy w trakcie artykułu.

Definicja

Analiza częstotliwości jest jedną z odmian kryptoanalizy. Opiera się na założeniu naukowców o istnieniu statystycznego nietrywialnego rozkładu poszczególnych znaków i ich regularnych sekwencji zarówno w tekście zwykłym, jak i zaszyfrowanym.

Uważa się, że taka dystrybucja, aż do zastąpienia poszczególnych znaków, zostanie również zachowana w procesach szyfrowania/odszyfrowywania.

analiza częstotliwości systemów
analiza częstotliwości systemów

Charakterystyka procesu

Teraz spójrzmy na analizę częstotliwości w prostych słowach. Oznacza to, że liczba wystąpień tego samego znaku alfabetu w tekstach o wystarczającej długości jest taka sama w różnych tekstach napisanych w tym samym języku.

A teraz co z szyfrowaniem monoalfabetycznym? Zakłada się, że jeśli w sekcji z tekstem zaszyfrowanym występuje znak o podobnym prawdopodobieństwie wystąpienia, to realistyczne jest założenie, że jest to ta zaszyfrowana litera.

Zwolennicy analizy tekstu częstotliwości stosują to samo rozumowanie do dygramów (sekwencji dwóch liter). Trygramy - dotyczy to już szyfrów wieloalfabetycznych.

Historia metody

Analiza częstotliwości słów nie jest odkryciem nowoczesności. Znany jest światu naukowemu od IX wieku. Jego powstanie wiąże się z nazwą Al-Kindi.

Ale znane przypadki zastosowania metody analizy częstotliwości należą do znacznie późniejszego okresu. Najbardziej uderzającym przykładem jest tutaj rozszyfrowanie egipskich hieroglifów, sporządzone w 1822 r. przez J.-F. Champollion.

Jeśli przejdziemy do fikcji, możemy znaleźć wiele interesujących odniesień do tej metody deszyfrowania:

  • Conan Doyle - "Tańczący mężczyźni".
  • Jules Verne - „Dzieci kapitana Granta”.
  • Edgar Poe - "Złoty Robak".

Jednak od połowy ubiegłego wieku większość algorytmów używanych w szyfrowaniu została opracowana z uwzględnieniem ich odporności na taką kryptoanalizę częstotliwości. Dlatego todziś są najczęściej używane tylko do szkolenia przyszłych kryptografów.

analiza częstotliwości tekstu
analiza częstotliwości tekstu

Podstawowa metoda

Przedstawimy teraz szczegółowo analizę odpowiedzi częstotliwościowej. Ten rodzaj analizy opiera się bezpośrednio na fakcie, że test składa się ze słów, a te z kolei z liter. Liczba liter wypełniających alfabety narodowe jest ograniczona. Listy można po prostu wymienić tutaj.

Najważniejszymi cechami takiego tekstu będzie zarówno powtarzanie liter, różne biggramy, trygramy i n-gramy, jak i zgodność różnych liter ze sobą, przemienność spółgłosek/samogłosek i innych odmiany tych symboli.

Główną ideą metod jest zliczanie wystąpień możliwych n-gramów (oznaczonych przez nm) w tekstach jawnych wystarczająco długich do analizy (oznaczonych przez T=t1t2…tl) złożonych z liter alfabetu narodowego (oznaczone przez {a1, a2, …, an}). Wszystko to powoduje kilka kolejnych m-gramów tekstu:

t1t2…tm, t2t3…tm+1,…,ti-m+1tl-m+2…tl.

Jeżeli jest to liczba wystąpień m-gramu ai1ai2…aim w określonym tekście T, a L jest całkowitą liczbą m-gramów przeanalizowanych przez badacza, to można empirycznie ustalić, że dla wystarczająco duże L, częstotliwości dla takiego m-gramu będą się nieznacznie różnić od siebie.

analiza częstotliwości
analiza częstotliwości

Często występujące litery alfabetu rosyjskiego

Ale analiza czasowo-częstotliwościowa, pomimo podobnej nazwy, nie ma nic wspólnego z tematem naszej rozmowy. Ten rodzaj analizy jest przeprowadzany dlasygnały ze stacji radarowych słabo obserwowalnych za pomocą specjalnej transformacji falkowej.

Wróćmy teraz do głównego tematu. Przeprowadzając analizę częstotliwości, możesz dowiedzieć się, które litery alfabetu rosyjskiego najczęściej występują w dość obszernych tekstach (procent od 0,062 do 0,018):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sz.
  • b.
  • E.
  • I.

Wprowadzono nawet specjalną regułę mnemoniczną, która pomaga w nauce najpopularniejszych liter alfabetu rosyjskiego. Aby to zrobić, wystarczy zapamiętać tylko jedno słowo - "hayloft".

W ogólnych przypadkach częstotliwość używania liter jest ustalana w prosty sposób: specjalista liczy, ile razy litera występuje w tekście, a następnie dzieli wynikową wartość przez całkowitą liczbę znaków w tekście. Aby wyrazić tę wartość w procentach, wystarczy pomnożyć ją przez 100.

Ważne jest, aby wziąć pod uwagę, że częstotliwość będzie zależeć nie tylko od objętości tekstu, ale także od jego charakteru. Na przykład w źródłach technicznych litera „F” pojawia się znacznie częściej niż w fikcji. Dlatego, aby uzyskać obiektywne wyniki, specjalista musi wpisać do badań teksty o różnym charakterze i stylu.

programy do analizy częstotliwości tekstów
programy do analizy częstotliwości tekstów

Bi-, tri-, cztery gramy

W sensownych tekstach można również znaleźć najpopularniejsze (odpowiednio najbardziejpowtarzane) kombinacje dwóch lub więcej liter. Specjaliści przygotowali również kilka tabel, które wskazują częstości występowania podobnych wykresów różnych alfabetów.

Jeśli chodzi o język rosyjski, analiza częstotliwości systemów obszernych, znaczących tekstów umożliwiła ustalenie najczęstszych dwuznaczników i trygramów:

  • PL.
  • ST.
  • ALE.
  • NIE.
  • WŁ.
  • RA.
  • O.
  • KO.
  • VO.
  • STO.
  • NOWOŚĆ
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Preferowane relacje między literami

I to nie wszystkie możliwości, jakie analiza częstotliwości może dać badaczom tekstu. Dzięki usystematyzowaniu informacji z podobnych tabel bigram i trygramów możliwe jest wyodrębnienie danych o najczęstszych kombinacjach liter. Innymi słowy, ich preferowane relacje między sobą.

Tak szeroko zakrojone badanie zostało już przeprowadzone przez ekspertów. Jej wynikiem była tabela, w której przy każdej literze alfabetu wskazano jej sąsiadów. Co więcej, te postacie, które często znajdują się zarówno bezpośrednio przed nim, jak i po nim. Litery w tabeli nie są napisane przypadkowo. Bliżej symbolu wskazani są najczęstsi sąsiedzi, dalej - rzadsi.

Rozważ przykłady:

  • Litera „A”. Wyróżnia się tutaj następujące preferowane połączenia: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Stąd widzimy, że najczęściej przed „A” w tekstach znajduje się „H” („NA”). A po „A” najczęściej w tekstach w języku rosyjskim możemy spotkać „L”(„AL”).
  • Litera „M”. Eksperci zidentyfikowali takie preferowane połączenia: „I-s-a-i-e-o-M-i-e-o-u-a-n-p-s”.
  • Litera „b”. Preferowane połączenia to: „n-s-t-l-b-n-k-v-p-s-e-o-i”.
  • Litera "Sz". Preferowane połączenia: "e-b-a-i-u-Sch-e-i-a".
  • Litera „P”. Preferowane połączenia z tym symbolem alfabetu rosyjskiego: „v-s-u-a-i-e-o-P-o-r-e-a-u-i-l”.
analiza czasowo-częstotliwościowa
analiza czasowo-częstotliwościowa

Co definiuje analizę?

Nowoczesne programy do analizy tekstu częstotliwości pomagają studiować duże tomy szerokiej gamy artykułów, esejów, fragmentów i tak dalej. Następujące informacje są standardowo dostarczane badaczowi:

  • Całkowita liczba znaków w tekście.
  • Liczba spacji użytych przez autora.
  • Liczba cyfr.
  • Informacje o używanych znakach interpunkcyjnych - kropki, przecinki itp.
  • Liczba liter w każdym z dostępnych alfabetów - cyrylicy, łacinie itp.
  • Informacja o częstotliwości użycia każdej litery i symbolu w tekście - liczba wzmianek i procent w stosunku do całego tekstu.

Walka z nadmierną optymalizacją i przesyceniem

Dlaczego przeprowadzana jest analiza częstotliwości tekstu? Czy to tylko z ciekawości – ustalić, które postacie w tekście pisanym okazały się często spotykane? Nie, główne zastosowanie analizy jest praktyczne i leży gdzie indziej.

N-gramy obejmują nie tylko stabilne bigramy i trygramy. Do tego samegokategorie obejmują słowa kluczowe (tagi), kolokacje. To znaczy stabilne kombinacje składające się z dwóch lub więcej słów. Wyróżnia je fakt, że takie kompozycje występują w tekście razem i jednocześnie niosą ze sobą pewien ładunek semantyczny.

To gra w ręce pozbawionych skrupułów specjalistów SEO. W swojej pracy czasami nadużywają powtórzeń tagów i słów kluczowych w tekście, aby sztucznie zwiększyć trafność danej strony internetowej. Próbują oszukać system taką „sztuczką”: zamieniając naturalną kombinację ze zwykłą kombinacją słów, tradycyjną dla języka rosyjskiego („kup futro z norek”) w niespójną. Oznacza to, że uzyskuje się je poprzez przearanżowanie słów w taki naturalny N-gram („kup futro z norek”).

Ale dzisiaj algorytmy wyszukiwania nauczyły się wykrywać nadmierną optymalizację równie skutecznie, jak nadmiar spamu – przesycenie tekstu słowami kluczowymi, tagami, które wpływają na ranking wyników na stronie wyszukiwania. Przeciwnie, nadmiernie zoptymalizowane strony znajdują się teraz niżej w rankingu według zapytania użytkownika. A sami ludzie nie czytają bezsensownego, przesyconego tekstem tagów, preferując przydatne informacje w innym zasobie.

metoda analizy częstotliwości
metoda analizy częstotliwości

Pomoc w prywatnej analizie dla specjalistów SEO

W ten sposób współczesne filtry tekstu w wyszukiwarkach dają pierwszeństwo tym stronom internetowym, na których informacje są nie tylko łatwe do odczytania, ale także przydatne dla odwiedzających. Aby zoptymalizować swoją pracę pod kątem nowych standardów, specjaliści SEOi przejdź do analizy częstotliwości tekstu. Wiele popularnych usług zapewnia to dzisiaj.

Analiza częstotliwości pomaga przejrzeć tekst przygotowywany do publikacji pod kątem informacyjnym. Wyeliminuj niepotrzebną nadmiarowość tagów i fraz kluczowych. Pozwala także zwrócić uwagę autora na nienaturalne kombinacje słów, które budzą podejrzenia w tekstowych filtrach wyszukiwarek.

analiza odpowiedzi częstotliwościowej
analiza odpowiedzi częstotliwościowej

Analiza częstotliwości tekstu pomaga zatem określić częstotliwość wzmianek o określonej postaci w źródle. Metoda jest obecnie używana do oceny przeciążenia tekstu tagami, nienaturalnymi permutacjami słów.

Zalecana: