Co to jest lingwistyka korpusowa?

Spisu treści:

Co to jest lingwistyka korpusowa?
Co to jest lingwistyka korpusowa?
Anonim

Kilka dekad temu naukowcy mogli tylko pomarzyć o automatyzacji badań językowych. Praca była wykonywana ręcznie, brała w niej udział duża liczba uczniów, istniało spore prawdopodobieństwo błędu „nieuwagi”, a co najważniejsze, wszystko to zajęło bardzo dużo czasu.

Wraz z rozwojem technologii komputerowej możliwe stało się prowadzenie badań znacznie szybciej, a dziś jednym z obiecujących obszarów nauki o języku jest lingwistyka korpusowa. Jego główną cechą jest wykorzystanie dużej ilości informacji tekstowych, skonsolidowanych w jedną bazę danych, specjalnie oznaczonych i nazywanych korpusem.

Dzisiaj istnieje wiele korpusów stworzonych do różnych celów, opartych na różnych materiałach językowych, obejmujących od milionów do dziesiątek miliardów jednostek leksykalnych. Kierunek ten jest uznawany za obiecujący i wykazuje znaczny postęp w osiąganiu celów stosowanych i badawczych. Profesjonaliści, w taki czy inny sposób zajmujący sięjęzyka naturalnego, zalecane jest zapoznanie się z korpusami tekstów przynajmniej na poziomie podstawowym.

Historia lingwistyki korpusowej

Powstanie tego kierunku wiąże się z powstaniem Brown Corps w USA na początku lat 60. ubiegłego wieku. Zbiór tekstów liczył zaledwie 1 milion form słownych, a dziś korpus takiego tomu byłby zupełnie niekonkurencyjny. Wynika to w dużej mierze z tempa rozwoju technologii komputerowych, a także rosnącego zapotrzebowania na nowe zasoby badawcze.

W latach 90. językoznawstwo korpusowe uformowało się w pełnoprawną i niezależną dyscyplinę, skompilowano i oznaczono zbiory tekstów dla kilkudziesięciu języków. W tym okresie, na przykład, utworzono British National Corpus dla 100 milionów użycia słów.

lingwistyka korpusowa
lingwistyka korpusowa

W miarę rozwoju tego kierunku językoznawstwa, objętość tekstów staje się coraz większa (i sięga miliardów jednostek słownictwa), a znaczniki stają się coraz bardziej zróżnicowane. Dziś w przestrzeni internetowej można znaleźć korpusy mowy pisanej i ustnej, wielojęzyczne i edukacyjne, skupione na beletrystyce czy literaturze naukowej, a także wielu innych odmianach.

Jakie są przypadki

Typy korpusowe w lingwistyce korpusowej mogą być reprezentowane na kilka sposobów. Intuicyjnie widać, że podstawą klasyfikacji może być język tekstów (rosyjski, niemiecki), tryb dostępu (open source, zamknięte, komercyjny), gatunek materiału źródłowego (fikcja).literatura, dokument, nauka, dziennikarstwo).

metody lingwistyki korpusowej
metody lingwistyki korpusowej

W ciekawy sposób przeprowadzane jest generowanie materiałów reprezentujących mowę ustną. Ponieważ celowe nagranie takiej wypowiedzi stwarzałoby respondentom sztuczne warunki, a powstałego materiału nie można nazwać „spontanicznym”, współczesna lingwistyka korpusowa poszła w drugą stronę. Wolontariusz wyposażony jest w mikrofon, a w ciągu dnia nagrywane są wszystkie rozmowy, w których uczestniczy. Otaczający ludzie oczywiście nie mogą wiedzieć, że w toku codziennej rozmowy przyczyniają się do rozwoju nauki.

Później odebrane nagrania dźwiękowe są przechowywane w banku danych i towarzyszy im drukowany tekst, taki jak transkrypcja. W ten sposób znaczniki potrzebne do stworzenia korpusu codziennej mowy mówionej stają się możliwe.

Aplikacja

Tam, gdzie można używać języka, można również używać korpusów tekstowych. Celem stosowania metod korpusowych w językoznawstwie może być:

  • Tworzenie programów nastrojów, które są szeroko stosowane w polityce i biznesie, aby śledzić, odpowiednio, pozytywne i negatywne opinie od wyborców i klientów.
  • Podłączanie systemu informacyjnego do słowników i tłumaczy w celu poprawy ich wydajności.
  • Różne zadania badawcze, które przyczyniają się do zrozumienia struktury języka, historii jego rozwoju oraz przewidywania jego zmian w najbliższej przyszłości.
  • Rozwój systemów ekstrakcji informacji opartych na morfologii,składniowe, semantyczne i inne cechy.
  • Optymalizacja pracy różnych systemów językowych itp.

Korzystanie z muszli

Interfejs zasobów jest podobny do typowej wyszukiwarki i prosi użytkownika o wprowadzenie jakiegoś słowa lub kombinacji słów w celu przeszukania bazy informacji. Oprócz dokładnego formularza zapytania, możesz skorzystać z wersji rozszerzonej, która pozwala na wyszukiwanie informacji tekstowych według niemal dowolnych kryteriów językowych.

lingwistyka komputerowa i korpusowa
lingwistyka komputerowa i korpusowa

Podstawą wyszukiwania może być:

  • należące do określonej grupy części mowy;
  • funkcje gramatyczne;
  • semantyka;
  • kolorystyka stylistyczna i emocjonalna.

Możesz również łączyć kryteria wyszukiwania dla sekwencji słów: na przykład znaleźć wszystkie wystąpienia czasownika w czasie teraźniejszym, pierwszej osobie, liczbie pojedynczej, po której następuje przyimek "w" i rzeczownik w bierniku. Rozwiązanie tak prostego zadania zajmuje użytkownikowi kilka sekund i wymaga jedynie kilku kliknięć myszką w dane pola.

Proces tworzenia

Samo wyszukiwanie można przeprowadzić zarówno we wszystkich podkorpusach, jak i w jednym, konkretnie wybranym, w zależności od potrzeb przy realizacji określonego celu:

  1. Przede wszystkim określa się, które teksty będą stanowić podstawę korpusu. W celach praktycznych często wykorzystywane są materiały dziennikarskie, prasowe, komentarze internetowe. W projektach badawczych najwięcejróżne rodzaje korpusów, ale teksty muszą być dobierane na jakiejś wspólnej podstawie.
  2. Wynikowy zestaw tekstów jest wstępnie przetwarzany, ewentualne błędy są korygowane, przygotowywany jest opis bibliograficzny i pozajęzykowy tekstu.
  3. Wszystkie informacje nietekstowe są odfiltrowywane: grafiki, obrazy, tabele są usuwane.
  4. Tokeny, zwykle słowa, są przydzielane do dalszego przetwarzania.
  5. Na koniec przeprowadzane są znaczniki morfologiczne, składniowe i inne otrzymanego zestawu elementów.

Wynikiem wszystkich wykonanych operacji jest struktura syntaktyczna z rozłożonymi na niej zbiorem elementów, dla których zdefiniowana jest część mowy, cechy gramatyczne i, w niektórych przypadkach, semantyczne.

Trudności w tworzeniu spraw

Ważne jest, aby zrozumieć, że aby otrzymać korpus, nie wystarczy złożyć ze sobą wiele słów lub zdań. Z jednej strony zbiór tekstów musi być zrównoważony, czyli przedstawiać różne typy tekstów w określonych proporcjach. Z drugiej strony zawartość sprawy musi być oznaczona w specjalny sposób.

Językoznawstwo korpusowe Zacharowa
Językoznawstwo korpusowe Zacharowa

Pierwszy problem jest rozwiązywany w drodze porozumienia: na przykład zbiór zawiera 60% tekstów beletrystycznych, 20% filmów dokumentalnych, pewna część jest przeznaczona na pisemną prezentację przemówień ustnych, akty ustawodawcze, artykuły naukowe itp. Idealny przepis na zrównoważony korpus dzisiaj nie istnieje.

Drugie pytanie dotyczące znaczników treści jest trudniejsze do rozwiązania. Istnieją specjalne programy i algorytmy służące do automatycznego oznaczania tekstów, ale nie dają 100% wyniku, mogą powodować awarie i wymagają ręcznego dopracowania. Szanse i problemy w rozwiązaniu tego problemu zostały szczegółowo opisane w pracy W. P. Zacharowa na temat językoznawstwa korpusowego.

Znakowanie tekstu odbywa się na kilku poziomach, które wymienimy poniżej.

Znaczniki morfologiczne

Z ławki szkolnej pamiętamy, że w języku rosyjskim są różne części mowy, a każda z nich ma swoją własną charakterystykę. Na przykład czasownik ma kategorie nastroju i czasu, których nie ma rzeczownik. Native speaker bez wahania odrzuca rzeczowniki i odmienia czasowniki, ale praca fizyczna nie nadaje się do zaznaczenia zbioru 100 milionów słów. Wszystkie niezbędne operacje może wykonać komputer, jednak do tego trzeba go nauczyć.

Znaczniki morfologiczne są niezbędne, aby komputer "zrozumieł" każde słowo jako część mowy, która ma pewne cechy gramatyczne. Ponieważ w języku rosyjskim (jak w każdym innym) funkcjonuje szereg regularnych reguł, możliwe jest zbudowanie automatycznej procedury analizy morfologicznej poprzez wprowadzenie do maszyny szeregu algorytmów. Istnieją jednak wyjątki od reguły, a także różne czynniki komplikujące. W rezultacie czysta analiza komputerowa jest dziś daleka od ideału, a nawet 4% błędów daje wartość 4 milionów słów w korpusie 100 milionów jednostek, co wymaga ręcznego dopracowania.

Ten problem jest szczegółowo opisany w książce V. P. Zacharowa „Lingwistyka korpusowa”.

Znaczniki składniowe

Analiza składniowa lub parsowanie to procedura, która określa związek słów w zdaniu. Za pomocą zestawu algorytmów możliwe staje się określenie tematu, predykatu, dodatków i różnych zwrotów mowy w tekście. Dzięki ustaleniu, które słowa w sekwencji są główne, a które zależne, możemy wydajnie wyodrębnić informacje z tekstu i nauczyć maszynę zwracania tylko tych informacji, którymi jesteśmy zainteresowani w odpowiedzi na żądanie wyszukiwania.

laboratoria lingwistyki korpusowej na rosyjskich uniwersytetach
laboratoria lingwistyki korpusowej na rosyjskich uniwersytetach

Nawiasem mówiąc, nowoczesne wyszukiwarki używają tego do podawania konkretnych liczb zamiast długich tekstów w odpowiedzi na trafne zapytania, takie jak: „ile kalorii ma jabłko” lub „odległość z Moskwy do Petersburga”. Aby jednak zrozumieć nawet podstawy opisanego procesu, będziesz musiał zapoznać się z „Wprowadzeniem do językoznawstwa korpusowego” lub innym podstawowym podręcznikiem.

Znacznik semantyczny

Semantyka słowa to w uproszczeniu jego znaczenie. Szeroko stosowanym podejściem w analizie semantycznej jest przypisywanie słowu znaczników, odzwierciedlających jego przynależność do zbioru kategorii i podkategorii semantycznych. Takie informacje są cenne dla optymalizacji algorytmów analizy sentymentu tekstu, automatycznego odwoływania się i wykonywania innych zadań przy użyciu metod lingwistyki korpusowej.

Istnieje wiele „korzeni” drzewa, które są abstrakcyjnymi słowami, które mająbardzo szeroka semantyka. W miarę jak gałęzie tego drzewa tworzą się węzły zawierające coraz bardziej szczegółowe elementy leksykalne. Na przykład słowo „stworzenie” może kojarzyć się z takimi pojęciami jak „człowiek” i „zwierzę”. Pierwsze słowo będzie dalej rozgałęziać się na różne zawody, warunki pokrewieństwa, narodowości, a drugie - na klasy i typy zwierząt.

Korzystanie z systemów wyszukiwania informacji

Sfery zastosowania językoznawstwa korpusowego obejmują szeroki wachlarz obszarów działalności. Corpora służą do kompilowania i poprawiania słowników, tworzenia systemów automatycznego tłumaczenia, podsumowywania, wydobywania faktów, określania sentymentu i innego przetwarzania tekstu.

lingwistyka korpusowa typy korpusowe
lingwistyka korpusowa typy korpusowe

Ponadto takie zasoby są aktywnie wykorzystywane w badaniu języków świata i mechanizmów funkcjonowania języka jako całości. Dostęp do dużej ilości wcześniej przygotowanych informacji przyczynia się do szybkiego i kompleksowego badania trendów w rozwoju języków, powstawania neologizmów i stabilnych zwrotów mowy, zmian znaczeń jednostek leksykalnych itp.

Ponieważ praca z tak dużymi ilościami danych wymaga automatyzacji, dziś istnieje ścisła interakcja między lingwistyką komputerową a korpusową.

Narodowy Korpus Języka Rosyjskiego

Ten korpus (w skrócie NKRC) zawiera szereg podkorpusów, które umożliwiają wykorzystanie zasobu do rozwiązywania różnorodnych zadań.

Materiały w bazie danych NCRA są podzielone na:

  • o publikacjach w mediach lat 90. i 2000.lat, zarówno krajowych jak i zagranicznych;
  • nagrania mowy ustnej;
  • teksty oznaczone akcentem (np. ze znakami akcentu);
  • mowa dialektu;
  • dzieła poetyckie;
  • materiały ze znacznikami składniowymi itp.

System informacyjny obejmuje również podkorpusy z równoległymi tłumaczeniami dzieł z języka rosyjskiego na angielski, niemiecki, francuski i wiele innych języków (i odwrotnie).

Ponadto baza zawiera sekcję tekstów historycznych reprezentujących mowę pisaną w języku rosyjskim w różnych okresach jej rozwoju. Istnieje również korpus szkoleniowy, który może być przydatny dla obcokrajowców w opanowaniu języka rosyjskiego.

Narodowy korpus języka rosyjskiego obejmuje 400 milionów jednostek leksykalnych i pod wieloma względami wyprzedza znaczną część korpusów języków europejskich.

Perspektywy

Faktem przemawiającym za uznaniem tego obszaru za obiecujący jest obecność laboratoriów lingwistyki korpusowej na uczelniach rosyjskich, a także zagranicznych. Z wykorzystaniem i badaniami w ramach rozważanych zasobów wyszukiwania informacji wiąże się rozwój niektórych obszarów w dziedzinie wysokich technologii, systemów pytań i odpowiedzi, ale zostało to omówione powyżej.

historia językoznawstwa korpusowego
historia językoznawstwa korpusowego

Przewidywany jest dalszy rozwój lingwistyki korpusowej na wszystkich poziomach, od technicznych, w zakresie wprowadzenia nowych algorytmów optymalizujących procesy wyszukiwania i przetwarzania informacji, poszerzania możliwości komputerów, zwiększania sprawności operacyjnejpamięci, a kończąc na domowych, ponieważ użytkownicy znajdują coraz więcej sposobów na wykorzystanie tego typu zasobów w życiu codziennym i w pracy.

Na zakończenie

W połowie ubiegłego wieku rok 2017 wydawał się odległą przyszłością, w której statki kosmiczne surfują po przestrzeniach Wszechświata, a roboty wykonują całą pracę dla ludzi. W rzeczywistości jednak nauka jest pełna „białych plam” i podejmuje desperackie próby odpowiedzi na pytania, które niepokoiły ludzkość od wieków. Pytania o funkcjonowanie języka zajmują tu poczesne miejsce, a lingwistyka korpusowa i komputerowa może nam pomóc w odpowiedzi na nie.

Przetwarzanie dużych ilości danych umożliwia wykrywanie wzorców, które były wcześniej niedostępne, przewidywanie rozwoju pewnych cech języka, śledzenie formowania się słów niemal w czasie rzeczywistym.

Na praktycznym poziomie globalnym korpusy można uznać np. za potencjalne narzędzie oceny nastrojów społecznych – Internet to stale aktualizowana baza różnych tekstów tworzonych przez rzeczywistych użytkowników: są to komentarze, recenzje, artykuły i wiele innych form mowy.

Ponadto praca z korpusami przyczynia się do rozwoju tych samych środków technicznych, które są zaangażowane w wyszukiwanie informacji, znanych nam z usług Google lub Yandex, tłumaczenia maszynowego, słowników elektronicznych.

Można śmiało powiedzieć, że lingwistyka korpusowa dopiero stawia pierwsze kroki i będzie się szybko rozwijać w najbliższej przyszłości.

Zalecana: