Eksploracja danych to koncepcja, analiza algorytmów, cel i zastosowanie

Spisu treści:

Eksploracja danych to koncepcja, analiza algorytmów, cel i zastosowanie
Eksploracja danych to koncepcja, analiza algorytmów, cel i zastosowanie
Anonim

Rozwój technologii informacyjnej przynosi praktyczne rezultaty. Jednak takie zadania, jak znajdowanie, analizowanie i wykorzystywanie informacji, nie otrzymały jeszcze skutecznego narzędzia wysokiej jakości. Są narzędzia analityczne i ilościowe, naprawdę działają. Ale jakościowa rewolucja w wykorzystaniu informacji jeszcze się nie wydarzyła.

Na długo przed pojawieniem się technologii komputerowej, osoba musiała przetwarzać duże ilości informacji i radzić sobie z tym najlepiej, jak potrafiła, korzystając ze swojego doświadczenia i dostępnych możliwości technicznych.

Rozwój wiedzy i umiejętności zawsze odpowiadał realnym potrzebom i odpowiadał bieżącym zadaniom. Data mining to zbiorcza nazwa używana w odniesieniu do zestawu metod odkrywania nieznanej wcześniej, nietrywialnej, praktycznie użytecznej i dostępnej wiedzy w danych, niezbędnej do podejmowania decyzji w różnych obszarach ludzkiej działalności.

Człowiek, inteligencja, programowanie

Człowiek zawsze wie, jak postępować w każdej sytuacji. Niewiedza lub nieznana sytuacja nie przeszkadza mu w podjęciu decyzji. Obiektywizm i racjonalność każdej ludzkiej decyzji można kwestionować, ale zostanie ona zaakceptowana.

Inteligencja opiera się na: dziedzicznym „mechanizmie”, nabytej, aktywnej wiedzy. Wiedza jest stosowana do rozwiązywania problemów, które pojawiają się przed człowiekiem.

  1. Inteligencja to unikalny zestaw wiedzy i umiejętności: możliwości i fundament ludzkiego życia i pracy.
  2. Inteligencja stale się rozwija, a ludzkie działania mają wpływ na innych ludzi.

Programowanie to pierwsza próba sformalizowania reprezentacji danych i procesu tworzenia algorytmów.

Człowiek, inteligencja, programowanie
Człowiek, inteligencja, programowanie

Sztuczna inteligencja (AI) to strata czasu i zasobów, ale wyniki nieudanych prób z ubiegłego wieku w dziedzinie AI pozostały w pamięci, były wykorzystywane w różnych systemach eksperckich (inteligentnych) i ulegały przekształceniom, w szczególności na algorytmy (reguły) i matematyczną (logiczną) analizę danych oraz Data Mining.

Informacje i zwykłe wyszukiwanie rozwiązania

Zwykła biblioteka jest skarbnicą wiedzy, a drukowane słowo i grafika nie oddały jeszcze dłoni technologii komputerowej. Książki z dziedziny fizyki, chemii, mechaniki teoretycznej, projektowania, historii naturalnej, filozofii, nauk przyrodniczych, botaniki, podręczniki, monografie, prace naukowców, materiały konferencyjne, sprawozdania z prac rozwojowych itp. są zawsze aktualne i rzetelne.

Biblioteka to wiele różnych źródeł, które się różniąforma prezentacji materiału, pochodzenie, struktura, treść, styl prezentacji itp.

Biblioteka: książki, czasopisma i inne druki
Biblioteka: książki, czasopisma i inne druki

Na zewnątrz wszystko jest widoczne (czytelne, dostępne) do zrozumienia i użycia. Potrafisz rozwiązać dowolny problem, poprawnie ustawić zadanie, uzasadnić rozwiązanie, napisać esej lub pracę semestralną, dobrać materiał do dyplomu, przeanalizować źródła na temat rozprawy lub raportu naukowo-analitycznego.

Każdy problem informacyjny można rozwiązać. Z należytą wytrwałością i umiejętnościami uzyskamy dokładny i wiarygodny wynik. W tym kontekście Data Mining to zupełnie inne podejście.

Oprócz wyniku, osoba otrzymuje „aktywne linki” do wszystkiego, co było oglądane w procesie osiągania celu. Do źródeł, które wykorzystał w rozwiązaniu problemu, można się odwołać i nikt nie będzie kwestionował faktu istnienia źródła. Nie jest to gwarancja autentyczności, ale pewne świadectwo tego, przed kim odpowiedzialność za autentyczność jest „wypisana”. Z tego punktu widzenia Data Mining oznacza duże wątpliwości co do niezawodności i brak „aktywnych” łączy.

Rozwiązując kilka problemów, osoba osiąga wyniki i rozszerza swój potencjał intelektualny na wiele "aktywnych ogniw". Jeśli nowe zadanie „aktywuje” już istniejące łącze, osoba będzie wiedziała, jak je rozwiązać: nie ma potrzeby ponownego wyszukiwania niczego.

"Aktywny link" to stałe powiązanie: jak i co robić w konkretnym przypadku. Ludzki mózg automatycznie zapamiętuje wszystko, co wydaje mu się potencjalnie interesujące, przydatne.lub prawdopodobnie będą potrzebne w przyszłości. Pod wieloma względami dzieje się to na poziomie podświadomości, ale gdy tylko pojawi się zadanie, które można skojarzyć z „aktywnym ogniwem”, natychmiast wyskakuje ono w umyśle i rozwiązanie zostanie uzyskane bez dodatkowego wyszukiwania informacji. Data Mining jest zawsze powtórzeniem algorytmu wyszukiwania i ten algorytm się nie zmienia.

Zwykłe wyszukiwanie: problemy „artystyczne”

Biblioteka matematyczna i wyszukiwanie w niej informacji to stosunkowo słabe zadanie. Znalezienie takiego czy innego sposobu rozwiązania całki, zbudowania macierzy lub wykonania operacji dodawania dwóch liczb urojonych jest pracochłonne, ale proste. Musisz przejrzeć kilka książek, z których wiele jest napisanych w określonym języku, znaleźć właściwy tekst, przestudiować go i uzyskać wymagane rozwiązanie.

Z biegiem czasu wyliczanie stanie się znajome, a zgromadzone doświadczenie pozwoli Ci poruszać się po informacjach bibliotecznych i innych problemach matematycznych. To ograniczona przestrzeń informacyjna pytań i odpowiedzi. Cecha charakterystyczna: takie poszukiwanie informacji kumuluje wiedzę do rozwiązywania podobnych problemów. Poszukiwanie informacji przez osobę pozostawia w jej pamięci ślady („aktywne łącza”) dotyczące możliwych rozwiązań innych problemów.

W fikcji znajdź odpowiedź na pytanie: „Jak żyli ludzie w styczniu 1248?” bardzo trudny. Jeszcze trudniej odpowiedzieć na pytanie, co znajdowało się na sklepowych półkach i jak zorganizowany był handel żywnością. Nawet jeśli jakiś pisarz jasno i bezpośrednio pisał o tym w swojej powieści, jeśli można było znaleźć nazwisko tego pisarza, to wątpliwości co dowiarygodność otrzymanych danych pozostanie. Niezawodność jest krytyczną cechą każdej ilości informacji. Ważne jest źródło, autor i dowody wykluczające fałszywość wyniku.

Obiektywne okoliczności konkretnej sytuacji

Człowiek widzi, słyszy, czuje. Niektórzy specjaliści biegle posługują się wyjątkowym uczuciem - intuicją. Stwierdzenie problemu wymaga informacji, procesowi rozwiązania problemu najczęściej towarzyszy doprecyzowanie sformułowania problemu. Jest to mniejszy problem związany z przenoszeniem informacji do trzewi systemu komputerowego.

Informacje w przestrzeni wirtualnej
Informacje w przestrzeni wirtualnej

Biblioteka i koledzy z pracy są pośrednimi uczestnikami procesu decyzyjnego. Projekt książki (źródło), grafika w tekście, cechy dzielenia informacji na nagłówki, przypisy po frazach, indeks tematyczny, spis źródeł pierwotnych – wszystko to budzi w osobie skojarzenia, które pośrednio wpływają na proces rozwiązywania problem.

Niezbędny jest czas i miejsce rozwiązania problemu. Osoba jest tak zaaranżowana, że mimowolnie zwraca uwagę na wszystko, co go otacza w procesie rozwiązywania problemu. Może rozpraszać lub pobudzać. Data Mining nigdy nie "zrozumie".

Informacje w przestrzeni wirtualnej

Człowieka zawsze interesowała tylko rzetelna informacja o zdarzeniu, zjawisku, obiekcie, algorytmie rozwiązywania problemu. Człowiek zawsze dokładnie wyobrażał sobie, jak może osiągnąć upragniony cel.

Wygląd komputerów i systemów informatycznych powinien ułatwić życie człowieka, ale wszystko stało się tylko bardziej skomplikowane. Informacje migrowały do wnętrzności systemów komputerowych i znikały z pola widzenia. Aby wybrać potrzebne dane, należy stworzyć poprawny algorytm lub sformułować zapytanie do bazy danych.

Dane w systemie informacyjnym
Dane w systemie informacyjnym

Pytanie musi być poprawne. Tylko wtedy możesz uzyskać odpowiedź. Ale wątpliwości co do autentyczności pozostają. W tym sensie Data Mining to tak naprawdę „wykopaliska”, to „wydobywanie informacji”. Tak modne jest tłumaczenie tego wyrażenia. Wersja rosyjska to technologia data mining lub data mining.

W pracach autorytatywnych specjalistów zadania Data Mining są wskazane w następujący sposób:

  • klasyfikacja;
  • klastrowanie;
  • stowarzyszenie;
  • sekwencja;
  • prognozowanie.

Z punktu widzenia praktyki, która kieruje osobą w ręcznym przetwarzaniu informacji, wszystkie te stanowiska są dyskusyjne. W każdym razie osoba przetwarza informacje automatycznie i nie myśli o klasyfikowaniu danych, kompilowaniu tematycznych grup obiektów (grupowanie), wyszukiwaniu wzorców czasowych (sekwencji) lub przewidywaniu wyniku.

Wszystkie te pozycje w ludzkim umyśle są reprezentowane przez aktywną wiedzę, która obejmuje więcej pozycji i dynamicznie wykorzystuje logikę przetwarzania danych początkowych. Podświadomość człowieka odgrywa ważną rolę, zwłaszcza gdy jest on specjalistą w określonej dziedzinie wiedzy.

Przykład: Sprzedaż hurtowa sprzętu komputerowego

Zadanie jest proste. Istnieje kilkakilkudziesięciu dostawców sprzętu komputerowego i urządzeń peryferyjnych. Każdy posiada cennik w formacie xls (plik Excel), który można pobrać z oficjalnej strony dostawcy. Wymagane jest stworzenie zasobu internetowego, który odczytuje pliki Excel, konwertuje je na tabele bazy danych i pozwala klientom wybrać pożądane produkty w najniższych cenach.

Problemy pojawiają się natychmiast. Każdy dostawca oferuje własną wersję struktury i zawartości pliku xls. Możesz pobrać plik, pobierając go ze strony internetowej dostawcy, zamawiając go przez e-mail lub uzyskując link do pobrania za pośrednictwem swojego konta osobistego, czyli poprzez oficjalną rejestrację u dostawcy.

Sklep z komputerami wirtualnymi
Sklep z komputerami wirtualnymi

Rozwiązanie problemu (na samym początku) jest technologicznie proste. Wczytywanie plików (danych początkowych), dla każdego dostawcy napisany jest algorytm rozpoznawania plików, a dane umieszczane są w jednej dużej tabeli danych początkowych. Po odebraniu wszystkich danych, po ustanowieniu mechanizmu ciągłej wymiany (dziennej, tygodniowej lub przy zmianie) świeżych danych:

  • zmień asortyment;
  • zmiany cen;
  • wyjaśnienie ilości w magazynie;
  • dostosowanie warunków gwarancji, specyfikacji itp.

Tu zaczynają się prawdziwe problemy. Chodzi o to, że dostawca może napisać:

  • notebook Acer;
  • notebook Asus;
  • laptop Dell.

Mówimy o tym samym produkcie, ale od różnych producentów. Jak dopasować notebook=laptop lub jak usunąć Acer, Asus i Dell z linii produktów?

Zaczłowiek nie jest problemem, ale jak algorytm „zrozumie”, że Acer, Asus, Dell, Samsung, LG, HP, Sony są znakami towarowymi lub dostawcami? Jak dopasować „drukarka” do drukarki, „skaner” i „MFP”, „kopiarka” i „MFP”, „słuchawki” z „zestawem słuchawkowym”, „akcesoria” z „akcesoriami”?

Budowanie drzewa kategorii w oparciu o dane źródłowe (pliki źródłowe) jest już problemem, gdy musisz ustawić wszystko na automatyczne.

Próbkowanie danych: wykopaliska "świeżo wylanych"

Zadanie stworzenia bazy danych dostawców sprzętu komputerowego zostało rozwiązane. Zbudowano drzewo kategorii, funkcjonuje wspólna tabela z ofertami wszystkich dostawców.

Typowe zadania eksploracji danych w kontekście tego przykładu:

  • znajdź produkt w najniższej cenie;
  • wybierz przedmiot z najniższym kosztem wysyłki i ceną;
  • analiza produktu: charakterystyka i ceny według kryteriów.

W prawdziwej pracy menedżera wykorzystującego dane od kilkudziesięciu dostawców będzie wiele odmian tych zadań, a nawet bardziej realne sytuacje.

Na przykład, istnieje dostawca „A”, który sprzedaje ASUS VivoBook S15: przedpłata, dostawa 5 dni po faktycznym otrzymaniu pieniędzy. Istnieje dostawca „B” tego samego produktu tego samego modelu: płatność przy odbiorze, dostawa po zawarciu umowy w ciągu jednego dnia, cena jest półtora raza wyższa.

Rozpoczyna się eksploracja danych - „wykopaliska”. Wyrażenia graficzne: „wykopaliska” lub „eksploracja danych” to synonimy. Chodzi o to, jak uzyskać powód do podjęcia decyzji.

Dostawcy „A” i „B” mają historię dostaw. Stopieńw pierwszym przypadku przedpłata za zapłatą przy odbiorze w drugim przypadku przy założeniu, że brak dostawy w drugim przypadku jest o 65% wyższy. Ryzyko kar ze strony klienta jest wyższe/niższe. Jak i co ustalić i jaką decyzję podjąć?

Z drugiej strony: baza danych została stworzona przez programistę i menedżera. Skoro zmienili się programista i manager, to jak ustalić aktualny stan bazy danych i nauczyć się z niej poprawnie korzystać? Będziesz także musiał wykonać eksplorację danych. Data Mining oferuje różnorodne metody matematyczne i logiczne, które nie dbają o to, jakie dane są badane. Daje to prawidłowe rozwiązanie w niektórych przypadkach, ale nie we wszystkich.

Przenoszenie się w wirtualność i odnajdywanie znaczenia

Metody eksploracji danych nabierają znaczenia, gdy tylko informacje zostaną zapisane w bazie danych i znikną z „pola widzenia”. Handel sprzętem komputerowym to ciekawe zadanie, ale to tylko biznes. To, jak dobrze jest zorganizowany w firmie, zależy od jej sukcesu.

Zmiany klimatyczne na naszej planecie i pogoda w danym mieście interesują wszystkich, nie tylko profesjonalnych klimatologów. Tysiące czujników pobierają odczyty wiatru, wilgotności, ciśnienia, dane ze sztucznych satelitów Ziemi i istnieje historia danych od lat i stuleci.

Dane pogodowe to nie tylko decyzja o zabraniu parasola do pracy. Technologie Data Mining to bezpieczny lot samolotu pasażerskiego, stabilne działanie autostrady i niezawodne dostawy produktów naftowych drogą morską.

„Surowe” dane są wysyłane do informacjisystem. Zadania Data Mining to przekształcenie ich w usystematyzowany system tabel, ustanowienie połączeń, wyróżnienie grup jednorodnych danych i wykrywanie wzorców.

Klimat, pogoda i surowe dane
Klimat, pogoda i surowe dane

Metody matematyczne i logiczne od czasów analityki ilościowej OLAP (On-line Analytical Processing) wykazały swoją praktyczność. Tutaj technologia pozwala odnaleźć sens, a nie go stracić, jak w przypadku sprzedaży sprzętu komputerowego.

Ponadto w zadaniach globalnych:

  • biznes międzynarodowy;
  • zarządzanie transportem lotniczym;
  • badanie wnętrzności ziemi lub problemów społecznych (na poziomie państwa);
  • badanie wpływu leków na żywy organizm;
  • przewidywanie konsekwencji budowy przedsiębiorstwa przemysłowego itp.

Technologie Data Mine i przekształcanie „bezsensownych” danych w rzeczywiste dane, które pozwalają podejmować obiektywne decyzje, to jedyna opcja.

Ludzkie możliwości kończą się tam, gdzie jest duża ilość surowych informacji. Systemy eksploracji danych tracą swoją użyteczność tam, gdzie są wymagane, aby zobaczyć, zrozumieć i poczuć informacje.

Rozsądny rozkład funkcji i obiektywizm

Człowiek i komputer powinni się uzupełniać - to aksjomat. Pisanie pracy dyplomowej jest dla człowieka priorytetem, a system informatyczny jest pomocą. Tutaj dane, które posiada technologia Data Mining to heurystyki, reguły, algorytmy.

Przygotowanie tygodniowej prognozy pogody jest priorytetem systemu informacyjnego. Człowiek zarządza danymi, ale swoje decyzje opiera na wynikach obliczeń systemu. Łączy w sobie metody Data Mining, specjalistyczną klasyfikację danych, ręczną kontrolę stosowania algorytmów, automatyczne porównywanie danych z przeszłości, prognozowanie matematyczne oraz dużą wiedzę i umiejętności prawdziwych ludzi zaangażowanych w stosowanie systemu informatycznego.

Człowiek i komputer
Człowiek i komputer

Teoria prawdopodobieństwa i statystyka matematyczna nie są najbardziej "ulubionymi" i zrozumiałymi obszarami wiedzy. Wielu specjalistów jest od nich bardzo daleko, ale wypracowane w tych obszarach metody dają prawie w 100% poprawne wyniki. Stosując systemy oparte na pomysłach, metodach i algorytmach Data Miningu, można uzyskać rozwiązania obiektywnie i niezawodnie. W przeciwnym razie znalezienie rozwiązania jest po prostu niemożliwe.

Faraonowie i tajemnice minionych stuleci

Historia była okresowo przepisywana:

  • państwa - w trosce o ich strategiczne interesy;
  • autorytatywni naukowcy - ze względu na ich subiektywne przekonania.

Trudno powiedzieć, co jest prawdą, a co fałszem. Wykorzystanie Data Mining pozwala nam rozwiązać ten problem. Na przykład technologia budowy piramid została opisana przez kronikarzy i zbadana przez naukowców w różnych stuleciach. Nie wszystkie materiały trafiły do internetu, nie wszystko jest tutaj unikalne, a wiele danych może nie mieć:

  • opisany punkt w czasie;
  • czas pisania opisu;
  • daty, na których opiera się opis;
  • autorzy, opinie (linki) brane pod uwagę;
  • potwierdzenie obiektywizmu.

Bbiblioteki, świątynie i „nieoczekiwane miejsca” można znaleźć rękopisy z różnych wieków i materialne dowody przeszłości.

Ciekawy cel: zebrać wszystko razem i odkryć „prawdę”. Cecha problemu: informacje można uzyskać od pierwszego opisu kronikarza, za życia faraonów, do obecnego stulecia, w którym problem ten jest rozwiązywany nowoczesnymi metodami przez wielu naukowców.

Uzasadnienie korzystania z eksploracji danych: praca fizyczna nie jest możliwa. Zbyt wiele ilości:

  • źródła informacji;
  • języki reprezentacji;
  • badacze opisują to samo na różne sposoby;
  • daty, wydarzenia i warunki;
  • problemy z korelacją terminów;
  • analiza statystyk według grup danych w czasie może się różnić itp.

Pod koniec ubiegłego wieku, kiedy kolejne fiasko idei sztucznej inteligencji stało się oczywiste nie tylko dla laika, ale także dla wyrafinowanego specjalisty, pojawił się pomysł: „odtworzyć osobowość”.

Na przykład według prac Puszkina, Gogola, Czechowa powstaje pewien system reguł, logiki zachowania i tworzony jest system informacyjny, który może odpowiedzieć na pewne pytania tak, jak człowiek: Puszkin, Gogol lub Czechow. Teoretycznie takie zadanie jest ciekawe, ale w praktyce jest niezwykle trudne do zrealizowania.

Jednak z idei takiego zadania nasuwa się bardzo praktyczny pomysł: „jak stworzyć inteligentne wyszukiwanie informacji”. Internet to dużo rozwijających się zasobów, ogromna baza danych i jest to świetna okazja do zastosowania Data Miningu w połączeniu z ludźmilogika w formie wspólnego rozwoju.

Maszyna i człowiek razem
Maszyna i człowiek razem

W parze maszyna i człowiek to doskonałe zadanie i niewątpliwy sukces w dziedzinie „archeologii informacyjnej”, wysokiej jakości wykopaliska w danych i wynikach, które postawią coś w wątpliwość, ale bez wątpienia pozwolą zdobyć nową wiedzę i będzie poszukiwany w społeczeństwie.

Zalecana: