Goldenore blog

Nowoczesne zarządzanie danymi

Nowoczesne zarządzanie danymi

Nowoczesna platforma danych zapewnia kompletne rozwiązanie do gromadzenia, przetwarzania, analizowania i prezentacji danych. Jeśli jest zbudowana jako platforma natywna dla chmury, zwykle można ją skonfigurować w ciągu kilku godzin, jednak jeśli Twoim celem są rozwiązania lokalne lub hybrydowe - zajmuje to znacznie więcej czasu i wymaga wielu wysiłków. Nowoczesna platforma danych jest wspierana nie tylko przez technologię, ale także przez filozofie Agile, DevOps i DataOps oraz powiązane z nimi ramy.

Obecnie jeziora danych i hurtownie danych są popularnymi systemami zarządzania danymi, ale każdy z nich ma pewne ograniczenia.

Data lakehouses i data mesh to dwa nowe systemy, które próbują przezwyciężyć te ograniczenia i wykazują oznaki rosnącej popularności.

Nowoczesna platforma danych obejmuje zazwyczaj sześć podstawowych warstw, kierujących się zasadami elastyczności i dostępności.

Filozofie

DevOps i DataOps mają dwa zupełnie różne cele, ale oba są podobne do filozofii Agile, która ma na celu przyspieszenie cykli pracy nad projektem.

DevOps koncentruje się na rozwoju produktu, podczas gdy DataOps koncentruje się na tworzeniu i utrzymywaniu rozproszonego systemu architektury danych w celu tworzenia wartości biznesowej z danych.

Agile to filozofia rozwoju oprogramowania, która promuje szybkość i wydajność, ale bez eliminowania czynnika "ludzkiego". Kładzie nacisk na rozmowy twarzą w twarz, aby zmaksymalizować komunikację i podkreśla automatyzację jako sposób na zminimalizowanie błędów.

Pozyskiwanie danych

Proces umieszczania danych w systemie pamięci masowej do wykorzystania w przyszłości nazywany jest pozyskiwaniem danych. Mówiąc prościej, pozyskiwanie danych oznacza przenoszenie danych pobranych z innych źródeł do centralnej lokalizacji. Stamtąd dane mogą być wykorzystywane do celów ewidencyjnych lub do dalszego przetwarzania i analizy. Zarówno systemy analityczne, jak i dalsze raportowanie opierają się na dostępnych, spójnych i dokładnych danych.

Organizacje podejmują decyzje biznesowe na podstawie danych pochodzących z ich infrastruktury analitycznej. Wartość tych danych zależy od tego, jak dobrze są one pozyskiwane i integrowane. Jeśli podczas procesu pozyskiwania danych wystąpią problemy, takie jak brak danych, ucierpi na tym każdy etap procesu analitycznego.

Przetwarzanie wsadowe a przetwarzanie strumieniowe

Pozyskiwanie danych może odbywać się na różne sposoby, a sposób zaprojektowania konkretnej warstwy pozyskiwania danych może opierać się na różnych modelach przetwarzania. Dane mogą pochodzić z wielu różnych źródeł, od platform SaaS, przez Internet rzeczy, po urządzenia mobilne. Dobry model pozyskiwania danych stanowi podstawę skutecznej strategii w zakresie danych, a organizacje zazwyczaj wybierają model najlepiej dostosowany do okoliczności.

Przetwarzanie wsadowe jest najczęstszą formą pozyskiwania danych. Nie jest ono jednak przeznaczone do obsługi klientów w czasie rzeczywistym. Zamiast tego gromadzi i grupuje dane źródłowe w partie, które są wysyłane do miejsca docelowego.

Przetwarzanie wsadowe może być inicjowane za pomocą prostego harmonogramu lub może być aktywowane, gdy zaistnieją określone warunki.  Jest ono często stosowane, gdy nie jest wymagane korzystanie z danych w czasie rzeczywistym, ponieważ jest zazwyczaj łatwiejsze i tańsze niż pozyskiwanie strumieniowe.

Przetwarzanie w czasie rzeczywistym (określane również jako przetwarzanie strumieniowe lub strumieniowe) nie grupuje danych. Zamiast tego dane są pozyskiwane, przekształcane i ładowane natychmiast po ich rozpoznaniu. Przetwarzanie w czasie rzeczywistym jest droższe, ponieważ wymaga ciągłego monitorowania źródeł danych i automatycznie akceptuje nowe informacje.

Potoki danych

Nowoczesne modele pozyskiwania danych do niedawna wykorzystywały procedurę ETL (ekstrakt, transformacja, ładowanie) do pobierania danych ze źródła, przeformatowywania ich, a następnie transportowania do miejsca docelowego. Miało to sens, gdy firmy musiały korzystać z drogich wewnętrznych systemów analitycznych, a wykonanie prac przygotowawczych przed ich dostarczeniem, w tym transformacji, obniżyło koszty.

Sytuacja ta uległa zmianie, a bardziej zaktualizowane hurtownie danych w chmurze (Snowflake, Google BigQuery, Microsoft Azure i inne) mogą teraz opłacalnie skalować swoje zasoby obliczeniowe i pamięci masowej. Usprawnienia te pozwalają zrezygnować z etapów transformacji przed załadowaniem, a surowe dane są dostarczane do hurtowni danych.

W tym momencie dane mogą zostać przetłumaczone na format SQL, a następnie uruchomione w hurtowni danych podczas badań. Ten nowy układ przetwarzania zmienił ETL na ELT (extract, load, transform).

Zamiast wyodrębniać dane, a następnie je przekształcać, w przypadku ELT dane są przekształcane "po" tym, jak znajdą się w hurtowni danych w chmurze.

Transformacja danych

Transformacja danych dotyczy zmiany wartości, struktury i formatu danych. Jest to często konieczne w przypadku projektów analizy danych. Dane mogą być przekształcane na jednym z dwóch etapów podczas korzystania z potoku danych, przed dotarciem do miejsca docelowego przechowywania lub po nim. Organizacje nadal korzystające z lokalnych hurtowni danych zwykle korzystają z procesu ETL.

Obecnie wiele organizacji korzysta z hurtowni danych opartych na chmurze. Mogą one skalować zasoby obliczeniowe i pamięci masowej w zależności od potrzeb. Zdolność chmury do skalowania pozwala firmom ominąć transformacje wstępnego ładowania i wysyłać nieprzetworzone dane do hurtowni danych. Dane są przekształcane po przybyciu, przy użyciu procesu ELT, zazwyczaj podczas odpowiadania na zapytanie.

Przekształcanie danych ma wiele zalet:

  • Użyteczność - zbyt wiele organizacji korzysta z wielu bezużytecznych, niepoddanych analizie danych. Standaryzacja danych i nadanie im odpowiedniej struktury pozwala zespołowi ds. danych generować z nich wartość biznesową.
  • Jakość danych - Przekształcanie surowych danych może prowadzić do brakujących wartości, źle sformatowanych zmiennych, pustych wierszy itp. (Możliwe jest również wykorzystanie transformacji danych do "poprawy" jakości danych).
  • Lepsza organizacja - przekształcone dane są łatwiejsze w przetwarzaniu zarówno dla ludzi, jak i komputerów.

Przechowywanie i przetwarzanie danych

Obecnie dwa najpopularniejsze formaty przechowywania danych to hurtownie danych i jeziora danych. Istnieją również dwa formaty przechowywania danych, które zyskują na popularności - data lakehouse i data mesh. Nowoczesne systemy przechowywania danych koncentrują się na ich efektywnym wykorzystaniu.

Hurtownia danych

Hurtownie danych oparte na chmurze są preferowanym systemem przechowywania danych od wielu lat, ponieważ mogą zoptymalizować moc obliczeniową i szybkość przetwarzania. Zostały one opracowane znacznie wcześniej niż jeziora danych i można je prześledzić wstecz do lat 90-tych, kiedy to bazy danych były używane do przechowywania danych. Wczesne wersje hurtowni danych były wewnętrzne i miały bardzo ograniczoną pojemność. W 2013 roku wiele hurtowni danych przeniosło się do chmury i zyskało skalowalną pamięć masową.

Jezioro danych

Jeziora danych zostały pierwotnie zbudowane na Hadoop, były skalowalne i zostały zaprojektowane do użytku lokalnego. W styczniu 2008 roku Yahoo udostępniło Hadoop (oparty na NoSQL) jako projekt open-source dla Apache Software Foundation. Niestety, ekosystem Hadoop jest niezwykle złożony i trudny w obsłudze. Data Lakes zaczęły przenosić się do chmury około 2015 roku, dzięki czemu stały się znacznie tańsze i bardziej przyjazne dla użytkownika.

Korzystanie z kombinacji jezior danych i hurtowni danych w celu zminimalizowania ich ograniczeń stało się powszechną praktyką.

Data Lakehouse

Jeziora danych mają problemy z "analizowaniem danych". Zostały one pierwotnie zaprojektowane do gromadzenia danych w ich naturalnym formacie, bez wymuszania schematów (formatów), aby badacze mogli uzyskać więcej informacji z szerokiego zakresu danych. Niestety, jeziora danych mogą stać się bagnami danych, ze starymi, niedokładnymi informacjami i bezużytecznymi informacjami, co czyni je znacznie mniej skutecznymi.

Hurtownie danych są przeznaczone do zarządzania ustrukturyzowanymi danymi z jasnymi i zdefiniowanymi przypadkami użycia.

Aby hurtownia danych działała prawidłowo, dane muszą zostać zebrane, przeformatowane, wyczyszczone i przesłane do hurtowni. Niektóre dane, których nie można ponownie sformatować, mogą zostać utracone.

Data lakehouse został zaprojektowany w celu połączenia mocnych stron hurtowni danych i jezior danych.

Data lakehouse to nowa forma architektury zarządzania danymi. Łączą one elastyczność, opłacalność i skalowalność jezior danych z transakcjami ACID i funkcjami zarządzania danymi hurtowni danych.

Data lakehouses wspierają analitykę biznesową i uczenie maszynowe. Jedną z mocnych stron data lakehouse jest wykorzystanie warstw metadanych. Wykorzystuje również nowy silnik zapytań, zaprojektowany do wysokowydajnych wyszukiwań SQL.

Data Mesh

Siatka danych może być bardzo przydatna dla organizacji, które szybko się rozwijają i potrzebują skalowalności do przechowywania danych.

Siatka danych, w przeciwieństwie do hurtowni danych, jezior i jezior, jest "zdecentralizowana". Zdecentralizowana własność danych to model architektoniczny, w którym określona domena (partnerzy biznesowi lub inne działy) nie jest właścicielem swoich danych, ale swobodnie udostępnia dane innym domenom.

Dane nie są własnością w modelu siatki danych. Nie są własnością osób, które je przechowują - ale są za nie odpowiedzialne. Dane są przechowywane i organizowane przez partnera biznesowego lub dział, ze świadomością, że dane mają być udostępniane. Oznacza to, że wszystkie dane w systemie siatki danych powinny zachować jednolity format.

Systemy siatki danych mogą być przydatne dla firm obsługujących wiele domen danych. W ramach projektu siatki danych istnieje warstwa zarządzania danymi i warstwa obserwowalności. Istnieje również uniwersalna warstwa interoperacyjności.

Business Intelligence & Analytics

Obecnie wiele informacji biznesowych jest gromadzonych w ramach analityki biznesowej, a także analityki danych. Analityka jest wykorzystywana do generowania inteligencji biznesowej poprzez przekształcanie danych w zrozumiałe spostrzeżenia, które mogą pomóc w podejmowaniu taktycznych i strategicznych decyzji biznesowych. Narzędzia Business Intelligence mogą być wykorzystywane do uzyskiwania dostępu do danych i ich analizy, zapewniając badaczom szczegółowe informacje.

Odkrywanie danych

Odkrywanie danych obejmuje gromadzenie i ocenę danych z różnych źródeł. Jest to często wykorzystywane do zrozumienia trendów i wzorców znalezionych w danych. Odkrywanie danych jest czasami związane z analityką biznesową, ponieważ może łączyć dane w celu ich analizy.

Wykrywanie danych obejmuje łączenie różnych źródeł danych. Może czyścić i przygotowywać dane oraz przeprowadzać analizy. Niedostępne dane są zasadniczo bezużyteczne, a odkrywanie danych czyni je użytecznymi.

Odkrywanie danych polega na eksploracji danych za pomocą narzędzi wizualnych, które mogą pomóc liderom biznesowym w wykrywaniu nowych wzorców i anomalii.