Blog Goldenore

Moderní správa dat

Moderní správa dat

Moderní datová platforma poskytuje kompletní řešení pro sběr, zpracování, analýzu a prezentaci dat. Pokud je vytvořena jako nativní cloudová platforma, lze ji obvykle nastavit během několika hodin. Pokud je však vaším cílem lokální nebo hybridní řešení, trvá to mnohem déle a vyžaduje větší úsilí. Moderní datová platforma je podporována nejen technologiemi, ale také filozofiemi Agile, DevOps a DataOps a souvisejícími rámci.

V současné době jsou pro správu dat oblíbené systémy datových jezer a datových skladů. Každý z nich však má určitá omezení.

Datová transakční jezera a datové sítě jsou dva nové systémy, které se snaží tato omezení překonat a jeví známky rostoucí popularity.

Moderní datová platforma obvykle zahrnuje šest základních vrstev, které se řídí principy pružnosti a dostupnosti.

 

 

Filosofie

Filozofie DevOps a DataOps mají dva zcela odlišné cíle, ale obě se podobají filozofii Agile, jejímž cílem je zrychlit pracovní cykly projektů.

DevOps se zaměřuje na vývoj produktů, zatímco DataOps se soustředí na vytváření a údržbu distribuovaného systému datové architektury za účelem vytváření obchodní hodnoty z dat.

Agile je filozofie vývoje softwaru, která podporuje rychlost a efektivitu, ale neeliminuje „lidský“ faktor. Klade důraz na osobní rozhovory, aby se maximalizovala komunikace, a zdůrazňuje automatizaci jako způsob, jak minimalizovat chyby.

Sběr dat

Proces ukládání dat do úložného systému pro budoucí použití se nazývá sběr (ingestování) dat. Zjednodušeně řečeno tento proces znamená přesun dat z jiných zdrojů do centrálního umístění. Zde je možné data používat pro účely evidence nebo pro další zpracování a analýzu. Jak analytické systémy, tak navazující výkaznictví se opírají o dostupná, konzistentní a přesná data.

 

 

Organizace přijímají obchodní rozhodnutí na základě dat z analytické infrastruktury. Hodnota jejich dat závisí na tom, jak dobře sběr a integrace dat probíhá. Pokud se během procesu sběru dat vyskytnou problémy, například když některá data chybějí, utrpí tím každý krok analytického procesu.

Dávkové zpracování vs. zpracování datových toků

Sběr dat lze provádět různými způsoby. Způsob, jakým je navržena konkrétní vrstva pro sběr dat, může vycházet z různých modelů zpracování. Data mohou pocházet z různých zdrojů, od platforem SaaS přes internet věcí až po mobilní zařízení. Dobrý sběrný model tvoří základ efektivní datové strategie a organizace obvykle volí takový model, který nejlépe odpovídá okolnostem.

Nejběžnější formou sběru dat je dávkové zpracování. Tato forma však není určena k jednání se zákazníky v reálném čase. Namísto toho shromažďuje a seskupuje zdrojová data do dávek, které jsou odesílány do cílového místa.

Dávkové zpracování může být spuštěno pomocí jednoduchého plánu nebo může být aktivováno splněním určitých podmínek.  Často se používá v případech, kdy není nutné používat data v reálném čase, protože je to obvykle jednodušší a levnější než přijímání datových toků.

Zpracování v reálném čase (označované také jako streamování nebo zpracování datových toků) data neseskupuje. Namísto toho k získávání, transformaci a načítání dat dochází, jakmile jsou rozpoznána. Zpracování v reálném čase je dražší, protože vyžaduje neustálé sledování zdrojů dat a automatické přijímání nových informací.

Datové kanály

Moderní modely sběru dat až donedávna používaly proceduru ETL (extrakce, transformace, načítání), která přebírala data ze zdroje, přeformátovávala je a poté je přenášela do cílové destinace. To dávalo smysl v době, kdy podniky musely používat drahé interní analytické systémy a provádění přípravných prací před dodáním (včetně transformací) snižovalo náklady. 

Tato situace se změnila. Aktualizované cloudové datové sklady (Snowflake, Google BigQuery, Microsoft Azure a další) nyní mohou své výpočetní a úložné zdroje efektivně přizpůsobit na míru. Tato vylepšení umožňují upustit od kroků transformace před načtením a dodávat surová data do datového skladu.

V tomto okamžiku lze data převést do formátu SQL a poté je během výzkumu spustit v datovém skladu. Toto nové uspořádání zpracování změnilo ETL na ELT (extrakce, načtení, transformace).

Namísto extrakce dat a jejich následné transformace jsou data v ELT transformována „až“ poté, co jsou v datovém skladu cloudu.

Transformace dat 

Transformace dat se zabývá změnou hodnot, struktury a formátu dat. To je u projektů analýzy dat nutné často nezbytné. Data mohou být transformována v jedné ze dvou fází při použití datového kanálu, a to předtím, než dorazí na místo určení v úložišti, nebo až poté. Organizace, které dosud používají datové sklady, obvykle používají proces ETL.

Mnoho organizací v dnešní době využívá cloudové datové sklady. Ty mohou škálovat výpočetní a úložné zdroje podle potřeby. Schopnost cloudu škálovat umožňuje podnikům obejít transformace při předběžném načítání a posílat do datového skladu surová data. Data jsou po příchodu transformována pomocí procesu ELT, typicky při zodpovídání dotazu.

Transformace dat má různé výhody:

  • Použitelnost – příliš mnoho organizací má k dispozici spoustu nepoužitelných, neanalyzovaných dat. Standardizace dat a jejich uspořádání do správné struktury umožní datovému týmu vytvářet z nich obchodní hodnotu.
  • Kvalita dat – transformace surových dat může vést k chybějícím hodnotám, špatně naformátovaným proměnným, nulovým řádkům atd. (Ke „zlepšení“ kvality dat je také možné použít transformaci dat.)
  • Lepší organizace – transformovaná data se lépe zpracovávají lidem i počítačům.

Ukládání a zpracování dat 

V současné době jsou nejoblíbenějšími formáty pro ukládání dat datové sklady a datová jezera. A dále jsou zde dva formáty úložišť, které získávají na popularitě – datová transakční jezera a datové sítě. Moderní systémy ukládání dat se zaměřují na efektivní využívání dat.

Datový sklad

Cloudové datové sklady jsou již řadu let preferovaným systémem pro ukládání dat, protože dokáží optimalizovat výpočetní výkon a rychlost zpracování. Byly vyvinuty mnohem dříve než datová jezera a lze je vysledovat až do 90. let minulého století, kdy se k ukládání dat používaly databáze. První verze datových skladů byly interní a měly velmi omezenou úložnou kapacitu. V roce 2013 se mnoho datových skladů přesunulo do cloudu a získalo škálovatelné úložiště.

Datové jezero

Datová jezera byla původně postavena na platformě Hadoop, byla škálovatelná a byla navržena pro lokální použití. V lednu 2008 společnost Yahoo uvolnila Hadoop (založený na NoSQL) jako open-source projekt nadaci Apache Software Foundation. Ekosystém Hadoop je bohužel nesmírně složitý a je obtížné s ním pracovat. Datová jezera se kolem roku 2015 začala přesouvat do cloudu, což je učinilo mnohem levnějšími a uživatelsky přívětivějšími.

Běžnou praxí se stalo používání kombinace datových jezer a datových skladů s cílem |minimalizovat jejich omezení.

Datové transakční jezero

Datová jezera mají problémy s „parsováním dat“. Původně byla navržena tak, aby shromažďovala data v jejich přirozeném formátu, bez vynucování schémat (formátů), takže výzkumníci mohli získat více poznatků z široké škály dat. Bohužel se z datových jezer mohou stát datové bažiny se starými, nepřesnými informacemi a neužitečnými informacemi, díky čemuž jsou mnohem méně efektivní.

Datové sklady jsou určeny pro správu strukturovaných dat s jasnými a definovanými případy použití.

Aby datový sklad správně fungoval, je třeba data shromáždit, přeformátovat, vyčistit a nahrát do datového skladu. Některá data, která nelze přeformátovat, mohou být ztracena.

Systém datových transakčních jezer byl navržen tak, aby spojoval silné stránky datových skladů a datových jezer.

Systémy datových transakčních jezer jsou novou formou architektury pro správu dat. Spojují flexibilitu, nákladovou efektivitu a škálovací schopnosti datových jezer s transakcemi ACID a funkcemi správy dat u datových skladů.

Systémy datových transakčních jezer podporují business intelligence a strojové učení. Jednou ze silných stránek datových transakčních jezer je použití vrstev metadat. Používá také nový dotazovací engine, který je určen pro vysoce výkonné vyhledávání v jazyce SQL.

Datová síť

Datové sítě mohou být docela užitečné pro organizace, které se rychle rozšiřují a potřebují škálovatelnost pro ukládání dat.

Datová síť je na rozdíl od datových skladů, jezer a transakčních jezer „decentralizovaná“. Decentralizované vlastnictví dat je architektonický model, kdy určitá doména (obchodní partneři nebo jiná oddělení) svoje data nevlastní, ale volně je sdílí s ostatními doménami.

Data nejsou v modelu datové sítě vlastněna. Lidé, kteří data ukládají, je nevlastní, ale jsou za ně zodpovědní. Data ukládá a organizuje obchodní partner nebo oddělení s vědomím, že data budou sdílena. To znamená, že všechna data v systému datové sítě musejí zachovávat jednotný formát.

Systémy datových sítí mohou být užitečné pro podniky, které podporují více datových domén. V rámci návrhu datové sítě existuje vrstva správy dat a vrstva pozorovatelnosti. Existuje také vrstva univerzální interoperability.

Business Intelligence a analytika

V současné době se velké množství obchodních informací získává z firemních analýz a také z datových analýz. Analytika slouží k vytváření obchodních informací pomocí transformace dat do srozumitelných poznatků, které mohou pomoci přijímat taktická a strategická obchodní rozhodnutí. Pro přístup k datům a jejich analýzu lze použít nástroje Business Intelligence, které výzkumným pracovníkům poskytují podrobné informace.

Zjišťování dat 

Zjišťování dat zahrnuje shromažďování a vyhodnocování dat z různých zdrojů. Často se používá k pochopení trendů a vzorců zjištěných z dat. Zjišťování dat je někdy spojováno s business intelligence, protože dokáže spojit oddělená data za účelem analýzy.

Zjišťování dat zahrnuje propojení různých zdrojů dat. Dokáže čistit a připravovat data nebo provádět analýzy. Nedostupná data jsou v podstatě nepoužitelná data a zjišťování dat je činí užitečnými.

Zjišťování dat je o zkoumání dat pomocí vizuálních nástrojů, které mohou vedoucím pracovníkům pomoci odhalit nové vzorce a anomálie.