Upravit stránku

Pohádkový prolog

Byl jednou jeden datový zdroj a ten se tuze naparoval. 

"Já jsem ten nejlepší z datových zdrojů, víte?", říkával. 

"A jak jsi na to přišel?", volaly ostatní datové zdroje. "My jsme snad horší než ty?"

"Nemáte úroveň, nemáte kvalitu, nemáte datovou čistotu!", halasil arogantní datový zdroj s narcistními sklony. Byl to číselník dnů v týdnu - pondělí až neděle.

"To se ti to kecá, ty primitive!", volaly komplikované a rozsáhlé datové zdroje. "Nabýváš právě sedmi hodnot a vůbec není sporu o tom, jakých!" 

"Já například monitoruju chování zákazníka v digitálních kanálech. Umíš si představit, kolik musím uložit informací? Neumíš?! Hafo! A záznamy každý den přibývají v milionech! To je boj to všechno pochytat a neudělat chybu. Navíc mě ti lidé tam na konci pořád zadávají nějaké nesmysly. Prý Homo Sapiens ... houbeles, neumí to ani správně zadat jméno a příjmení. Takhle to funguje v reálném životě, kamaráde. Ne, jak tam u vás - u číselníků!"

"A dost!" Do místnosti vstoupil datový inženýr a všechny zdroje byly najednou tiše jako pěny.

"Já vám dám žabomyší války! Srovnám vás raz dva a bude pokoj!"

Ale to se šeredně mýlil. Srovnat datové zdroje není jen tak. Tak si o tom něco povíme, milé děti. 

Proč je kvalita dat důležitá

V některém z jiných dílů našeho slavného newsletteru jsem si řekli, že data jsou suroviny. Suroviny, které vstupují do výrobního procesu v naší fabrice Data Factory.

Nečistá ruda surovinou pro (skoro) čisté zlato

A tak, jako jsou suroviny často nečisté, plné nežádoucích příměsí, podobně to je i s daty. Jen s tím rozdílem, že zatímco u rud většinou něco přebývá - u dat často i chybí.

Kvalita dat je důležitá pro jejich další zpracování. Pokud budu mít na vstupu samé nesmysly, chyby a překlepy, analýza takových dat bude mít pramalou hodnotu.

Příklady táhnou

Podívejme se na nějaký jednoduchý příklad, jak reálně mohou vypadat datové vstupy (zdroje) a později si povíme, jak s chybami bojovat.

Představme si jednoduchý objednávkový systém s několika parametry.

Pár záznamů domnělého objednávkového systému

Uměli byste rychle zjistit, kolik si zákazník Jan Novák od nás koupil zboží v roce 2024? Asi by to nebylo tak triviální, že? Je zákazník č. 1, 2, 3, 4 i 5 táž osoba? Nebo ne? Co s chybějícími nebo vyloženě nekorektními hodnotami? Máme dobře měny?

Manažeři často požadují rychle ten či onen výsledek, ale dodat ho, a navíc správně už není tak jednoduché :)

Jak zajišťujeme kvalitní data?

Z předchozího příkladu je zřejmé, že bez kvalitních dat prostě kvalitní analýzu neuděláme. Péče o data je nikdy nekončící proces a čím lépe jej má organizace zvládnutý, tím lépe může s daty pracovat a přetvářet je ve znalosti a konkurenční výhodu.

Datové zdroje

Náš pohádkový prolog naznačil, že pro datovou kvalitu jsou klíčové datové zdroje. Ano, už tam je třeba zahájit kroky ke zvýšení a udržení úrovně datové kvality. 

Jak? Například tím, že v informačních systémech vynutím vyplnění některých polí - prostě aby nezůstala prázdná. Nebo hlídám, že zadaný formát je v pořádku - např. u data nebo tel. čísla. Případně sofistikovaněji pomáhám uživateli identifikovat hrozící duplicity: "Hele, nějaký Jan Novák už v systému je. Není to náhodou zase on? Pak nevytvářejte nový záznam, ale použijte ten původní!". A tak dále.

V organizaci je třeba nastavit proces, který datovou kvalitu na zdrojových systémech stále vyhodnocuje a jsou přijímána příslušná opatření - další pravidla tak, aby se méně a méně chybovalo. Může jít o školení, směrnici, ale nejúčinnější je zabudování a vynucování pravidel datové kvality přímo v informačních systémech.

Transformační pravidla

V praxi bohužel neexistuje ideální datový zdroj, proto musíme pracovat i s nedokonalými datovými extrakty. Tu a tam je nějaká chyba, tu a tam něco chybí. 

Data pak opravujeme až při jejich zpracování (transformaci). Např. tím, že chybějící hodnotu nahradím nulou, aby se dala matematicky zpracovávat. Nebo nejpravděpodobnější hodnotou. Pokud mi např. chybí informace o příjmu žadatele o úvěr, mohu dle jeho bydliště použít střední hodnotu příjmu v dané lokalitě. Jednoduše předpokládám něco, co mi statisticky výsledek analýzy ovlivní jen minimálně.

Přitom musím vědět, které hodnoty jsou reálné a které jsem si při transformaci dat "domyslel". Tím ovlivňuji důvěryhodnost analýzy dat. Je zřejmé, že pokud si doplním 3% chybějících hodnot, bude výsledek mnohem kvalitnější, než když mi chybí 50% hodnot.

 

Příběh o kvalitě dat má mnoho vrstev a úhlů pohledu. Jsou útvary, které jsou na kvalitu dat zaměřeny a věnují se jejímu řízení kontinuálně celá léta.

My už dnes toto téma opustíme a budeme přemýšlet o dalších oblastech zpracování dat. Tak zase příště, milí čtenáři!

Tento web využívá cookies

Tento web používá k poskytování služeb, personalizaci reklam a analýze návštěvnosti soubory cookie. Používáním tohoto webu s tím souhlasíte. Zobrazit podrobnosti