Mikor érdemes és mikor nem érdemes egy cégnek adattárházat fejleszteni?
Nemrégiben az egyik ügyfelünk megkérdezte tőlem, hogy az egyik felvásárolt vállalatnál érdemes-e adattárház építésbe kezdeni, és ha igen, milyen érvek szólnak mellette. Ez a beszélgetés inspirált ennek a bejegyzésnek a megírására.
(Megjegyzés: korábban közgazdászként és üzleti szakemberként dolgoztam, mielőtt az informatikára és az üzleti intelligenciára váltottam. Ebben a cikkben megpróbálok hidat építeni a közgazdaságtan és az informatika között, ezért elnézést kérek minden informatikai szakembertől, ha a nem informatikus olvasók kedvéért leegyszerűsítek vagy akár túlságosan leegyszerűsítek néhány dolgot).
Mikor nem érdemes (még) adattárházat fejleszteni?
Ha még most kezdtek el riportokat gyártani, riporting rendszert kiépíteni
Nem, ha még most kezded el kiépíteni a riportjaidat, nagyon nagy valószínűséggel még te magad sem tudod, hogy milyen adatokból, pontosan hogyan kellene elővarázsolni azokat a számokat, amit prezentálnod kell a Vezetőségnek. Ebben az esetben még nem érdemes elkezdeni adattárházzal, vagy BI-al foglalkozni.
Nagy valószínűséggel a riportkészítés és az adatok felmérésének a folyamatában el fogsz jutni odáig, hogy:
- Egységesítesz, azaz pl. Közös adat-szótárat alakítotok ki
- OLTP-alapú fejlesztést végeztek, azaz az adatgyűjtést (pl. Egy ERP-rendszer implementációjával, vagy kibővítésével) egységesítitek, közös platformra terelitek
- A riportok tartalma sem pontos még talán, ezért a riportok célja is változhat folyamatosan.
Ha már elkezdtetek riportokat gyártani, de néhány (mondjuk 3-4 komplexebb, vagy 5-6 egyszerűbb) riporttal el tudjátok látni az adott céghez kapcsolódó feladatokat.
Amennyiben kimerülni látszik egy adott céggel kapcsolatban a témák száma, és stabilan, várhatóan kis folyamatos időráfordítás mellett képesek lesztek lekezelni a riportokban történt változásokat, és a változásokat az alapadatokban nem kell azonnal átvezetni a rendszereken.
Ha az adatok számossága nem túl nagy (és a fentiek közül legalább egy fennáll)
Amennyiben a riportokban felhasznált adatok (pl. Rekordok, sorok száma egy táblában) számossága, mérete, komplexitása nem olyan nagy, hogy két riport közötti időszakban szükség lenne komolyabb optimalizálásra vagy arra, hogy több adatot tudjon feldolgozni a jelenlegi riporting rendszer.
Ha a riporting során az adatlekérések gyakorisága és az azokhoz kapcsolódó adatmennyiség NEM terheli meg érezhetően a forrásrendszereket (pl. Egy ERP-rendszert)
A BI-rendszereket technológiai értelemben az hívta életre, hogy az adatrögzítésre kialakított rendszerek (ún. OLTP rendszerek, pl. ERP-rendszerek, amelyek arra lettek optimalizálva, hogy a felhasználók részére az adatok felvitelét tegyék egyszerűbbé) nem arra optimalizáltak, hogy sokszor, nagy mennyiségű lekérdezést is kiszolgáljanak, miközben az adatrögzítés lenne a fő feladatuk.
Amennyiben nem terheli meg túlzottan a forrásrendszereket, azaz nem észlelhető szignifikáns lassulás az adatrögzítő oldalon, sem pedig az adatlekérdező oldalon, akkor szintén nem indokolja egyelőre semmi, hogy adattárházban, vagy BI-rendszerben kezdj el gondolkozni.
Mikor érdemes elkezdeni gondolkozni adattárház-technológia kiépítésén?
Ha már ki se látsz az Excel-, és/vagy Power BI alapú riportjaidból, amit a Vezetőségnek adnál.
Ha nagyon sok, különböző komplexitású riportról beszélünk, amelyekben keverednek a különböző technológiai megoldások, pl. PowerQuery, Excel-es transzformációk, PowerBI adatmodellezés, és nehéz átlátni, és debuggolni ezeket, illetve nehéz átvezetni a forrásrendszeri változásokat éppen a komplexitás miatt, akkor érdemes lehet a standard megoldások felé elindulni.
Historizálásra van szükséged
Előfordul, hogy az OLTP rendszer (pl. ERP-rendszer) nem optimális arra, vagy nem ad lehetőséget arra, hogy historizálja az adatokat, azaz pl. Egyszerűen és könnyen meg tudd mondani egy cikkszámról, hogy mikor volt raktáron és mikor nem, vagy egy személyről, hogy mikor melyik csapat tagja volt, vagy mikor mondott fel.
Különböző minőségű, forrású és mélységű adatok stabil, gyors összekötésére van szükséged
Amennyiben riport igények megkívánják, előfordul, hogy milliós rekordszámban (milliónyi sorok) kell adatokat összedolgozni különböző forrásrendszerekből (pl. Egy SQL adatbázist és egy Excel-t, vagy egy REST API-n keresztül elérhető adattömeget, stb.).
Annak érdekében, hogy ezeket gyorsan, és optimalizáltan lehessen összedolgozni, olykor megkerülhetetlen egy nagyobb teljesítményű SQL adatbázis igénybevétele, amelyet kifejezetten riporting igényekre specializálnak.
Az adatok mennyisége, vagy a riportálás gyorsasága, a két riport közötti idő rövidsége (pl. Óránkénti riportfrissítés) indokolja
Nagyon rövid időközönként történő riportálás, valamint nagy adattömeg feldolgozása teheti indokolttá, hogy elkezdj ezen gondolkozni.
Amennyiben fennáll hasonló helyzet, és kíváncsi vagy arra, hogy az Abylon csapata mit ajánl ilyen esetekben, olvasd el kollégám cikkét a “Közel valós idejű adattárház-megoldás”-ról.
A lekérdezések gyakran futnak, és/vagy olyan nagy adattömegűek, hogy erősen megterhelik a forrásrendszer motorját (pl. Egy adatbázis-motort)
Ez esetben is érdemes elkezdeni az adattárház-kiépítésen gondolkodni, a lehetőségeket elkezdeni felkutatni.
A bejegyzés szerzője
Kreisz Zsolt - BI fejlesztő az Abylon-nál LinkedIn Profil
Érdekes, hasznos volt a bejegyzés?
Iratkozzon fel hírlevelünkre, hogy értesüljön új cikkeinkről, híreinkről.