Automatizált adattárház építés a Rapid Platform segítségével

Adattárház építés minimális tapasztalattal

10 hónap munkatapasztalattal rendelkező junior BI tanácsadóként azt a feladatot kaptam, hogy alakítsak ki egy komplett adattárházat, adatpiacot, és populáljam be adatokkal.

Tekintve, hogy kevés tapasztalattal rendelkeztem a területen, ez a feladat elsőre hosszú időt, és sok energiát igénylő kihívásnak tűnt. Természetesen nem egyedül kellett abszolválnom. Egy Senior kolléga segített elindulni, valamint figyelte és támogatta a feladatvégzés folyamatát. Ez nem változtatott azon a tényen, hogy egy komplex folyamatot kellett megértenem és véghez vinnem tapasztalat hiányában.

Ezért is lepődtem meg, mikor megismertem a Rapid platformot. Nem gondoltam, hogy egy adattárház építéséhez hasonlóan hosszú és sokszor meglehetősen összetett folyamat olyan szintig automatizálható és leegyszerűsíthető, amilyen a Rapid Platform segítségével lehetséges.

Projekt előkészületek

A szoftver használatához csupán erre volt szükség:

  • meg kellett értenem a folyamat lépéseit,
  • meg kellett értenem az adattárház struktúráját és definiálni a forrásrendszerből elhozandó objektumokat
  • ezeket az objektumokat fel kellett vinni egy egyszerű Excel alapú konfigurációs fájlba.
A konfiguráció beállításához szükséges paraméterekként meg kellett adnom a különböző forrásrendszerek elérhetőségeit, az ezekből elhozandó objektumokat, az objektumok esetleges változtatásait (például egy tábla oszlopai, egy mező adattípusa, neve), a betöltésük módját, historizálásuk mikéntjét és egyéb opcionális paramétereket, az adatbetöltő ETL folyamatok lépéseit, valamint a célrendszer elérhetőségét. Mivel mindez egy helyen megtalálható, gyorsan ellenőrizni és módosítani tudtam a struktúrán, ha változtatásra merült fel igény.
A metaadatok meghatározása után, az Abylon megoldása teljesen automatizáltan, egy PowerShell parancs futtatásával képes volt létrehozni igény szerint a különböző adatbázis rétegeket (stage, adattárház, adatpiac), a megadott célszerverre, ami esetemben egy MS SQL adatbázis szerver volt.

Az Abylon Rapid Platform megoldás haszna nem csak az Üzleti Intelligencia fejlesztőknek nyújtott könnyebbségben rejlik, hanem az ezzel járó jelentős költségcsökkenésben. Az automatizmusok által felszabadított időt és energiát a feladat és az adatok mélyebb megértésére, és ezen keresztül a tényleges értéket teremtő feladatokra fordíthattam, mint például a megfelelő adatmodell kialakítása és finomítása, valamint a későbbiekben ezekre a modellekre analitikai jelentések készítése. 

Pár szó a fejlesztői környezetről

Egy Microsoft stack alapú fejlesztői környezetben könnyedén kivitelezhető egy adattárház automatizációs megoldás az Abylon eszközével. 

Egy adattárház generálásának folyamata a különböző szoftvereken keresztül, röviden:

  1. MS Visual Studio megoldáson keresztül könnyedén megtalálható a konfigurációs fájl, amelyben a fentebb említettek szerint beállíthatók a szükséges paraméterek. Itt található még egy-egy, a kapcsolatokat és környezeteket tároló konfigurációs fájl is.

  2. A Rapid platform egy eszközének betöltése után, egy egyszerű PowerShell paranccsal legeneráltam a STAGE, DWH rétegeket definiáló file-okat a megoldás részeként.

  3. Visual Studio-ban a megoldás build-elése után, egy másik Rapid Platform parancsot megfuttatva, a kapcsolatok helyes definiálása esetén, a megadott SQL szerverre kitelepül az adott adatmodell struktúra. Ezután létrehoztam a különböző olap modelleket, amelyeket VS-ben, valamint Tabular editorban tudtam kialakítani. Ezt az adatbázishoz hasonlóan egy ara parancs segítségével ki tudtam telepíteni egy Analysis Services szerverre.

  4. Ezek után már csak az adatáttöltésre volt szükség, amelynek mikéntjét szintén a konfigurációban határoztam meg. A STAGE rétegből a DWH rétegbe való adatáttöltéshez szükséges tárolt eljárások automatikusan generálódtak le. Ezen tárolt eljárások meghívása egyszerűen felvehető „execution plan item”-ekként a konfigurációs file-ba, különböző „Execution plan”-ek részeként, amelyek egy SQL job segítségével könnyedén meghívhatók és beütemezhetők. A később, manuálisan létrehozott, DM réteget töltő tárolt eljárások is egyszerűen felvehetők a konfigurációs fájl ETL folyamatokat definiáló részébe, amelyek így az SQL job futtatásakor, az „Execution Plan” részeként lefutnak. Így egyetlen job futtatásával lehetőség nyílik a teljes adattárház adatainak betöltésére.

Így jött létre egy automatikusan frissülő adattárház, amelyben a szükséges adatok historizáltan elérhetőek, valamint az OLAP kockák, amelyekre kapcsolódva el is indulhatott a különféle analitikai riportok készítése. 

Annak ellenére, hogy a projekt közben ismerkedtem meg a megoldással, és hogy nem sok tapasztalattal rendelkeztem a területen, a megoldás egyszerűségének köszönhetően a teljes folyamat elvégzése, az ügyfél igény szerinti módosításokkal együtt csupán 2-3 hetet vett igénybe.

Az általam tapasztalt előnyök

Azon felül, hogy rengeteg terhet levesz a fejlesztők válláról az adattárház automatizálás, az ügyfelek számára is jelentős előny, hiszen nagyban csökkenthetők a megvalósításra szánt ráfordítások. 

Az automatizációk által nyújtott előnyök

Egyszerű használat

Rugalmasság

Mit mondanak róla az ügyfelek?

Amennyiben felkeltettem az érdeklődéseteket az Abylon Rapid Platformra épülő adattárház fejlesztő megoldásunk (korábbi nevén Rapid Analytics) iránt akkor az alábbi bejegyzés, ügyfélinterjú és esettanulmány is érdekes lehet:

A bejegyzés szerzője:

Tamásovics Zsombor - Junior BI tanácsadó az Abylon Consulting-nál
Linkedin Profile

További hírekért és érdekességekért kövesse social média csatornáinkat!

Érdekes volt a bejegyzés?

Iratkozzon fel hírlevelünkre, hogy értesüljön új témábavágó cikkeinről, híreinkről.

Please provide your name and email address to download the whitepaper

Please provide your basic info to view the Demo

Download Whitepaper on Rapid Smart Excel Add-In