Esettanulmány: On-prem adattárházra épülő fejlett adatelemzési platform

Bevezető

Ebben a bejegyzésben egy fejlett adatelemzési projektet ismertetünk röviden, amelyet nemrégiben egy nagy nemzetközi vállalat számára valósítottunk meg. A projekt fő célja az volt, hogy javítsuk ügyfelünk kiskereskedelmi adatainak (üzleteiből származó értékesítési adatok) kezelését egy további fejlett analitikai platform hozzáadásával a meglévő adat infrastruktúrához.

Üzleti igény

A projektet megelőzően ügyfelünk kiskereskedelmi adatait kizárólag egy nagy, hagyományos, monolitikus, on-prem SQL-adattárház kezelte. Ebből a – nevezzük „hagyományos” – adattárházból származó adatokat aggregálták és előre elkészített, csoportszintű dasboard-okon mutatták be. Ezek a dashboard-ok korlátozottak voltak és nagymértékben függtek a fejlesztőktől akik valamikor előállították ezeket a riporting felületeket. A részletesebb adatokhoz vagy az ezeken a dashboard-okon kívüli adatokhoz való hozzáférés, illetve az ezeken alapuló egyéni jelentések létrehozása nagy idő és energia ráfordítást igényelt.

Ez a merev infrastruktúra nem volt alkalmas olyan  fejlett analitikai megoldás kialakítására, amely képes dinamikus adatokat megjeleníteni valamint lehetőséget biztosít az önkiszolgáló BI (üzleti intelligencia) kialakítására.

Ezen felül ügyfelünknek másik létező BI-megoldásai is vannak, amelyek szintén igényelnék ezt a fajta dinamikus adatot.

Megoldás – Azure Synapse és Databricks-alapú fejlett adatelemző platform kialakítása

Egy új, felhőalapú (Azure Synapse-alapú) adattárházat építettünk a meglévő helyi adattárházra, és összekapcsoltuk a meglévő Databricks (DBX) platformmal. Az on-prem adattárházból napi rendszerességgel kiexportáljuk a nyers adatokat, és az új fejlett analitikai platformon hozzáférhetővé tesszük.

Az új platform két komponensből (al-platformból) áll:

  1. Egy Databricks (DBX) platform fejlesztésre (belértve a self-service, azaz „önkiszolgáló” fejlesztést is)
  2. Egy Synapse platform tranzakciós-szintű adatelemzésre (beleértve a self-service, azazaz „önkiszolgáló” adatelemzést is)

A Databricks Platform egy önkiszolgáló fejlesztési platform, amely Python,  Machine Learning (gépi tanulás) és mesterséges intelligenciás technológiát használ. Ez a platform elsősorban belső fejlesztők számára készült az előrejelzéshez és különböző adattudományi megoldások létrehozásához, valamint külső beszállítók (fejlesztők) számára, akik egyedi megoldásokat fejleszthetnek rá saját üzleti igényeik kielégítésére.

Ezzel szemben a Synapse platform fő célja az önkiszolgáló adatelemzés lehetővé tétele. A felhasználók közvetlenül csatlakozhatnak az data lake-ből származó nyers adatokhoz, itt pedig egyéni lekérdezéseket hajthatnak végre, tranzakciós szinten láthatják az adatokat, és akár Excelből vagy Power BI-ből is csatlakozhatnak az adatokhoz.

Dinamikusabb adatok

Az aggregált dashboard-okkal szemben (amelyek az on-prem adattárházakat használják), az új Synapse-alapú adattárházban minden adat tranzakciós szinten áll rendelkezésre. Tranzakaciós adatok alatt olyan adatokat kell érteni mint: a kosár mérete (hány terméket vásároltak együtt), az összes tranzakció, tranzakciós adatok tételszinten (mely termékeket vásárolták együtt, kedvezmények, eladási mennyiség stb…), minden meta- és törzsadat (az üzletek adatai, mint például nyitvatartási idő, telekméret, földrajzi koordináták stb.) Ezen adatok többsége korábban NEM volt elérhető a régi on-prem rendszerre épített, előre elkészített műszerfalakban, és most a Synapse környezetben, dinamikusabb beállításban és sokkal nagyobb közönség számára elérhető.

Könnyebb hozzáférés, több felhasználó

Ezzel az új, fejlett analitikai platformmal az üzleti elemzők is hozzáférhetnek az összes adathoz, és saját jelentéseket készíthetnek, akár Excelből is. Továbbá, ez a beállítás lehetővé teszi újabb adatrétegek létrehozását is „külsős” cégek számára (például a gyártók – akiknek a termékeit ezekben az üzletekben értékesítik). Ezeknek az adatrétegenek a szolgáltatásként való értékesítése további bevételi forrást jelenthet

Skálázhatóság és csökkentett infrastrukturális költségek

Egy másik hatalmas előny, hogy az új platform lehetővé teszi ügyfelünk számára, hogy igényei szerint dinamikusan felfelé vagy lefelé skálázza a számítási erőforrásokat. Ez a költséghatékonyság szempontjából egy lényegesen jobb megoldást jelent.

Érdekes, hasznos volt a bejegyzés?

Iratkozzon fel hírlevelünkre, hogy értesüljön új cikkeinről, híreinkről.

További hírekért és érdekességekért kövesse social média csatornáinkat!

Please provide your name and email address to download the whitepaper

Please provide your basic info to view the Demo

Download Whitepaper on Rapid Smart Excel Add-In