Serveis i Capacitats de la PTD
La Plataforma Transversal de Dades de la Generalitat de Catalunya (PTD) es presenta com una solució tecnològica integral, adaptable, fiable i orientada a resoldre els reptes presents i futurs de l’administració.
Està construïda sobre una arquitectura SaaS multicloud que prioritza l’ús de tecnologies open source, incloent eines com Databricks, Spark i Delta Lake.
La proposta arquitectònica és compatible amb el model europeu de Gaia-X, ja que permet l’emmagatzematge, processament i transmissió de la informació per a compartir dades amb clients, mantenint la sobirania de les dades. També compleix amb els requisits d’arquitectura federada, descentralitzada i oberta de Gaia-X.
Aquesta plataforma integra mòduls per a la gestió de Dades de Referència i Mestres de Dades d’ús corporatiu, així com un mòdul específic d’Integració i Data Quality, destacant la importància de la diversitat, complexitat i sensibilitat de les dades tractades.
Mòduls de la PTD
Els mòduls de la PTD responen a les diferents necessitats d’ingesta, qualitat, emmagatzematge, transformació i publicació de les dades. A continuació, es detallen de manera separada els diversos mòduls que formen part de la PTD, així com les eines utilitzades en cadascun d’ells.
Connexió/Ingesta
- Integració amb múltiples orígens de dades en diversos formats, tant on-premise com en cloud.
- Capacitat d’ingesta en batch o temps real, adaptant-se a les necessitats de processament.
- Capacitat integració amb webservices, API Rest i sistemes d’esdeveniments com Confluent Kafka.
- Utilització de Databricks per a processos adhoc d’ingesta i automatització amb el Mòdul ITQ.
- Virtualització de dades amb Denodo, desacoblant les fonts de dades dels processos de càrrega.
Data Quality
- Solució configurable de qualitat de dades basada en Spark i Databricks amb taules Delta Lake.
- Catàleg de regles per garantir la qualitat de les dades, incloent regles de reparació automàtica i enriquiment d’informació.
- Capacitats de remediació manual i consolidació de dades per garantir informació precisa i fiable.
- Sistema integrat amb GICAR per a l’autenticació, multitenant i control d’accés basat en RBAC.
- Persistencia en el Data Lake i explotable via l’API corporativa per a tercers (p.e. Normalitzador d’adreces).
Emmagatzematge i dominis d’informació
- Basat en el concepte de Data Lakehouse, conforma una plataforma d’emmagatzematge i d’analítica unificada, mullti-cloud i independent del format o estructura de les dades.
- Dades estructurades: empra el Delta Lake de Databricks per a dades estructurades, oferint una capa d’emmagatzematge optimitzat, compatible amb Spark per a processaments batch i streaming, i estandaritzat amb fluxos en capes Bronze, Silver i Gold.
- Dades Semi/No-estructurades: utilitza MongoDB Atlas en versió SAS i Multicloud com a solució per a dades semiestructurades i no estructurades, oferint funcionalitats avançades que permet redimensionar la infraestructura segons l’ús, amb nodes en diversos proveïdors cloud, optimitzant costos i rendiment.
- Base de Dades Relacionals i graf: la PTD gestiona dades relacionals amb PostgreSQL per projectes que ho requereixin i Neo4j AuraDB per a dades en graf.
Transformació
- La PTD amb Databricks ofereix una plataforma integrada que utilitza processos Spark per gestionar el cicle de vida de les dades de manera eficient, permetent als usuaris executar, monitoritzar i ajustar processos de forma aïllada, i que facilita la gestió de tasques, modificació de paràmetres i visualització de logs.
- Capacitat d’orquestració avançada de tasques mitjançant workflows visuals, dotant a l’usuari de flexibilitat i autonomia en els seus procesos de transformació i enriquiment de les dades.
- Capacitat d’executar notebooks a la PTD, que permet als usuaris desenvolupar, executar i gestionar processos de dades en temps real de manera autònoma i col·laborativa, tot això sense la necessitat de desplegaments tradicionals.
Publicació
- SFTP Corporatiu: Serveis d’FTP segurs per compartir fitxers entre departaments i tercers, on-premise o en el cloud.
- Virtualització de dades: Denodo ofereix accés unificat a fonts heterogènies (SQL, NoSQL), amb centralització d’auditoria i seguretat.
- API Manager: Integració amb l’API Manager Corporatiu per a la publicació i consum de dades per tercers.
- Microserveis multicloud: Compatibles amb Kubernetes (AKS, EKS, GKS) per desplegar serveis en entorns multicloud.
- Connectors JDBC natius: Databricks proporciona conectors JDBC per a una àmplia varietat de bases de dades i aplicacions de tercers.
- Data Sharing: Delta Sharing de Databricks facilita la compartició segura de dades sense moure-les, compatible amb múltiples formats.
Dades de referència (RDM)
- Una dada de referència és informació estàndard compartida entre diferents aplicacions i departaments, i que assegura la consistència i la uniformitat en l’ús de dades dins l’administració, facilitant així la interoperabilitat i la coherència dels anàlisis transversals.
- El mòdul de RDM a la PTD, permetrà gestionar l’end-to-end de les dades de referència, des de la descoberta fins la publicació.Això s’aconsegueix industrialitzant el consum de dades de referència via l’API Manager corporatiu.
- El mòdul RDM permetrà recuperar el llistat de dades de referència i les seves diferents versions, així com el conjunt de canvis que s’han produïts en aquestes, i també es disposarà de la capacitat de registrar o anular la subscripció a una dada de referencia per les aplicacions.
- Les dades de referencia es publiquen al portal Canigó del CTTI per ús intern, i al portal Open Data a l’hora de donar visibilitat pública.
Dades mestres (MDM)
- La PTD compta amb un sistema de gestió de Dades Mestres (MDM) que ofereix una visió única i fiable de les dades clau dels departaments, assegurant la coherència i qualitat mitjançant un sistema de validació abans de la seva integració. L’arquitectura de consolidació del MDM permet alimentar sistemes informacionals sense necessitat de sincronització ni afectació als processos operacionals.
- Etapa de puntuació (Scoring): Assigna un grau de confiança a cada dada segons la seva fiabilitat.
- Etapa de preparació (Staging): Els dades s’incorporen al sistema, preparant-se per a futures operacions.
- Etapa d’identificació: Es dona un identificador únic als registres per mantenir la coherència.
- Etapa de consolidació: Combina dades noves amb les existents per millorar la qualitat.
- Etapa de publicació: El Golden Record s’actualitza i elimina redundàncies.
- Etapa de disponibilitat: Facilita l’accés al Golden Record, incloent informació històrica.
Aprovisionament de recursos (Finops)
-
FinOps permet mesurar i monitorar l’aprovisionament de recursos en una organització per a optimitzar l’ús dels mateixos de manera eficient facilitant la presa de decisions en col·laboració amb els equips d’enginyeria, finances i negoci.
-
És possible monitorar qualsevol Cloud Service Provider (CSP), així com Platform as a Service (PaaS) homologats o no, a estàndard de FinOps Open Cost and Usage Specification (FOCUS). Alguns serveis que s’estan monitorant en el FinOps de la PTD actualment són: Azure, MongoDB, Databricks o Denodo. Amb la incorporació de nous serveis es crearà una línia de desenvolupament per a la seva incorporació en el flux de FinOps.
-
Amb l’objectiu d’analitzar la informació, realitzar comparatives i evolucions històriques o analitzar els costos segons les dimensions disponibles (unitat organitzativa, projecte, servei, recurs, etc…) l’explotació de les dades es realitza mitjançant un dashboard en Microstrategy.