Data & AI recap: Microsoft Ignite

Laatste update 04 juli 2022

Zoals in een eerdere recap blog staat beschreven, zijn er verschillende teams van InSpark aanwezig geweest op Microsoft Ignite 2019. Ook het team ‘Data & AI’ van InSpark was hierbij aanwezig. Vanuit mijn rol als Data Engineer bij InSpark ben ik vol enthousiasme naar het evenement gegaan om nieuwe gave diensten en features te mogen ontdekken, die wij als team kunnen gebruiken om onze klanten beter te bedienen en te helpen te innoveren.

Dag 1 begon met de keynote van Satya Nadella waar hij presenteerde over de visie en strategie van Microsoft, waar Microsoft voor staat en waar zij naar toe willen. Ook onthulde Satya nieuwe Microsoft Azure diensten als:

Azure Arc: Azure Arc brengt de kracht van Azure naar je eigen (on premise) datacenter, Azure Edge en naar 3e partij Cloud omgevingen zoals Google of AWS.
Project Silica: Satya Nadella kondigde aan dat Microsoft met een project is gestart, genaamd ‘Project Silica’. Hier werkt Microsoft samen met Warner Bros om de originele film van Superman op een stukje quarts glas op te slaan. Met deze nieuwe opslagmethode kunnen archieven efficiënt opgeslagen worden en geeft Microsoft antwoord op de alsmaar toenemende vraag naar (long term) storage in de Cloud.
Azure Synapse Analytics: Azure Synapse Analytics is de volgende generatie van Azure SQL Datawarehouse met ongekende performance en grenzeloze compute kracht. Vele spreken over dit platform als een game changer in de wereld van Big Data Analytics. In deze blog vertel ik hier meer over.

Omdat mijn focus ligt op de Azure Data services, zal ik in mijn blog dieper ingaan op de ontwikkelingen rondom Azure Synapse Analytics, Azure Data Share en de ontwikkelingen op het Power BI platform. Ben je nou nieuwsgierig naar het overzicht van sessies die ik heb bezocht? Bekijk dan hier mijn volledige programma tijdens Microsoft Ignite.

Azure Synapse Analytics

Tot op heden worden nog steeds blogs en artikelen gepubliceerd betreft het nieuwe Data Analytics platform ‘Azure Synapse Analytics’. Het heeft zeker enige opschudding veroorzaakt binnen de wereld van Data Analytics. Wat ik vooral interessant vond om te zien was dat Microsoft ervoor heeft gekozen om de uitspraken en beweringen omtrent Azure Synapse Analytics niet in een obscure krant of benchmark website te publiceren, maar in zijn meest pure vorm: een zeer openbare aankondiging door Microsoft CEO Satya Nadella. Mocht je benieuwd zijn naar de volledige keynote van Satya Nadella, kun je deze terugkijken.

Next Gen

Het segment over Azure Synapse werd tijdens de opening keynote gegeven door Corporate VP van Azure Data, Rohan Kumar. Hij definieerde Azure Synapse op de volgende manier:

“the next generation of the Azure SQL data warehouse, which blends together big-data analytics, data warehousing and data integration into a single unified service that provides end-to-end analytics at cloud scale.”

Wat ik hier tijdens Ignite van mee heb gekregen is het volgende. Azure Synapse combineert data ingest, prep&transform, query’s, visualisering en Artificial Intelligence ondersteuning voor gestructureerde, streaming en ongestructureerde data. Het verenigt de basis van SQL Server met Big Data en Streaming Processing van Spark met de mogelijkheid voor data flows, Power BI en Azure Machine Learning. En dat alles met de flexibiliteit om capaciteit aan te passen en te schalen naar wat jij als organisatie nodig hebt. Met Azure Synapse hoeven organisaties zich minder druk te maken om de architectuur en kunnen zo meer tijd besteden aan hun core business.

Rohan Kumar sprak tijdens zijn presentatie voornamelijk over de snelheid en performance van het platform en zei het volgende:

“With Synapse, project timelines will be measured in hours and not months.”

Hij gaf aan dat het platform een complexe query 75x sneller uitvoert dan Google’s BigQuery service en 3x sneller dan Amazon’s Red Shift. Als deze beweringen van Microsoft zich in de praktijk bewijzen, kun je je voorstellen dat dit grote impact zal hebben, aangezien:

Vele organisaties een data-driven enterprise willen worden waar volume van data en performance van analytics centraal staan.
Google en Amazon zullen hier hoogstwaarschijnlijk op reageren, maar de kans dat zij dit zullen overtreffen met dergelijke cijfers is klein.
Microsoft die zichzelf positioneert als nummer #1 in de markt, voor sterke competitie zal zorgen waardoor klanten waarschijnlijk uit nieuwe oplossingen op het gebied van ‘Data Analytics’ kunnen kiezen in 2020.

Azure Synapse maakt ook gebruik van een breed scala aan andere Microsoft services, waaronder Power BI en Azure Machine Learning, evenals een partner ecosysteem met Databricks, Informatica, Accenture, Panoply, Talend, Attunity, Pargmatic Works en Adatis. Daarbij is het ook geïntegreerd met Apache Spark. Het platform moet zich in de praktijk nog maar bewijzen, maar als het doet wat Microsoft zegt wat het doet, zal dit een enorm krachtige tool zijn om veel business opportunities aan te kunnen vliegen.

Azure Data Share

Azure Data Share is een push-subscriber-based data sharing tool waarmee gebruikers datasets kunnen delen met behulp van Azure Services. Het vereist geen infrastructuur en werkt met andere PaaS Services als Azure Blob, Data lake (Gen1 & Gen2), SQL DB en SQL DWH. De focus ligt voornamelijk op Big Data, voor het delen van grote datasets, maar kan ook werken met andere vormen van gegevens:

Azure Data Share werkt alleen met andere Azure Services waardoor de functionaliteit om gegevens te delen alleen mogelijk is binnen Azure. Wanneer je als organisatie gegevens wilt delen buiten Azure, is dit helaas niet mogelijk.
Azure Data Share biedt ook de mogelijkheid om scheduled een dataset te delen met consumers zodat zij altijd naar actuele data kijken zonder handmatige handelingen daartussen. Wat voor mij het meeste eruit sprong binnen Azure Data Share was de Incremental Load en het beheer portaal

Incremental load

Zodra de provider-consumer link is gemaakt voor een dataset kunnen consumers een Incremental Load uitvoeren die alleen nieuwe gegevens ophalen sinds de laatste run. Dit scheelt op gebied van performance enorm veel wanneer je veel of grote datasets uitwisselt.

Beheer

Azure Data Share biedt een beheer panel waarin zowel de providers als consumers kunnen zien waar de data vandaan komt, van wie het is, wanneer het voor het laatst is ververst en de mogelijkheid om de Data Share connectie weer te verbreken. Dit is interessant voor organisaties die veel gegevens delen aangezien zij met deze beheer panel een duidelijk overzicht krijgen van welke gegevens zij delen, en met wie. Tevens kunnen deze organisaties ook met één klik op de knop de Data Share connecties verbreken.

Azure Data Share Features & Requirements

Share data between Blob, Data Lake, SQL DB, SQL DWH
Incremental load
Monitor alle Data Shares met consumers
Providers en consumers moeten beiden een Data Share aanmaken
Share data met verschillende consumers vanuit één panel
Secure sharing with AAD-based authentication and no exchange of credentials
Ook gebouwd voor Big Data

Power BI

Er werden op Ignite 30 sessies gehouden die betrekking hadden op Power BI. Dit is erg veel, maar met de nieuwe technieken en innovaties die zijn aangekondigd voor Power BI is het begrijpelijk dat er zoveel sessies waren. Nieuwe features van Power BI die gaan komen zijn als volgt:

Deployment Pipelines

Power BI Deployment Pipelines is naar mijn mening de gaafste nieuwe feature die in 2020 gaat komen. Met Power BI Deployment Pipelines zijn organisaties in staat om op een veilige en eenvoudige manier wijzigingen te deployen binnen OTAP omgevingen (workspaces), waardoor handmatige handelingen of custom scripting niet meer nodig is. Vanuit de Power BI Service kunnen deze pipelines getriggerd worden die alle wijzigingen in bijvoorbeeld een development workspace deployen naar een test workspace. Op deze manier hoef je niet meer handmatig PBIX bestanden te publishen naar verschillende omgevingen en daarboven versiebeheer te doen om te borgen dat alles maar goed staat overal.

Ook zijn de verschillende deployment pipelines die een gebruiker aanmaakt configurabel waarmee met behulp van parameters verschillende workspaces in Power BI kunnen wijzen naar bijbehorende omgevingen (OTAP). Hierdoor hoeven connection parameters niet steeds gewijzigd te worden. Ten slotte is het ook mogelijk om RLS af te dwingen in een workspace met behulp van de deployment pipelines. Met deze functie zou je gevoelige data kunnen afschermen in een development workspace, en alleen zichtbaar maken in een production workspace zonder enige tussen handelingen.

Big Data Model

Wanneer je de nieuwe ontwikkelingen van Power BI goed in de gaten houdt zie je dat Power BI steeds meer functionaliteiten van Azure Analysis Services overneemt en soms zelfs verbetert. Power BI komt nu dan ook met een Big Data Model waarin datasets opgeslagen worden in een gecomprimeerde cache voor razendsnelle query performance. Dit zorgt voor snelle gebruikersinteractiviteit over grote datasets. Tot kort geleden waren datasetcaches in Power BI Premium gelimiteerd tot 10GB na compressie. Het Big Data Model elimineert deze beperking waardoor de cache grootte van een dataset nu alleen maar wordt gelimiteerd door de capaciteit van Power BI Premium die een gebruiker/organisatie afneemt. Ook kan er gebruik gemaakt worden van een Incremental refresh binnen een Big Data Model wat zorgt voor minimale overhead tijdens interactiviteit over grote datasets.

Vele zeggen al dat met de komst van het Big Data Model in combinatie met Aggregations, Incremental refresh en Shared & Certified datasets, dat Power BI de next generation van Azure Analysis Services is.

Cognitive Services & CDM & Decomposition tree

Power BI komt met Cognitieve services waarmee het mogelijk wordt om bijvoorbeeld een Machine Learning model te maken en te trainen binnen Power BI zonder enige technische kennis van Machine Learning. Ook wordt het gebruik van Common Data Services binnen Power BI mogelijk waardoor je makkelijker Power BI kan integreren met andere componenten binnen het Power Platform van Microsoft.

Data protection

Tot slot zie je ook dat Power BI veel focus legt op gebied van Governance en Data Protection met bijvoorbeeld deze features:

Classificeer en label gevoelige Power BI gegevens met behulp van de Microsoft Information Protection sensitivity labels die gebruikt worden in Office.
Governance policies afdwingen wanneer Power BI content wordt geëxporteerd naar bijvoorbeeld Excel, PowerPoint of PDF om ervoor te zorgen dat gegevens bescherm worden wanneer het Power BI verlaat.

Overige nieuwe features

Helaas kan ik niet alles beschrijven van wat ik heb meegemaakt, dus om nog een beeld te geven van wat er onder andere nog meer gaat komen staan hieronder verschillende Azure dataservices met nieuwe features en aankondigingen.

Azure Service	Feature
Azure Datawarehouse	Dynamics data masking (GA)
Azure Datawarehouse	Column level encryption
Azure Data Lake Storage Gen2	Native query
Azure Data Lake Storage Gen2	Event Grid integration (GA)
Azure Data Lake Storage Gen2	SDK (Public preview planned for November 2019)
Azure Data Factory	Wrangling Data Flow (Public preview)
Azure Databricks	MSI supported
Azure Databricks	AKV-backed secret via API and CLI
Azure Databricks	Azure Lighthouse integration

Innovatie & Governance

Een laatste ding wat mij is opgevallen tijdens Ignite, is dat er naast ‘Innovatie’ ook veel focus gelegd werd op ‘Governance’. IT Governance is van cruciaal belang aangezien het steeds een grotere rol gaat spelen binnen groeiende ICT organisaties, maar ook binnen non-ICT organisaties die met gegevens werken. Ik ben ook dan blij om te horen dat Microsoft hier veel focus op legt aangezien volwassen organisaties verwachten dat Governance standaard wordt meegenomen in de dienstverlening van IT-dienstverleners.

Conclusie

Ik heb veel kennis opgedaan en inside informatie gekregen met betrekking tot Azure dataservices, waar wij als Data & AI team veel aan hebben om onze moderne data platform ‘Oxygen’ te vernieuwen om zo onze klanten te helpen innoveren. Wil jij nou meer weten over de laatste ontwikkelingen op het datavlak? Of ben je nieuwsgierig naar de mogelijkheden voor jouw bedrijf? Bekijk dan mijn recap vlog hieronder of neem contact met mij op.