Connect with us

Deutsch

Google stellt serverless Spark, AI Workbench und neue Datenangebote auf der Cloud Next vor

Published

on

Die Cloud war zwar großartig für Daten und Analysen – angesichts ihrer unbegrenzten Speicher- und Rechenkapazität – hat sie aber auch einen echten Rückgang der Produktivität für Datenprofis verursacht. Der Grund dafür ist vereinfacht gesagt, dass die großen Cloud-Anbieter zahlreiche Datenplattformen auf den Markt geschleudert haben und es den Kunden überlassen haben, die richtige Kombination von Diensten auszuwählen und diese dann zu integrieren. Sagen Sie, was Sie über die Enterprise-Software-Giganten der alten Garde sagen wollen, aber sie haben ihren Kunden viel von der “Assembly-erforderlichen” Erfahrung erspart, die die Cloud-Hyperscaler heute auferlegen.

Vielleicht passt es daher, dass Gerrit Kazmaier, bis vor kurzem der auf Daten und Analysen fokussierte Executive Vice President bei SAP, der neu ernannte Vice President & General Manager, Databases, Analytics & Looker von Google Cloud ist. SAP ist ein Unternehmen für Unternehmenssoftware, wenn es jemals eines gab. Und egal, ob ein kausales Phänomen im Spiel ist oder ob es nur zufällig apropos ist, Kazmaier informierte ZDNet über eine Reihe neuer Funktionen, die heute auf der digitalen Veranstaltung Cloud Next ’21 von Google angekündigt wurden, die den “schlüsselfertigen” Betrieb von Unternehmenssoftware auf den Markt bringen Datenplattform von Google Cloud.

An der Spitze von KI und Analytik

Die erste große Enthüllung von Google Cloud ist ein neues Angebot innerhalb seines Vertex AI-Dienstes namens Vertex AI Workbench. Die Workbench ist im Wesentlichen ein verwaltetes Notebook-Erlebnis, das als IDE (integrierte Entwicklungsumgebung) für maschinelles Lernen und KI-Arbeit dient. Es verbindet die Kernkomponenten von Vertex AI (wie seine Trainings- und Vorhersagedienste) mit Schlüsselkomponenten der Datenplattform wie BigQuery, Dataproc und Dataplex.

Dies ist genau die Art von Integration, die in Cloud-Analytics-Umgebungen bisher weitgehend gefehlt hat, und alles zusammen hilft Data Scientists, Machine-Learning-Ingenieuren und Data-Ingenieuren dabei, den Gangwechsel und den Gedankengang zu vermeiden, von Dienst zu Dienst zu springen. Das Öffnen der Benutzeroberflächen mehrerer Dienste in verschiedenen Browser-Tabs ist keine Integration; Bereitstellung einer Reihe von Diensten im Kontext einer anderen, komplementären ist.

Omni, vorhanden

Eine weitere große Ankündigung von Google Cloud heute ist die allgemeine Verfügbarkeit (GA) von BigQuery Omni, die es BigQuery-Benutzern ermöglicht, auf Daten zuzugreifen, die sie in Amazon Web Services (AWS) oder Microsoft Azure haben. Dies wird erreicht, indem Instanzen von BigQuery in diesen konkurrierenden Clouds ausgeführt, die Abfragen dort ausgeführt und die Ergebnisse an die Google Cloud-Homebase zurückgesendet werden. Ich habe ausführlich über Omni geschrieben, als es im Juli 2020 in der Vorschau veröffentlicht wurde.

Lesen Sie auch: Google BigQuery Omni verbindet Kunden mit Daten in AWS und Azure

Kazmaier sagte gegenüber ZDNet, dass Kunden wie Wayfair, Electronic Arts und Johnson & Johnson BigQuery Omni mit großem Vorteil nutzen. Aus dieser und anderen Ankündigungen wird klar, dass BigQuery im Mittelpunkt der “Data Cloud”-Strategie von Google steht. Die Bereitstellung von BigQuery-Zugriff auf in anderen Clouds gespeicherte Daten ist ein Muss für Google, und GA von Omni ist ein wichtiger Meilenstein.

Lesen Sie auch:

Hoch mit Spark, runter mit Servern

Die nächste Ankündigung ergänzt die anderen sehr gut: eine automatisch skalierende, serverlose Implementierung von Apache Spark namens Spark in der Google Cloud, die als Vorschaudienst verfügbar ist. Spark hat sich in der gesamten Branche zu einer allgegenwärtigen Commodity-Umgebung für alle Arten von Analyse-, Data-Engineering- und Machine-Learning-Workloads entwickelt. Ja, Cloud-Anbieter haben für sich selbst serverlose Spark-Dienste entwickelt; Beispielsweise werden Datenflüsse in Azure Data Factory auf Spark-Clustern ausgeführt, die Kunden nie selbst bereitstellen müssen, und von Amazon Glue generierter Code tut dies ebenfalls. Die Verwendung von Spark zur Ausführung eines bestimmten Schritts in den meisten Daten- und KI-Pipelines erforderte jedoch die explizite Bereitstellung eines Spark-Clusters und die Bewältigung der Latenz, die für das Hochfahren des Clusters erforderlich ist.

Lesen Sie auch: Azure Data Factory v2: Praktische Übersicht

Mit dem serverlosen Spark in Google Cloud senden Kunden, ähnlich wie bei BigQuery selbst, einfach ihre Arbeitslasten zur Ausführung und Google Cloud kümmert sich um den Rest, führt die Jobs aus und stört den Kunden nicht damit, eine diskrete Größe zu dimensionieren oder auch nur daran zu denken Funkencluster. Der Dienst wird in BigQuery, Dataproc, Dataplex und Vertex AI integriert, sodass Benutzer dieser Dienste Spark nutzen können, ohne die Last der Infrastrukturbereitstellung und -verwaltung zu tragen.

Von Cloud (Spanner) und (Google) Earth

Als nächstes: Google hat eine PostgreSQL-Schnittstelle auf Cloud Spanner implementiert, seinem geografisch verteilten relationalen Datenbankdienst. Obwohl es sich nicht um eine Implementierung von Postgres selbst handelt (etwas, das in Cloud SQL verfügbar ist), ermöglicht dieses Angebot Code, der den SQL-Dialekt und das Wire-Protokoll von Postgres verwendet, auf Spanner zu funktionieren. Vergleichen Sie dieses Angebot mit der Postgres-Schnittstelle im Aurora-Datenbankdienst von AWS oder mit Azure Database for PostgreSQL Hyperscale. In beiden Fällen, wie auch bei der Spanner Postgres-Schnittstelle, stehen Cloud-gehosteten, horizontal skalierten Datenbanken für diejenigen mit Postgres-Skillsets zur Verfügung. Das Angebot von Spanner Postgres ist in der Vorschau verfügbar.

Lesen Sie auch:

Und hier ist noch eine weitere Integration: Über 50 Petabyte an Google Earth-Daten stehen Nutzern von BigQuery, den ML-Technologien von Google Cloud und Google Maps zur Verfügung. Der Dienst namens Google Earth Engine wird in der Vorschau gestartet

Hingucker hier

Falls Sie es vergessen haben: Google Cloud besitzt jetzt Looker. Verdammt, der Name Looker ist sogar in Kazmaiers Titel. Und obwohl Looker selbst ein BI-Frontend ist, scheint Google genauso viel Wert in der LookML-Modellierungssprache zu sehen, mit der Looker semantische Modelle definieren kann, die die Datenanalyse durch BI-Benutzer erleichtern. Zu diesem Zweck wird die Connected Sheets-Technologie von Google, die es Benutzern von Google Sheets ermöglicht, Daten in BigQuery abzufragen, mit LookML kompatibel, was laut Google Cloud bis Ende dieses Jahres in Form einer Vorschau veröffentlicht wird.

Lesen Sie auch:

Über Connected Sheets hinaus kündigt Google jedoch eine Partnerschaft mit Tableau von Salesforce an, die dieser sehr beliebten Business-Intelligence-Plattform in Kürze auch über LookML Zugriff auf semantische Modelle von Looker bieten wird. Während andere Branchenakteure wie Databricks, Informatica, Trifacta, Fivetran und Collibra ebenfalls Spotlight-Partner bei Cloud Next sein werden, ist diese Partnerschaft mit Tableau beispiellos und sehr interessant. Es zeigt, dass Google Cloud weiß, dass es kein dominierender Daten-Cloud-Anbieter sein kann, ohne die Hilfe von Partnern aus der gesamten Analysewelt in Anspruch zu nehmen. Es zeigt auch wieder, dass Google die Übernahme von Looker sowohl für die Back-End-Datenmodellierungsfunktionen von Looker als auch für die Front-End-Datenvisualisierung und Dashboard-Funktionen verfolgt hat.

Lesen Sie auch: Salesforce-Tableau, andere BI-Deals-Flow; die zählung ist jetzt fünf hintereinander

Sachen aneinanderhängen?

Die bislang relativ fehlende Integration von Cloud-Diensten zu beklagen, ist kein bloßer Kritikpunkt. Für Kunden ist es eine Menge Arbeit, die Integration durchzuführen und sich durch die ganze Komplexität zu hacken, was eine Menge Risiken und Kosten mit sich bringt. Microsoft hat das Integrationsvakuum mit Azure Synapse Analytics angegangen, und man könnte argumentieren, AWS hat dies mit seinem Lake Formation-Angebot versucht.

Lesen Sie auch: Azure Synapse Analytics kombiniert Data Warehouse, Lake und Pipelines

Mit den heutigen Ankündigungen von Google Cloud erkennen alle drei großen Cloud-Anbieter die Bedeutung der Integration ihrer Dienste an. Das ist gut so, aber alle drei haben noch einen langen Weg vor sich, bis ihre Daten- und Analyseangebote einfach zu bedienen, vollständig rationalisiert und nahtlos integriert sind. Irgendwann werden die Hyperscaler jedoch mit Recht sagen können, dass die Cloud der neue Enterprise-Stack ist.

Continue Reading

Copyright © 2021 Meta Mag Inc.