Am veröffentlicht

AWS Neuigkeiten April 2021

In diesem Jahr steht der April in der AWS-Welt ganz im Zeichen der Verbesserung bestehender Services und Technologien. Dieser Blogbeitrag stellt einen Ausschnitt aus den Neuerungen und Ankündigungen des Monats April dar, erhebt aber nicht den Anspruch auf Vollständigkeit. Das Hauptaugenmerkt liegt hierbei auf Veränderungen, bei denen wir von einem direkten Einfluss auf unsere Kunden im Versicherungs-, Finanz- und Retailsektor ausgehen. In diesem Beitrag werden insbesondere Änderungen und Ankündigungen der Services AWS EC2, AWS SageMaker und AWS Redshift vorgestellt. 

Data Warehousing 

AWS Redshift 

Die Migration von on-premises Datenbanken in die Cloud ist eine der größten Aufgaben und wichtigsten Themen der letzten Jahre und so verwundert es wenig, dass Amazon auch diesen Monat weitere Neuerungen von Redshift bekannt gegeben hat. Hierbei stechen insbesondere zwei Neuerungen heraus: 

Die Unterstützung semi-strukturierter Daten 

Seit diesem Monat steht die native Unterstützung von JSON und semi-strukturierten Daten den Nutzern von AWS Redshift nun zur Verfügung. Die semi-strukturierten Daten können mittels des neuen Datentypens „SUPER“ gespeichert und unter Verwendung von PartiQL abgefragt und analysiert werden. Das direkte Speichern und Abfragen von semi-strukturierten Daten innerhalb der Strukturen von Redshift vereinfacht ETL-Verarbeitungen im Allgemeinen, da nun keine externen Dienste mehr für das Parsing notwendig sind. Ein weiteres Featuren, das nun durch die Verwendung von PartiQL möglich ist, ist die dynamische Typisierung und Typ-Prüfungsfunktion, welche das explizite „Casten“ von Datentypen obsolet macht.

Dieses Update hilft Redshift, die Lücke zu Snowflake etwas zu schließen. Snowflake unterstützt schon seit längerem eine performante Verarbeitung  von semi-strukturierten Daten wie JSON, XML oder Avro mittels nativer Funktionen und war somit in Fällen, in denen semi-strukturierte Daten verarbeitet werden sollten, Redshift überlegen. Noch immer fehlt Redshift der Support weiterer Datentypen wie beispielsweise XML, allerdings ist hier die Performance in Snowflake deutlich schlechter als bei der Verarbeitung von JSON, weswegen eine Konvertierung zu JSON meist ohnehin zu empfehlen ist.

Benchmarking: XML vs. JSON vs. Materialisierung in Snowflake

Benchmarking: XML vs. JSON vs. Materialisierung in Snowflake

Redshift AQUA 

Um den steigenden Datenwachstum der letzten Jahre gerecht werden zu können, hat AWS hinsichtlich des Storage und der Performance desselbigen bereits einige Neuerungen getroffen, wie beispielsweise der Release der SSD-basierten RA3-Nodes belegt. Nun ist es allerdings so, dass die Verbesserungen im Bereich Storage die der CPU-Performance im Allgemeinen übertreffen. Das stetige Datenwachstum in Kombination mit einer lediglich endlichen Netzwerkgeschwindigkeit haben offengelegt, dass in einigen Fällen die Netzwerk und CPU-Bandbreite ein limitierender Faktor sein können. Um dieses Problem zu lösen, hat AWS für die ra3.4xl und ra3.16xl Knoten nun AQUA veröffentlichtAQUA funktioniert wie eine Art horizontal skalierter Compute-Layer unter dem eigentlichen Redshift-Cluster.

Subqueries, die Aggregationen und Scans auf dem eigentlichen Daten enthalten, werden an dieses Layer übertragen. Das Layer ist dann dafür verantwortlich, in parallelisierter Form diese Subqueries zu bearbeiten und die Ergebnisse an das Redshift-Cluster zur weiteren Prozessierung zu übergeben. Durch das parallelisierte initiale Scannen der Daten wird die zu übertragende Datenmenge reduziert und somit eine performantere Abfrage ermöglicht. 

Konnektivität 

FSx File Gateway 

In den letzten Jahren wurden immer mehr Workloads in die Cloud migriert und profitieren dort von den günstigen Preisen, der flexiblen Skalierbarkeit und hohen Verfügbarkeit der Systeme. Viele lokale Anwendungen sind allerdings von niedrigen Latenzen abhängig, was bei einem direkten Zugriff auf Dateien in der Cloud nicht vollständig garantiert ist und somit zu PerformanceEinbußen führen kann. 

Aus diesem Grund hat AWS nun Amazon FSx File Gateway vorgestellt. Dies ist eine neue Art des bereits bekannten AWS Storage Gateways, welcher es Kunden ermöglicht, in der Cloud gespeicherte Daten mittels Amazon FSx for Windows File Server performant abzufragen. Der Service optimiert hierbei den lokalen Zugriff, indem es einen Cache für häufig abgerufene Daten anlegt und die Netzwerkverbindung optimiert. Dies hat zur Folge, dass die Latenz verringert wird und somit die oben beschrieben Workloads auch bei einem Zugriff auf Daten, die in einem Cloud-Datenspeicher abgelegt sind, performant laufen. 

 

Machine Learning 

AWS SageMaker – Saving Plans 

So wie bisher in jedem Monat in diesem Jahr, gibt es auch im April wieder Neuerungen bei AWS SageMaker. Im Gegensatz zu vielen vorherigen Änderungen, wie beispielsweise die im Februar, betreffen die Änderungen in diesem Monat allerdings hauptsächlich den finanziellen Bereich der Nutzung von SageMaker.

Seit 2019 ist es schon möglich, im Bereich der „normalen“ Compute-Ressourcen ein Langzeit-Commitment mit AWS einzugehen, um die eigenen Compute-Kosten zu optimieren. Hierbei geht man einen ein bzw. dreijährigen Vertrag mit AWS ein, in welchem eine gewisse Compute-Kapazität reserviert wird. Im Gegenzug verspricht Amazon eine Ersparnis von bis zu 72%. Diese Form des Saving Plans verspricht Amazon nun auch, neben einer allgemeinen Reduktion der Kosten für Compute-Instanzen der ml-Familie um 14,9%, für die Verwendung der Compute-Ressourcen des SageMaker-Services.

 

Amazon Timestream  

AWS hat bekannt gegeben, dass nun die fully-managed Zeitreihendatenbank Amazon Timestream im Standort Frankfurt verfügbar ist. Die Daten, die in Amazon Timestream gespeichert werden, werden automatisch nach vom Benutzer definierten Richtlinien entweder im Speicher gehalten oder auf eine kostenoptimierte Speicherebene verschoben. So ist es zum Beispiel möglich, aktuelle Daten für ad-hoc Abfragen direkt zur Verfügung zu haben und ältere Zeitreihendaten, auf die auch nur seltener zugegriffen werden, kostengünstig abzulegen 

Die Analysefunktionen des Services bieten viele zeitreihenspezifische Funktionalitäten, mit denen es möglich ist, aktuelle Trends und Muster in den Daten zu identifizieren. Weiterhin lässt sich Timestream leicht in bereits bestehende Machine Learning Strukturen integrieren und zusammen mit bereits etablierten Services wie Kinesis oder SageMaker nutzen 

 

Cloud-Computing 

EC2 – Serial Console 

Eine der Hauptaufgaben im Bereich der System- und Netzwerkadministration ist das Beheben von Fehlern auf produktiven Systemen. Durch die steigende Komplexität dieser Systeme ist diese Aufgabe, trotz der Nutzung von Konstrukten wie Infrastructure as Code, noch anspruchsvoller geworden. Um das Troubleshooting von Boot und Netzwerk-Problemen zu erleichtern, hat AWS nun die EC2 Serial Console entwickelt, welche einen textbasierten Zugriff auf eine Instanz ermöglicht und so die Fehlersuche erleichtert. Die Nutzung dieser Konsole bietet sich besonders in Fällen an, in denen es nicht möglich ist, eine normale Verbindung über SSH oder RDP zu der jeweiligen Instanz aufzubauen 

Die Serial Console ist verfügbar für alle EC2-Instanzen, die auf dem AWS Nitro System basieren und unterstützt alle größeren Linux Distributionen, FreeBSD, NetBSD, Windows und VMWare 

 

Für weitere regelmäßige Updates zum Thema AWS Cloud, folgen Sie unserer Präsenz auf Xing undInstagramoder direkt unserem Blog.