Datenanalyse und Machine Learning - I/III

Der Umfang von generierten Daten steigt ständig durch die zunehmende Digitalisierung nahezu aller Lebensbereiche – von Industrie 4.0 über den öffentlichen Sektor bis hin zu SmartHome. Dabei verbergen sich in den Daten enorme Informationsmengen, welche zur Erfüllung vielerlei Ziele genutzt werden können, etwa zur Effizienzsteigerung in der Wirtschaft, beispielsweise in Form von kundenorientierten Kaufempfehlungen von Amazon.

Dabei ist die schiere Menge an Daten gleichermaßen Fluch und Segen. Denn während ein zunehmender Umfang an Messpunkten eine offensichtliche Informationszunahme bedeutet, droht die Flut an beobachteten Attributen die tatsächlich für die Zielerreichung relevanten Informationen zu verwässern. Um schließlich die Informationen aus den Daten zu extrahieren und nutzbar zu machen, ist zudem ein geeigneter Algorithmus zu wählen, welcher die enorme Datenmenge auch effizient verarbeiten kann.

In dieser dreiteiligen Blogbeitragserie soll anhand eines Beispiels skizziert werden, wie sich große Datenbestände nutzbar machen lassen. Dabei behandelt der erste Teil die thematische Einführung in das Beispiel sowie die Datenexploration, im zweiten Teil werden die Daten bereinigt und aufbereitet und im dritten Teil zum Training eines Machine-Learning-Modells genutzt, nachdem dieses vorgestellt wurde.

Die Problemstellung

Als Beispiel nutzen wir eine Challenge von Kaggle, welche hier verlinkt ist. Dort können die Informationen auch nachgelesen und heruntergeladen werden.

Die US-amerikanische Organisation ASHRAE (American Society of Heating, Refrigerating and Air-Conditioning Engineers) vertritt als Berufsverband die Tätigen aus den Bereichen Heizungs‑, Lüftungs‑, Klima- und Kühlanlagenbau. Es gilt eine Vorhersage über den Energieverbrauch von Gebäuden zu treffen, um unter dem Aspekt der Pay-for-Performance-Finanzierung ermitteln zu können, wie groß die Einsparung von energetischen Optimierungen eines Gebäudes ist. Bei dieser Finanzierung zahlt der Eigentümer des Gebäudes einen Teil der tatsächlich erreichten Einsparungen an denjenigen, der die Baumaßnahme zur Energieverbrauchssenkung durchgeführt hat und finanziert diese damit. Doch während der tatsächliche Energieverbrauch nach einer energetischen Optimierungsmaßnahme messbar ist, muss der theoretische Energieverbrauch ohne Maßnahme für die Zeit nach der Optimierung mit einem Modell berechnet werden.

Die Daten

Der erste Schritt einer Analyse ist stets die Betrachtung der Rohdaten. In diesem Fall liegen Daten zum historische Energieverbauch von Gebäuden für ein Jahr vor, welche mit einer Granularität von einer Stunde gemessen wurden. Gegeben ist in diesem Fall der historische Energieverbauch von Gebäuden in einem Jahr in einer Granularität von einer Stunde. Es gibt vier verschiedene Energieformen, welche betrachtet werden: Electricity, Hot Water, Chilled Water und Steam, sowie deren abgelesener Verbrauch in kWh. Zusätzlich gibt es Wetterinformationen von diversen Wetterstationen in dessen Einzugsgebieten die Gebäude liegen. Es gibt einen Trainings- und einen Testdatensatz, wobei der Testdatensatz keine Werte für den Verbrauch beinhaltet. Im Detail gliedern sich die Daten wie folgt:

train.csv

Feld	Bedeutung
building_id	Fremdschlüssel für den Join mit den Gebäudedaten
meter	Energieform {0:Electricity, 1:chilledwater, 2:hotwater, 3:steam}
timestamp	Zeitstempel der Messung
meter_reading	Verbrauch in kWh

building_metadata.csv

Feld	Bedeutung
site_id	Fremdschlüssel für den Join mit den Wetterdaten
building_id	Primärschlüssel
primary_use	Indikator der primären Nutzung des Gebäudes
square_feet	Gebäudefläche in ft²
year_built	Baujahr
floor_count	Anzahl der Stockwerke

weather_train.csv

Feld	Bedeutung
site_id	Primärschlüssel
timestamp	Zeitstempel der Messung
ait_temperature	Lufttemperatur in °C
cloud_coverage	Anteil des durch Wolken bedeckten Himmels
dew_temperature	Temperatur in °C
precip_depth_1_hr	Niederschlag in mm/m²
sea_level_pressure	Luftdruck in mbar
wind_direction	Windrichtung in Kompassrichtung (0°-360°)
wind_speed	Windgeschwindigkeit in m/s

Die Exploration

Damit sind die Metainformationen der Daten bereits vorhanden. Um sich ein besseres Bild der Daten machen zu können, bietet sich eine Visualisierung an. Diese werden wir wie alle weiteren folgenden Schritte mit Python 3 vornehmen. Dazu ist zunächst der Import der Daten (hier als pandas Dataframe) notwendig. Anschließend werden die Datensätze anhand der Fremdschlüssel zusammengeführt:

train = train.merge(building_metadata, on='building_id', how='left') 
train = train.merge(weather_train, on=['site_id', 'timestamp'], how='left') 

test = test.merge(building_metadata, on='building_id', how='left') 
test = test.merge(weather_test, on=['site_id','timestamp'], how='left')

Mit diesen vereinten Datensätzen können nun erste einfache Analysen der Datenstrukturen vorgenommen werden. Zunächst ist es interessant zu betrachten, ob es fehlende Werte (NAs) in einzelnen Datenreihen bzw. Attributen gibt. Dazu lässt sich beispielsweise ein einfaches Diagramm erstellen:

import numpy as np 
import matplotlib.pyplot as plt 

train_data = (train.count() / len(train)).drop('meter_reading').sort_values().values 
ind = np.arange(len(train_data)) 
width = 0.35 

fig, axes = plt.subplots(1,1,figsize=(14, 6), dpi=200) 
tr = axes.bar(ind, train_data, width, color='red') 

test_data = (test.count() / len(test)).drop('row_id').sort_values().values 
tt = axes.bar(ind+width, test_data, width, color='blue') 

axes.set_title('Anteil von NAs an den Daten', fontsize=16) 
axes.set_ylabel('Anteil verfügbarer Daten [%]'); 
axes.set_xticks(ind + width / 2) 
axes.set_xticklabels((train.count() / len(train)).drop('meter_reading')
                      .sort_values().index, rotation=40) 

axes.legend([tr, tt], ['Train', 'Test']);

Wir erhalten bei Ausführung obigen Codes folgende Grafik:

Datenanalyse und Machine Learning anhand eines Use Cases – I Bild1 — **Abbildung 1** Anteil von NAs an Datensatz

Es ist ersichtlich, dass die Datenverfügbarkeit der Attribute floor_count, year_built und cloud_coverage sehr gering ist. Auch die Attribute precip_depth_1_hr, wind_direction und sea_level_pressure sind nicht für jeden Datenpunkt verfügbar. Die übrigen Attribute sind für nahezu jeden Datenpunkt vorhanden.

Ein hoher Anteil fehlender Werte eines Attributs disqualifiziert dieses Attribut oftmals für weitere Analysen. Zusammenhänge zwischen diesem Attribut und der vorherzusagenden Größe, in unserem Fall der Energieverbrauch, lassen sich dann nur für einen kleinen Teil der Daten untersuchen. Dies führt dann beim späteren Training des Machine-Learning-Modells zu Problemen.

Auch eine Betrachtung des Energieverbrauchs im Laufe der Zeit erscheint sinnvoll. Dazu erstellen wir eine weitere Grafik:

fig, axes = plt.subplots(1, 1, figsize=(14, 6), dpi=200) 

train[['timestamp', 'meter_reading']]
.set_index(pd.DatetimeIndex(train['timestamp'])).resample('H').mean()

['meter_reading'].plot(ax=axes, label='By hour', alpha=0.8, color='red').set_ylabel('Energieverbrauch', fontsize=14); 

train[['timestamp', 'meter_reading']]
.set_index(pd.DatetimeIndex(train['timestamp'])).resample('D').mean()

['meter_reading'].plot(ax=axes, label='By day', alpha=1, color='blue').set_ylabel('Energieverbrauch', fontsize=14); 

axes.set_title('Gemittelter Energieverbrauch pro Stunde und Tag', fontsize=16); 
axes.legend();

Datenanalyse und Machine Learning anhand eines Use Cases – I Bild2 — **Abbildung 2** Gemittelter Energieverbrauch pro Stunde und Tag

Es sind gleich mehrere interessante Dinge zu beobachten. Zunächst ist der Energieverbrauch über das Jahr verteilt sehr unterschiedlich. Diese enormen Unterschiede lassen sich nicht mit den unterschiedlichen Wetterbedingungen während des Jahres erklären.

Darüber hinaus lässt sich erkennen, dass die stündlichen Werte sehr viel stärker schwanken, als die täglichen Werte. Die stündlichen Werte beinhalten demnach einzelne größere Ausreißer, welche weitere Analysen stark verfälschen können.

Was kann man nun tun, um den Datensatz genauer zu analysieren? Anhand der bekannten Attribute wirkt es plausibel, den Datensatz anhand der kategorischen Attribute aufzuteilen, also beispielsweise anhand von meter_type, primary_use oder site_id.

Im Folgenden betrachten wir den Datensatz für den meter_type chilled water. Für die übrigen Werte des Attributs meter_type kann analog vorgegangen werden.

Eingeschränkt auf den meter_type chilled water ergibt sich folgender Graph:

Datenanalyse und Machine Learning anhand eines Use Cases – I Bild3 — **Abbildung 3** Gemittelter Energieverbrauch begrenzt auf *chilled_water*

Der Verlauf des Energieverbrauchs über das Jahr wirkt nun schon homogener als zuvor. Eine weitere Aufteilung anhand des site_id Attributs ist denkbar. Dabei fällt auf, dass nicht zu jeder site_id Einträge mit dem meter_type chilled_water vorhanden sind.

for i in range(train_combined['site_id'].nunique()): 
    print(str(i) + " " + 
    str(len(train_combined[train_combined['site_id'] == i])))

site_id	Anzahl Einträge
0	168253
1	0
2	863845
3	0
4	0
5	0
6	164107
7	130956
8	0
9	833113

Es gibt also nur Einträge zu den site_ids 0, 2, 6, 7 und 9. Plottet man nun die Datensätze für diese site_ids erhält man folgendes Bild:

Datenanalyse und Machine Learning anhand eines Use Cases – I Bild4.1 — **Abbildung 4** Gemittelter Energieverbrauch für Sites 0 und 2

Datenanalyse und Machine Learning anhand eines Use Cases – I Bild4.2 — **Abbildung 5** Gemittelter Energieverbrauch für Sites 6 und 7

Datenanalyse und Machine Learning anhand eines Use Cases – I Bild4.3 — **Abbildung 6** Gemittelter Energieverbrauch für Site 9

Es ist ersichtlich, dass die Unterscheidung nach der site_id weitere Inhomogenitäten offenbart. Man könnte nun noch weitere Unterscheidungen vornehmen: nach meter_type und site_id und primary_use etwa. Und selbst dann ließe sich noch weiter differenzieren, etwa nach der building_id. Man sieht: oft ist eine beliebig feine Granularität möglich.

Correlation-Heat-Maps

Eine weitere Möglichkeit zur Visualisierung von Zusammenhängen bietet die Correlation-Heat-Map. In dieser werden die Korrelationen der ausgewählten Attribute visuell dargestellt. Beispielhaft für unseren Datensatz könnte das so aussehen:

train_values = train_combined.drop(['building_id', 'meter', 'site_id'], axis = 1) 
correlation_values = train_values.corr() 

axis_heatmap = sns.heatmap(correlation_values, vmin = -1, vmax=1, center=0, 
                           cmap = sns.diverging_palette(20, 220, n = 200), 
                           square = True) 

axis_heatmap.set_xticklabels(axis_heatmap.get_xticklabels(), rotation = 45,  
                             horizontalalignment = 'right')

Datenanalyse und Machine Learning anhand eines Use Cases – I Bild5 — **Abbildung 7** Correlation-Heat-Map für Beispieldatensatz

Dabei wurden die Attribute building_id, meter und site_id aussortiert, da diese als kategorische Attribute keine sinnvolle Korrelation mit anderen Attributen aufweisen können.

Boxplots

Zuletzt sei die Möglichkeit von BoxPlots erwähnt. Diese ermöglichen die Visualisierung der Verteilung der einzelnen Datenpunkte und kann so dabei unterstützen Ausreißer zu erkennen. Hier am Beispiel von den Einträgen mit primary_use Education, wobei die Werte der Attribute allesamt auf den Wertebereich von 0 bis 1 normalisiert wurden.

columns_with_values = ['meter_reading', 'square_feet', 'age', 'air_temperature',  
                       'cloud_coverage', 'dew_temperature', 'sea_level_pressure', 
                       'wind_speed'] 

plt.figure(figsize=(16, 7)) 
sns.boxplot(data = train_combined[train_combined['primary_use'] == 'Education'], order = columns_with_values) 
sns.despine(offset = 10, trim = True)

Datenanalyse und Machine Learning anhand eines Use Cases – I Bild6 — **Abbildung 8** BoxPlots für Beispieldatensatz

Die „Box“ der Boxplots wird durch die unteren und oberen Quartile begrenzt, die Linie im Innern einer Box markiert den Median. Die „Fühler“ an der Box reichen maximal bis zum 1,5‑fachen des Interquartilsabstands. Alle Punkte außerhalb dieser Fühler werden als „Ausreißer“ bezeichnet. Nähere Infos dazu gibt es u.A. hier.

Ausblick

Wir haben nun diverse Möglichkeiten gesehen, um die Daten zu visualisieren und sich einen besseren Überblick zu verschaffen. Dieser Überblick ist nötig, da die Daten oftmals Inhomogenitäten aufweisen, verursacht zum Beispiel durch Messfehler. Auch kategorische Unterschiede in den Daten können so erkannt und berücksichtigt werden, genauso wie saisonale Komponenten.

Wie mit Inhomogenitäten umgegangen werden kann, welche in diesem Beispiel deutlich zu erkennen waren, wird im nächsten Teil dieser Blogbeitragserie beschrieben.

Akzeptieren
Name	YouTube
Anbieter	Google LLC
Zweck	Diese Webseite verwendet Youtube zu Marketingzwecken. Die Daten werden an einen Server in den USA übertragen und dort gespeichert. Die personenbezogenen Daten werden auf Grundlage des Art. 46 und/oder Art. 49 Abs. 1 lit. a) DSGVO übermittelt.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden.
Weiterführende Infos	https://policies.google.com/privacy

Akzeptieren
Name	hellotrust
Anbieter	Keyed GmbH
Zweck	hellotrust speichert den Zustimmungsstatus des Benutzers für Cookies auf der aktuellen Domain.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden.
Weiterführende Infos	https://hellotrust.de/datenschutz

Akzeptieren
Name	Google Analytics
Anbieter	Google LLC
Zweck	Diese Webseite verwendet Google Analytics zur Analyse der Websitebenutzung durch Nutzer. Die Daten werden an einen Server von Google in den USA übertragen und dort gespeichert. Die personenbezogenen Daten werden auf Grundlage des Art. 46 und/oder Art. 49 Abs. 1 lit. a) DSGVO übermittelt.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden. In der Regel werden die Cookies von Google für eine Dauer von 2 Jahren gespeichert.
Weiterführende Infos	https://policies.google.com/privacy

Datenanalyse und Machine Learning anhand eines Use Cases – I/III

Die Problemstellung

Die Daten

Die Exploration

Correlation-Heat-Maps

Boxplots

Ausblick

Weitere interessante synvert saracus Materialien

CI/CD entschlüsselt: Tools und Techniken für kontinuierliche Integration und Bereitstellung

Sichere und personalisierte Web-Apps: Eine Anleitung zur Integration von OAuth und Streamlit mit Azure

Kommende Webinare

Einführung in Snowpark

360°-Sicht auf das Personalmanagement durch Dashboards für Führungskräfte

POCing Snowflake

CI/CD entschlüsselt: Tools und Techniken für kontinuierliche Integration und Bereitstellung

Data Ingestion aus SAP-Systemen mit Azure Data Factory

Einführung in CI/CD mit Azure DevOps

Change Management aus der IT-Perspektive

Databricks: Beschleunigung von Data Warehousing und ETL mit PySpark

Webinare auf Abruf

Data Catalogs Part I: Einführung in Metadatenmanagement und Data Catalogs

Data Catalogs Part II: Data Catalog in Action: Alation

Data Catalogs Part III: Data Catalog in Action: Informatica Enterprise Data Catalog

Ähnliche Artikel

Aufbau einer LLMOPs-Pipeline

Stammdaten-Schatz: Wie Sie Ihre Daten zum wertvollsten Asset verwandeln

10 KI-Trends für 2024

NeMo Guardrails, das ultimative Open-Source LLM Sicherheits-Toolkit

Wir verwenden Cookies

Die Pro­blem­stel­lung

Die Daten

Die Explo­ra­tion

Cor­re­la­tion-Heat-Maps

Box­plots

Aus­blick

Beitrag teilen

Wei­tere inter­es­sante syn­vert saracus Materialien

CI/CD ent­schlüs­selt: Tools und Tech­ni­ken für kon­ti­nu­ier­li­che Inte­gra­tion und Bereitstellung

Sichere und per­so­na­li­sierte Web-Apps: Eine Anlei­tung zur Inte­gra­tion von OAuth und Stream­lit mit Azure

Kommende Webinare

Ein­füh­rung in Snowpark

360°-Sicht auf das Per­so­nal­ma­nage­ment durch Dash­boards für Führungskräfte

POCing Snow­flake

CI/CD ent­schlüs­selt: Tools und Tech­ni­ken für kon­ti­nu­ier­li­che Inte­gra­tion und Bereitstellung

Data Inges­tion aus SAP-Sys­te­men mit Azure Data Factory

Ein­füh­rung in CI/CD mit Azure DevOps

Change Manage­ment aus der IT-Perspektive

Dat­ab­ricks: Beschleu­ni­gung von Data Ware­housing und ETL mit PySpark

Webinare auf Abruf

Data Cata­logs Part I: Ein­füh­rung in Meta­da­ten­ma­nage­ment und Data Catalogs

Data Cata­logs Part II: Data Cata­log in Action: Alation

Data Cata­logs Part III: Data Cata­log in Action: Infor­ma­tica Enter­prise Data Catalog

Ähnliche Artikel

Auf­bau einer LLMOPs-Pipeline

Stam­m­­da­­ten-Schatz: Wie Sie Ihre Daten zum wert­volls­ten Asset verwandeln

10 KI-Trends für 2024

NeMo Guar­drails, das ulti­ma­tive Open-Source LLM Sicherheits-Toolkit

Abonnieren Sie unseren Newsletter, um aktuelle Infos von synvert saracus zu erhalten

Dan­ke­schön!

Anmel­dung

Um Zugang zu all unse­ren On-Demand-Web­i­na­ren und White­pa­pers zu erhalten!

Ein­log­gen

Stö­bern Sie jeder­zeit in Web­i­nar-Videos und White­pa­pers von syn­vert saracus

Pass­wort zurücksetzen

Pass­wort ver­ges­sen? Geben Sie Ihre E‑Mail-Adresse ein und Sie erhal­ten einen Link zum Zurück­set­zen des Passworts

Wir verwenden Cookies

Die Problemstellung

Die Exploration

Correlation-Heat-Maps

Boxplots

Ausblick

Weitere interessante synvert saracus Materialien

CI/CD entschlüsselt: Tools und Techniken für kontinuierliche Integration und Bereitstellung

Sichere und personalisierte Web-Apps: Eine Anleitung zur Integration von OAuth und Streamlit mit Azure

Einführung in Snowpark

360°-Sicht auf das Personalmanagement durch Dashboards für Führungskräfte

POCing Snowflake

CI/CD entschlüsselt: Tools und Techniken für kontinuierliche Integration und Bereitstellung

Data Ingestion aus SAP-Systemen mit Azure Data Factory

Einführung in CI/CD mit Azure DevOps

Change Management aus der IT-Perspektive

Databricks: Beschleunigung von Data Warehousing und ETL mit PySpark

Data Catalogs Part I: Einführung in Metadatenmanagement und Data Catalogs

Data Catalogs Part II: Data Catalog in Action: Alation

Data Catalogs Part III: Data Catalog in Action: Informatica Enterprise Data Catalog

Aufbau einer LLMOPs-Pipeline

Stammdaten-Schatz: Wie Sie Ihre Daten zum wertvollsten Asset verwandeln

NeMo Guardrails, das ultimative Open-Source LLM Sicherheits-Toolkit

Abonnieren Sie unseren Newsletter,
um aktuelle Infos von synvert saracus zu erhalten

Dankeschön!

Anmeldung

Um Zugang zu all unseren On-Demand-Webinaren und Whitepapers zu erhalten!

Einloggen

Stöbern Sie jederzeit in Webinar-Videos und Whitepapers von synvert saracus

Passwort zurücksetzen

Passwort vergessen? Geben Sie Ihre E‑Mail-Adresse ein und Sie erhalten einen Link zum Zurücksetzen des Passworts