In einem vorherigen Workshop zum Einsatz von Maschinellem Lernen im Juli 2023 wurden zum einen die Grundlagen des maschinellen Lernens und zum anderen eine Einführung in die Nutzung der Datenanalysesoftware RapidMiner behandelt. Auf diesen Workshop aufbauend wurde im Herbst 2023 auf Wunsch der Teilnehmer ein vertiefendender Workshop zum Arbeiten mit RapidMiner durchgeführt.
Rückblick Juli-Workshop
Zuerst wurde ein Rückblick auf die Inhalte aus dem Juli-Workshop vorgestellt. Dabei wurden die folgenden Kernthemen wiederholt:
- Schnittstelle aus Informatik, Statistik und spezifischem Domänenwissen
- Begriffe künstliche Intelligenz (KI), maschinelles Lernen (ML), neuronale Netze und Deep Learning
- Cross-Industry Standard Process for Data Mining (CRISP-DM-Prozess)
- Kernkomponenten des Maschinellen Lernens: Supervised (überwacht), Unsupervised (unüberwacht) Learning
- Einführung in RapidMiner mit einer praktischen Anwendung zum überwachten Lernverfahren
Mehr Informationen zum Juli-Workshop.
Folgeworkshop im Herbst
Im zweiten Workshop wurde die praktische Anwendung der Datenanalysesoftware RapidMiner vertieft. Dazu haben die Teilnehmer erst eine Aufgabenstellung zur Klassifikation eines Datensatzes in Gruppen jeweils mit einer Methode von überwachten Lernverfahren bearbeitet. Im Anschluss wurde der gleiche Datensatz mittels unüberwachten Lernverfahren gruppiert (Clustering). Es wurden die folgenden Verfahren behandelt:
Überwachte Verfahren:
- k-nearest neighbors,
- Decision trees,
- Naïve Bayes und
- Artificial Neural Networks
Unüberwachte Verfahren:
- K-Means clustering
- DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
Nach einer kurzen Einführung aller zu verwendenden überwachten Lernverfahren und der Bereitstellung weiterer Informationen über die jeweilige Klassifikationsmethode sowie einem Exkurs zu den Themen ML Pipeline, Konfusionsmatrix und Kreuzvalidierung haben die Teilnehmer den bekannten Datensatz aus dem Juli-Workshop mit dem entsprechenden Modell untersucht und die Ergebnisse Visualisiert. Durch eine explorative Datenanalyse wurde festgestellt, ob visuelle Unterschiede zwischen vier ausgewählten Klassen zu erkennen sind. Danach wird die Datenqualität untersucht und die Daten werden, wenn nötig, aufbereitet. Anschließend können die Daten nach einer Zuweisung von Input und Output (beispielsweise ID & Label) in einen Trainings- und einen Testdatensatz aufgeteilt werden. Dieser Prozess kann durch den Begriff Data Preparation (Daten Aufbereitung) zusammengefasst werden. Data Modeling (Daten Modellierung) beschreibt dann das anschließende trainieren des Modells, das Vergleichen der Ergebnisse und das Auswählen des besten Modells. Die Evaluation erfolgte in diesem Workshop durch die Visualisierung mittels einer Konfusionsmatrix.
Im Anschluss wurde der Datensatz mittels unüberwachten Methoden gruppiert (Clustering). Dazu wurden die Methoden k-means-clustering und DBSCAN erläutert und weiterführende Informationen bereitgestellt.
Ausblick auf den nächsten Workshop
Im Rahmen der Lehrveranstaltung „Industrial Data Science“, die vom Institut für Produktionssysteme an der TU Dortmund durchgeführt wird, soll in Zukunft ein Grundlagenkurs zur Programmierung und Anwendung maschineller Lernverfahren in Python angeboten werden.
Schreibe einen Kommentar