Data Quality and Data Preprocessing

Daten sind der Rohstoff der Zukunft, wobei die Qualität der Daten maßgeblich das Ergebnis einer jeden Analyse beeinflusst. Dies gilt für klassische Data-Mining-Prozesse und neueste KI-Methoden gleichermaßen. Hochwertige Daten bieten Unternehmen einen klaren Mehrwert und Wettbewerbsvorteil. In diesem Seminar lernen Analysten, Entwickler und Datenmanager Verfahren zur Beurteilung und Verbesserung der Datenqualität. Reale Daten enthalten oftmals kleine Fehler, welche negative Auswirkungen auf eine Analyse haben können. Damit Sie das Potenzial Ihrer Daten voll ausschöpfen, vermittelt dieses Seminar umfassend die wesentlichem Grundlagen der modernen Datenvorverarbeitung. Praxisbezogen und interaktiv werden die Schulungsinhalte in kleinen Aufgaben angewandt: anhand eines Datensatzes setzen Sie die erlernte Theorie mit Python praktisch um. Nach dem Besuch dieser Schulung sind Sie in der Lage, die Datenvorverarbeitungen in Ihrem Alltag strukturiert und effizient durchzuführen und Ihre Daten besser zu nutzen.

Diese Schulung kann eigenständig gebucht werden. Sie ist auch eine sinnvolle Vertiefung folgender Seminare:

- Modul 3 der Schulung Data Scientist Specialized in Data Management (zertifiziert)

- Basic Data Analytics

- Visual Analytics

- Zertifizierter Data Analyst

- Big Data Analytics

 

Zielgruppe: Analysten, die ihre Fähigkeiten zur Datenaufbereitung ausweiten wollen.

Softwareentwickler/-architekten, die Lösungen für analytische Fragestellungen entwickeln. 

Interessierte aus der Forschung, die eine Orientierung im Bereich Data Science suchen.

Voraussetzungen: Grundkenntnisse in Statistik und Datenanalyse werden vorausgesetzt; Basiswissen in Programmierung und im Umgang mit Datenbanken sind von Vorteil.

Inhalt

Tag 1

  • Data Set Properties, Requirements from Use Case, External Requirements
  • Data Quality Check
  • Data Integration & Synchronization

Tag 2

  • Data Cleaning
  • Data Transformation
  • Data Augmentation & Balancing

Tag 3

  • Data Reduction
  • Data Quality Assessment & Data Preprocessing Performance Measures

Rahmen

Dauer: 3 Tage

Tagungssprache: deutsch

Maximale Teilnehmerzahl: 12
Die Anmeldungen werden in der Reihenfolge des Eingangs berücksichtigt.

Veranstaltungsort:

Fraunhofer Institutszentrum Schloss Birlinghoven
53757 Sankt Augustin

Teilnahmegebühr: 

2.850 Euro

Die Teilnahmegebühr ist steuerfrei gem. § 4 Nr. 22a UStG. Sie umfasst Begleitunterlagen (auf Englisch) und Verpflegung. 

Bitte beachten Sie die Storno- und Teilnahmebedingungen.

Falls Sie die Anmeldung über eine Bestellung vornehmen, erbitten wir eine Kopie der Bestellung an "datascientist(at)iais.fraunhofer.de".

Termine und Anmeldung

* Pflichtfelder

Termine
Hinweis: Gemäß Datenschutzgrundverordnung (DSGVO) unterrichten wir Sie über die Speicherung Ihrer Daten. Die Einwilligung zur Speicherung und Nutzung Ihrer Daten erfolgt freiwillig und kann jederzeit widerrufen werden.
Stornogebühren

Unsere Referenten

Diese Schulung wird in Kooperation mit Fraunhofer IPT durchgeführt.

Dr. Daniel Trabold arbeitet als wissenschaftlicher Mitarbeiter am Fraunhofer IAIS an der Entwicklung von Verfahren und Grundlagen des Fraud Mining. Er hat langjährige Erfahrung im Data Mining und als Entwickler in angewandten Wirtschafts- und Forschungsprojekten, insbesondere in den Industrien Finance, Automotive und Telekommunikation. Seine aktuellen Arbeitsschwerpunkte sind echtzeitfähige Big-Data-Architekturen und Data-Mining-Algorithmen.

Jonathan Krauß ist Gruppenleiter in der Abteilung für Produktionsqualität am Fraunhofer-Institut für Produktionstechnologie IPT, Aachen. In über 20 Projekten hat er gemeinsam mit Industriepartnern Fertigungssysteme mithilfe von Machine Learning und Künstlicher Intelligenz verbessert. Forschungsseitig liegt sein Fokus auf Automated Machine Learning sowie Hyperparameter Tuning.

Maik Frye ist wissenschaftlicher Mitarbeiter in der Abteilung für Produktionsqualität am Fraunhofer-Institut für Produktionstechnologie IPT in Aachen. Er hat mehrjährige Erfahrung im Bereich des Machine Learning (ML) und arbeitet in einer Vielzahl von Projekten gemeinsam mit Industrieunternehmen an der Optimierung von Produktionsprozessen mittels ML. Aktuell liegen seine Forschungsanstrengungen vor allem in der Strukturierung und Automatisierung des Data Preprocessing zur Erhöhung der Qualität von Daten.