Machine Learning braucht Daten in hoher Qualität, denn Menge und Qualität der Trainingsdaten bestimmen maßgeblich die Qualität der resultierenden Machine-Learning-Modelle. In dieser Challenge sollen methodisch sauber geplant umfangreiche Datenbestände für vorab wohldefinierte Anwendungsbereiche gesammelt werden, z. B. als Trainingsdaten für eine bestimmte Machine-Learning-Lösung. Dabei sollen sowohl maschinelle Verfahren zur Datensammlung als auch halbautomatisierte Verfahren zur Datenkuratierung und Qualitätssicherung eingesetzt werden.
Ziel der 1. Challenge:
Voraussetzung für eine erfolgreiche Corpuserstellung ist die detaillierte methodische Planung der aufzunehmenden Inhalte, der einzubindenden Datenquellen, der Auswahlverfahren und der nachfolgenden Qualitätssicherungsmaßnahmen im Corpus. Für eines der laufenden Projekte benötigt Lang.Tec z. B. eine größere Sammlung an anonymisierten Patientenakten in der Augenheilkunde. Die Sammlung, Anonymisierung, und balancierte Auswahl hinsichtlich relevanter Projektparameter müssten vorab konzipiert und dann mit den verfügbaren Datenquellen umgesetzt werden.
Bereitstellung von Daten & Infrastruktur
Erforderliche Daten sind vorhanden, Benutzung nur zum Projektzweck und keine Weitergabe. Server-Infrastruktur ist vorhanden, eigene Arbeitsplatzrechner müssen mitgebracht werden.
Erwartete Kompetenzen von Lehrenden und Studierenden
Grundkenntnisse in Data Engineering für alle Anwendungsbereiche, Softwaretechnik für die Teilautomatisierung von Datenbeschaffung und Kuratierung.
Projektdauer
Ein oder zwei Semester.
Interesse an einer Kooperation?
Schreiben Sie bzw. schreibt eine Mail an unsere Transfer-Koordinatorin Eylem Tas unter: eylem.tas"AT"uni-hamburg.de.