piwik-script

Deutsch Intern
    Data Science Chair

    Theses / Practica

    Praktika, Bachelor- und Masterarbeiten

    Diese Liste enthält einige unserer thematisch sortierten Praktika, Bachelor- und Masterarbeiten, auf Anfrage informieren wir gerne über weitere offene Themen. Die Themenstellung erfolgt in Absprache mit dem Studierenden; der Umfang der Arbeit richtet sich nach dem jeweils angestrebten Anschluss. Die Ansprechpartner für die jeweiligen Themenbereiche sind:

    DeepScan / Security / Fraud Daniel Schlör
    EveryAware / p2map Florian Lautenschlager
    REGIO Tobias Koopmann
    BibSonomy Daniel Zoller
    Text Mining und Natural Language Processing Albin Zehe / Lena Hettinger
    Neural Networks Alexander Dallmann
    Weitere Themen  

    Bei hervorragender Leistung besteht außerdem bei allen der genannten Themen die Chance am Ende der Arbeit einen Artikel auf einer Informatikkonferenz einzureichen und so früh im Studium Co-Author auf einer wissenschaftlichen Veröffentlichung zu sein!

    Anomaly Detection and the modelling of normality

    Unter Anomaly Detection verstehen sich Data-Mining Methoden um seltene Ereignisse (Anomalien) zu finden, die sich vom Großteil der Daten unterscheiden.
    Mögliche Anwendungsgebiete sind:

    • (Network) Security
    • Fraud Detection
    • Fault Diagnosis
    • Novelty Detecting im Bereich Text-Mining

    Neben dem Finden von Anomalien ist die Modellierung des Normalzustands eine wichtige Teilaufgabe. Im Rahmen dieser Arbeit sollen verschiedene Verfahren zur Anomaly Detection und der Modellierung des Normalzustands in Bezug auf ein oder mehrere Anwendungsgebiete verglichen werden.

    Betreuer: Daniel Schlör

    Agent-based Simulation of Business Processes

    Für viele Anwendungen, wie Fraud Detection oder Process Monitoring werden Log-Daten von Geschäftsprozessen benötigt, um Modelle zu trainieren. Obwohl diese in modernen ERP Systemen automatisch aufgezeichnet und ausgewertet werden, und damit leicht zugänglich wären, gibt es kaum frei verfügbare Datensätze. Ausgehend von stark aggregierten Daten soll im Rahmen dieser Arbeit ein Simulationssystem entwickelt werden, das Geschäftsprozesse und deren Dokumentation simuliert und dadurch synthetische Daten generiert, die einer Abbildung realer Prozesse möglichst nahe kommen.

    Betreuer: Daniel Schlör

    Embedding Structured Data

    Word Embeddings spielen im Bereich Text-Mining eine wichtige Rolle, da sie sehr gut geeignet sind semantische Ähnlichkeit zu modellieren. Im Rahmen dieser Arbeit sollen Word Embedding Methoden auf (semi-)strukturierte Daten wie beispielsweise Tabellen verallgemeinert werden um beispielsweise die Ähnlichkeit verschiedener Log-Einträge bezüglich verschiedener Fragestellungen zu untersuchen.

    Betreuer: Daniel Schlör

    Privacy in Neural Network Models

    Zum Training von Neuronalen Netzen werden häufig Datensätze verwendet, die aus Datenschutzgründen nicht veröffentlicht werden können. Trotzdem ist es wichtig die Modelle beispielsweise zur Reproduktion von Forschungsergebnissen oder im Kontext einer Anwendung verfügbar zu machen. In dieser Arbeit soll untersucht werden, in wieweit bei beispielsweise generativen Modellen aus dem trainierten Modell Informationen über die Trainingsdaten rückgewonnen werden können.

    Betreuer: Daniel Schlör

    Financial Fraud Detection

    Aus der Finanzwirtschaft gibt es synthetische und reale Datensätze, die Missbrauch beispielsweise von Kreditkarten dokumentieren. Im dieser Arbeit soll die Effektivität verschiedener Machine Learning Ansätze für die Erkennung solcher Mitssbrauchsfälle untersucht werden.

    Betreuer: Daniel Schlör

    Tag Maps

    Im Projekt P2Map werden mit Hilfe von Sensorboxen von freiwilligen Helfern mobile, standortbezogene Luftqualitätsdaten erfasst. Um diese in einen interprtierbaren Kontext zu setzen erlaubt die zugehörige Smartphone-App durch das hinzufügen von Tags zu einzelnen Messpunkten und Sequenzen das annotieren von subjektiven Eindrücken. Um diese Tags besser analysieren zu können, soll in der Arbeit ein Tool zur ansprechenden Visualisierung, wie zum Beispiel in der nebenstehenden Grafik zu sehen, erstellt werden.

    Betreuer: Florian Lautenschlager

     

    AirProbe Kalibrierung

    Die Android-Applikation AirProbe hilft dabei ein Bewusstsein für Luftqualität und deren Auswirkungen zu fördern. Allerdings ist das Messen von Luftqualität nur mit sehr teuren Messgeräten möglich. Im Rahmen des EveryAware-Projekts wurde jedoch eine kostengünstige Sensorox entwickelt, mit der es möglich sein soll, eine Komponente (Black Carbon) anhand mehrere Indikatorgase zu messen. Allerdings ist das Umrechnen dieser Indikatorgase in einen Black Carbon nicht trivial.

    Das Ziel dieser Arbeit soll es sein, eine Methode zu entwicklen die brauchbare Black-Carbon-Werte ableiten kann. Dazu kann zunächst mit diskreten Zielwerten und bewährten Methoden wie etwa SVMs gearbeitet werden. 

    Betreuer: Florian Lautenschlager

     

    Temperaturschätzung für Orte ohne Messstation mit Machine Learning

    Zuverlässige Temperaturdaten sind nur von wenigen, teuren Messstationen (z. B. vom Deutschen Wetterdienst) verfügbar. Zwischen diesen Stationen, die im Schnitt etwa 15 km auseinander liegen, werden die Temperaturen typischerweise durch einfache Verfahren interpoliert. Dieser Prozess kann zu Fehlern führen, weil gewisse Einflussfaktoren nicht berücksichtigt werden.

    Das Ziel dieser Arbeit ist die Entwicklung eines Machine-Learning-basierten Temperaturmodells, das auf Basis von verschiedenen Einflussfaktoren die Temperatur für Orte ohne Messstation bestimmen kann. Dabei können auch weniger zuverlässige Daten von privaten Messstationen verwendet werden, um die Vorhersagequalität zu verbessern. Somit ist es möglich, zu jeder Zeit und für jeden Ort eine möglichst genaue Temperatur zu erhalten.

    Betreuer/AnsprechpartnerMichael Steininger, Konstantin Kobs

    Luftschadstoff-Modellierung mit Graphen

    Typische Luftschadstoff-Modelle sagen die Konzentration von Schadstoffen (z. B. NO2, PM10) auf Basis von Landnutzung (Industriegebiet, Wohngebiet, Straßen, etc.) vorher, wobei die Landnutzungsfeatures als einfache Skalare dargestellt werden (z. B. Abstand von einem Ort zur nächsten Autobahn in Meter). Die zugrundeliegenden räumlichen Vektordaten (z. B. von OpenStreetMap) lassen sich allerdings viel sinnvoller als Graphen repräsentieren.  Bestehende Arbeiten haben erfolgreich gezeigt, dass solche Graph-Repräsentation für andere Aufgaben verwendet werden konnten (z. B. Klassifikation von Gebäudegruppen).

    Ziel der Arbeit ist es, mit Graphen aus OpenStreetMap ein Luftschadstoffmodell zu bauen.

    Betreuer: Michael Steininger

    Wettervorhersage mit Neuronalen Netzen

    Viele Wettervorhersagemodelle basieren auf physikalischen Formeln, welche etwa die Windströmung annähern. Der Deutsche Wetterdienst (DWD) veröffentlicht die Messdaten aller Stationen kostenlos im Internet, wodurch es uns möglich ist, ebenfalls mit diesen Daten zu arbeiten.

    In dieser Arbeit soll exploriert werden, inwiefern Neuronale Netze zur Erstellung von Wettervorhersagen geeignet sind. Da es sich bei Wetter um ein sehr chaotisches System handelt, können kleine Einflüsse große Veränderungen verursachen. Deshalb soll sich diese Arbeit auch damit beschäftigen, inwiefern Unsicherheit bei der Vorhersage im Modell abgebildet und ausgegeben werden kann.

    Betreuer/AnsprechpartnerKonstantin Kobs

    Feature Learning für Orte im Kontext von Luftschadstoffmodellierung

    Effiziente Feature- oder Informationsrepräsentationen sind wichtig für Machine Learning Modelle, unter anderem weil sie sonst schnell dazu neigen nicht zu generalisieren, sondern Trainingsbeispiele auswendig zu lernen. Der klassische Ansatz um gute Features für Machine Learning Modelle zu finden ist manuelles Feature Engineering. Alternativ gibt es eine Reihe von Verfahren zur automatischen Featuregenerierung, die unter den Begriff Feature Learning oder Representation Learning fallen.

    In dieser Arbeit sollen verschiedene Feature Learning/Representation Learning Ansätze für die Vorhersage von Schadstoffkonzentrationen angewendet, verglichen und analysiert werden. Dabei sollen Rohinformationen über Orte wie z. B. Landnutzung (Industriegebiet, Wohngebiet, Straßen, etc.) oder geographische Eigenschaften effizient repräsentiert werden, sodass ein sog. Land-Use Regression Modell möglichst gut Schadstoffkonzentrationen für die Orte vorhersagen kann.

    Betreuer: Michael Steininger

    Tagging Behaviour in Citizen Science Projects

    Mit Hilfe der App WideNoise kann die Lautstärke der Umgebung gemessen und mit Tags versehen werden. Im Rahmen eines Citizen Science Projekts wurden in London und Umgebung entsprechende Daten gesammelt. In dieser Arbeit sollen zusammenhänge zwischen Messwerten und verwendeten Tags einer Participatory Sensing Studie untersucht werden. Zusätzlich kann ein Modell entworfen werden um, basierend auf den Messwerten, Tags vorherzusagen.

     Betreuer: Florian Lautenschlager

     

    Filtern von Sprache aus Bienenakustik

    Im Zuge der Einführung der DSGVO (Datenschutzgrundverordnung) sind erweiterte Hürden bei der Verarbeitung von Daten mit Relevanz der Persönlichkeit geschaffen worden. Im We4Bee-Projekt sind die Bienenstöcken mit Audiosensoren ausgestattet, die es erlauben das Summen der Bienen zu analysieren. Hierbei kann allerdings nicht ausgeschlossen werden, dass auch menschliche Signale aufgenommen werden, die im Zweifelsfall einen Rückschluss auf die anwesenden Personen sowie die Inhalte derer zulassen.

    In dieser Arbeit soll ein System entwickelt werden, das es ermöglicht Binärdaten (hier: Audiodaten) der Art zu manipulieren, dass sie DSGVO-konform zur weiteren Analyse im Forschungsbereich verwendet werden können. Im besten Falle wird dazu die menschliche Sprache komplett herausgefiltert (Rauschen) und nur die Umgebungsgeräusche verbleiben.

    Betreuer/Ansprechpartner: Padraig Davidson

    Hidden Topic Modelling of Bibliometric Data

    In recent work by Gong et al.[1] developed a method, which allows to extract so-called hidden topics from texts of varying length. The idea is to find matching documents to their summaries.

    We want to use this approach and apply it on texts from authors. Doing so, we can extract these hidden topics for each author. Based on these topics, we can evaluate the following tasks:

    How good is the self assumption of an author? For that, we can compare used kywords on their paper and compare then to the extracted hidden topics.

    Are we able to define and cluster research domains of authors? Based on the topic representation, we can cluster different authors according to their research domain. Maybe we can recommend cooperations based on similiar research topics.

    [1] Gong, H., Sakakini, T., Bhat, S. & Xiong, J. (2018). Document Similarity for Texts of Varying Lengths via Hidden Topics. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (p./pp. 2341--2351), July, Melbourne, Australia: Association for Computational Linguistics.

    Betreuer: Tobias Koopmann

    Recommandation of Co-Authorship based on Bert4Rec

    Recently a lot of work based on the transformer and Bert architecture has been published. One of them is the work by Sun et al.[1], which adopts the Bert architecture on recommandation. The use sequences of IDs from items to train the Bert architecture end-to-end.

    Our idea is to combine two Bert architectures. Firstly we want to create a latent representation for each author. The approach would be to apply a language model on all texts from an author. This creates a vector representing all the scientific work of an author.

    These representation then can be used as input for out own Bert4Rec. As sequences of clicked items, we generate random (or weighted random) walks based on the co-author graph. The actual recommandation task here would be to recommend a suitable cooperation for an author in the graph.

    [1] Sun, F., Liu, J., Wu, J., Pei, C., Lin, X., Ou, W. & Jiang, P. (2019). BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer. Proceedings of the 28th ACM International Conference on Information and Knowledge Management (p./pp. 1441–1450), New York, NY, USA: Association for Computing Machinery. ISBN: 9781450369763

    Betreuer: Tobias Koopmann

    Publikationsrelevanzvorhersagesystem

    Immer mehr Wissenschaftler veröffentlichen ihre Forschungsergebnisse auf Preprint-Servern wie ArXiv bevor sie ihre Arbeiten auf konventionelle Wege (Konferenzbeitrag, Journal, …) publizieren. Die dabei entstehende Flut an Artikeln macht es für einen Wissenschaftler unmöglich, relevante Arbeiten auf seinem Forschungsgebiet frühzeitig zu erkennen.

    Deshalb ist das Ziel dieser Arbeit ein Publikationsreputationssystem zu entwickeln, was in der Lage ist, den späteren Impact eines Forschungsartikels vorherzusagen. Die Vorhersage soll mittels verschiedener Daten (Publikationsgraph, Altmetrics) erfolgen. Dabei sollen konventionelle Machine Learning Verfahren als auch Deep Learning untersucht werden.

    Betreuer: Daniel Zoller

    Performanceanalyse von MariaDB für BibSonomy

    BibSonomy setzt zur Zeit auf MySQL als persistentes Backend. In den letzten Jahren hat sich die offene Alternative MariaDB immer weiter verbreitet. Ziel dieser Arbeit ist es die nötigen Anpassungen an BibSonomy vorzunehmen und Performanceanalysen mit dem neuen Backend durchzuführen. Weiter soll die Clusterfähigkeit von MariaDB (MariaDB Galera Cluster) für den Produktiveinsatz getestet werden.

    Betreuer: Daniel Zoller

    Figurenspezifische Sentimentanalyse in Romanen

    Das grundsätzliche Ziel von Sentiment- oder Emotionsanalyse ist es, aus Texten automatisiert die Stimmungslage und Gefühle zu extrahieren, die durch den Text vermittelt werden.

    In Romanen können dadurch beispielsweise Emotionsverläufe generiert werden, die die "Stimmung" über den Verlauf der Geschichte hinweg beschreiben und damit Happy Ends oder ähnliches erkannt werden. 
    Darüber hinaus ist es auch interessant, die Emotionen im Bezug auf spezifische Figuren zu analysieren, um etwa zu erkennen, ob besonders glückliche Situationen für eine Figur für eine andere Tiefpunkte darstellen.

    Diese Arbeit soll sich mit der Anwendung und Erweiterung bestehender Techniken zur Sentimentanalyse zur Generierung solcher figurenspezifischer Gefühlsverläufe beschäftigen.

    Betreuer: Albin Zehe

    Vergleich von Word Embeddings für NLP Tasks

    Word Embeddings stellen eine Möglichkeit dar, natürliche Sprache in einen hochdimensionalen Vektorraum einzubetten und damit für Maschinen besser verwertbar zu machen. In dieser Arbeit soll untersucht werden, wie sich verschiedene vortrainierte Einbettungen für zwei Tasks aus dem Bereich des Natural Language Processing (NLP) verhalten: relation classification und word similarity. 

    Erfahrung mit Python ist sicherlich hilfreich. Zudem sind Kenntnisse im Bereich Text Mining und Machine Learning von Vorteil. Im Fall einer Masterarbeit werden Kenntnisse über neuronale Netze vorausgesetzt, da hier auch word embeddings selbst trainiert werden sollen.

    BetreuerinLena Hettinger

    Brose: Semantisches Matching für Produktspezifikationen

    Spezifikationen für Produkte und Komponenten wie beispielsweise Autositze werden meist nicht in einem einzigen Durchgang finalisiert, sondern werden im Laufe des Entwicklungsprozesses mehrfach in Absprache mit dem Systementwickler überarbeitet und modifiziert. Dabei entstehen manchmal auch unabsichtlich inkonsistente Anforderungen aus verschiedenen Planungsstadien. Da die gesamten Spezifikationsdokumente tausende von Seiten lang sein können, ist eine manuelle Überprüfung auf diese Inkonsistenzen sehr langwierig und ebenfalls fehleranfällig.

    Im Rahmen einer Kooperation zwischen der DMIR Gruppe und Brose soll in dieser Abschlussarbeit ein System zur automatischen Extraktion von Spezifikationen aus solchen Dokumenten entwickelt werden.
    Dazu sollen zunächst Abschnitte in verschiedenen Stadien der Spezifikation automatisch identifiziert werden, die die gleiche Komponente beschreiben.

    Diese Abschnitte werden dann miteinander verglichen, um Abweichungen in den Spezifikationen zu erkennen.  Dabei kommen Techniken aus dem Natural Language Processing wie Named Entity Recognition, Coreference Resolution und die Erkennung von ähnlichen Textabschnitten beispielsweise über Wort- oder Dokumentenembeddings in Kombination mit Deep Learning zum Einsatz.

    Das Ziel der Masterarbeit ist es, aus den Dokumenten automatisch strukturierte Spezifikationen zu extrahieren.

    Betreuer/Ansprechpartner: Albin Zehe

    Neural Networks

    Predicting Pollution from Map Features using Neural Networks

    Environmental pollution, e.g. black carbon or noise is a big problem for both developing and industrial countries. With the availability of comparatively cheap sensors and open-source electronics platforms like Arduino it is now possible for citizens to collect and share environmental data with the goal to analyze it in cooperation with researchers.

    In this thesis your goal will be to build models that can predict pollution levels from map features. Exploiting data that has been collected as part of studies on our open-source citizen science platform EveryAware you will develop different neural network architectures and evaluate their usefulness in predicting pollution levels from map features, e.g. streets, buildings, forests ...

    Betreuer: Alexander Dallmann, Florian Lautenschlager

    Neural Security Thread Detection on Netflow Data

    Early detection of a potential network intrusion is crucial to limiting the severity of a security breach. Malicious behaviour inside a network is reflected by certain communication patterns between hosts. Netflow data contains all communication between hosts, that happens on the network. Capturing the netflow data on a network, allows us to use machine learning models to identify potential malicious communication patterns and thus help human administrators to focus on the most suspicious events.

    In this thesis you will develop a neural network based model to detect malicious behaviour using annotated netflow data. You will develop the model using the PyTorch library for neural networks. You will also get access to our state-of-the-art cluster to train and evalute your models.

    Betreuer: Alexander Dallmann, Markus Ring

    GloIPVe - Global IP Vectors

    Neural machine learning models have the potential to help detect network security threads early. However, large annotated copora are needed for training these models. Creating these corpora is time consuming and expensive. To mitigate the necessary amount of training data, unsupervised techniques can be used to pre-train parts of the classifier. For example, IP2Vec can be used to train representations for IP addresses based on netflow data without the need for labels. 

    In this thesis you will develop GloIPVe for learning representations for IP addresses from netflow data. While IP2Vec is based on the idea of word2vec, a word embedding technique, you will adapt GloVe (Global word Vectors) to IP addresses which has been shown to outperform word2vec in some NLP settings.

    Betreuer: Alexander Dallmann, Markus Ring

    Recommendation

    Tag Recommendation mittels Deep Learning

    Für die Aufgabe Tags/Hashtags z. B. auf Instagram, Facebook oder Twitter vorzuschlagen wurden Vergessensmodelle des menschliche Gedächnis aus der Kognitionspsychologie, wie das Base-Level Learning, adaptiert. Recurrent Neural Networks oder auch Recurrent Highway Networks können auch diese Anhängigkeiten abbilden.

    Ziel dieser Arbeit ist die Entwicklung und Evaluation von neuronale Netzwerken, die diese Vergessensmodelle für unterschiedliche Benutzer automatisiert lernen sollen.

    Betreuer/Ansprechpartner: Daniel Zoller

    Language Modelle für Recommender Systeme

    Das Verständnis von Text ist auch ein wichtiger Bestandteil von Recommender Systemen, wenn sie auf Grundlage von textuellen Informationen Vorschläge generieren. Es hat sich gezeigt, dass Sprachmodelle/Language Modelle, die auf einem großen Korpus von Text trainiert wurden, leicht für andere Aufgaben umtrainiert werden können.

    In dieser Arbeit soll ein System geschrieben werden, dass es erlaubt beliebige Webseiten aus den Netz zu crawlen und auf den extrahierten Textdaten ein Language Modell zu lernen, das dann für verschiedene Recommender Systeme verwendet werden kann.

    Betreuer/Ansprechpartner: Daniel Zoller

    Weitere Themen

    Unterstützung der Bildbearbeitung durch Künstliche Intelligenz

    Fotobearbeitungsprogramme wie "Photoshop", "Lightroom" oder "GIMP" werden von vielen Fotografen verwendet, um Fotos nachzubearbeiten. Gerade im Bereich Bildbearbeitung ist die Anwendung von Künstlicher Intelligenz durch den Fortschritt im Bereich Bildverarbeitung vielversprechend. Einige Ansatzpunkte wären die automatische Bildbearbeitung, die einheitliche Bearbeitung von vielen Bildern oder die Bildverbesserung.

    Mögliche Bachelor- oder Masterarbeiten sowie Masterpraktika untersuchen, inwiefern Künstliche Intelligenz Fotografen bei der Bearbeitung ihrer Fotos unter die Arme greifen kann. Die Anwendungsmöglichkeiten sind vielseitig, weshalb wir bei Interesse uns auf eine Ausrichtung einigen können.

    Ansprechpartner:  Konstantin Kobs