piwik-script

Deutsch Intern
    DMIR Research Group

    Praktika, Bachelor- und Masterarbeiten

    Diese Liste enthält einige unserer thematisch sortierten Praktika, Bachelor- und Masterarbeiten, auf Anfrage informieren wir gerne über weitere offene Themen. Die Themenstellung erfolgt in Absprache mit dem Studierenden; der Umfang der Arbeit richtet sich nach dem jeweils angestrebten Anschluss. Die Ansprechpartner für die jeweiligen Themenbereiche sind:

    DeepScan / Security / FraudDaniel Schlör
    EveryAware / p2mapFlorian Lautenschlager
    BibSonomyDaniel Zoller
    Text Mining und Natural Language ProcessingAlbin Zehe
    Neural NetworksAlexander Dallmann
    Andere ThemenAndreas Hotho

    Bei hervorragender Leistung besteht außerdem bei allen der genannten Themen die Chance am Ende der Arbeit einen Artikel auf einer Informatikkonferenz einzureichen und so früh im Studium Co-Author auf einer wissenschaftlichen Veröffentlichung zu sein!

    Anomaly Detection and the modelling of normality

    Unter Anomaly Detection verstehen sich Data-Mining Methoden um seltene Ereignisse (Anomalien) zu finden, die sich vom Großteil der Daten unterscheiden.
    Mögliche Anwendungsgebiete sind:

    • (Network) Security
    • Fraud Detection
    • Fault Diagnosis
    • Novelty Detecting im Bereich Text-Mining

    Neben dem Finden von Anomalien ist die Modellierung des Normalzustands eine wichtige Teilaufgabe. Im Rahmen dieser Arbeit sollen verschiedene Verfahren zur Anomaly Detection und der Modellierung des Normalzustands in Bezug auf ein oder mehrere Anwendungsgebiete verglichen werden.

    Betreuer: Daniel Schlör

    Agent-based Simulation of Business Processes

    Für viele Anwendungen, wie Fraud Detection oder Process Monitoring werden Log-Daten von Geschäftsprozessen benötigt, um Modelle zu trainieren. Obwohl diese in modernen ERP Systemen automatisch aufgezeichnet und ausgewertet werden, und damit leicht zugänglich wären, gibt es kaum frei verfügbare Datensätze. Ausgehend von stark aggregierten Daten soll im Rahmen dieser Arbeit ein Simulationssystem entwickelt werden, das Geschäftsprozesse und deren Dokumentation simuliert und dadurch synthetische Daten generiert, die einer Abbildung realer Prozesse möglichst nahe kommen.

    Betreuer: Daniel Schlör

    Financial Fraud Detection

    Aus der Finanzwirtschaft gibt es synthetische und reale Datensätze, die Missbrauch beispielsweise von Kreditkarten dokumentieren. Im dieser Arbeit soll die Effektivität verschiedener Machine Learning Ansätze für die Erkennung solcher Mitssbrauchsfälle untersucht werden.

    Betreuer: Daniel Schlör

    Embedding Structured Data

    Word Embeddings spielen im Bereich Text-Mining eine wichtige Rolle, da sie sehr gut geeignet sind semantische Ähnlichkeit zu modellieren. Im Rahmen dieser Arbeit sollen Word Embedding Methoden auf (semi-)strukturierte Daten wie beispielsweise Tabellen verallgemeinert werden um beispielsweise die Ähnlichkeit verschiedener Log-Einträge bezüglich verschiedener Fragestellungen zu untersuchen.

    Betreuer: Daniel Schlör

    Privacy in Neural Network Models

    Zum Training von Neuronalen Netzen werden häufig Datensätze verwendet, die aus Datenschutzgründen nicht veröffentlicht werden können. Trotzdem ist es wichtig die Modelle beispielsweise zur Reproduktion von Forschungsergebnissen oder im Kontext einer Anwendung verfügbar zu machen. In dieser Arbeit soll untersucht werden, in wieweit bei beispielsweise generativen Modellen aus dem trainierten Modell Informationen über die Trainingsdaten rückgewonnen werden können.

    Betreuer: Daniel Schlör

    Tag Maps

    Im Projekt P2Map werden mit Hilfe von Sensorboxen von freiwilligen Helfern mobile, standortbezogene Luftqualitätsdaten erfasst. Um diese in einen interprtierbaren Kontext zu setzen erlaubt die zugehörige Smartphone-App durch das hinzufügen von Tags zu einzelnen Messpunkten und Sequenzen das annotieren von subjektiven Eindrücken. Um diese Tags besser analysieren zu können, soll in der Arbeit ein Tool zur ansprechenden Visualisierung, wie zum Beispiel in der nebenstehenden Grafik zu sehen, erstellt werden.

    Betreuer: Florian Lautenschlager

    AirProbe Kalibrierung

    Die Android-Applikation AirProbe hilft dabei ein Bewusstsein für Luftqualität und deren Auswirkungen zu fördern. Allerdings ist das Messen von Luftqualität nur mit sehr teuren Messgeräten möglich. Im Rahmen des EveryAware-Projekts wurde jedoch eine kostengünstige Sensorox entwickelt, mit der es möglich sein soll, eine Komponente (Black Carbon) anhand mehrere Indikatorgase zu messen. Allerdings ist das Umrechnen dieser Indikatorgase in einen Black Carbon nicht trivial.

    Das Ziel dieser Arbeit soll es sein, eine Methode zu entwicklen die brauchbare Black-Carbon-Werte ableiten kann. Dazu kann zunächst mit diskreten Zielwerten und bewährten Methoden wie etwa SVMs gearbeitet werden. 

    Betreuer: Florian Lautenschlager

    EveryAware ScienceJournal

    Mit dem EveryAware-System lassen sich ortsgebundene Daten sammeln und analysieren. In der Arbeitsgruppe werden sowohl Luftqualitäts- als auch Lautstärkedaten mit eigenen Apps gesammelt. Mittlerweile wurde das System auf generische Daten erweitert, so dass jeder Benutzer beliebige Daten hochladen und weiterverwenden kann. Im Rahmen eines Masterpraktikums soll eine App entwickelt werden, die Daten von im Smartphone integrierten sowie angeschlossenen Sensoren sammelt und die Möglichkeiten bietet, diese mit Notizen zu versehen und an EveryAware zu senden.

    Es existiert bereits eine ähnliche App eines Drittanbieters, bei der jedoch Kernfunktionen fehlen.

    Betreuer: Florian Lautenschlager

    BlueSpot: SLAM

    Das EveryAware-System dient unteranderem, zur Sammlung und Auswertung beliebiger ortsgebundener Sensordaten, wie etwa Lautstärken oder Luftqualität. Dabei ist eine möglichst genaue Lokalisation essentiell. Jedoch sind brauchbare Positionswerte vor allem in Gebäuden kaum zu gewährleisten.   

    1. Im Rahmen eines Masterpraktikums soll es zunächst darum gehen, günstige BlueTooth-Einheiten zu entwickeln, die Mobiltelephone erkennen können. Anhand der erkannten Einheiten soll das Mobiltelefon dann in der Lage sein, eine raumgenaue Position zu bestimmen. Desweiteren soll es eine Karte geben, auf der alle aktiven Telefone den entsprechenden Räumen zugeordnet werden. Die Implementierung wird auf dem EveryAware-System und Android basieren.
       
    2. In der anschliessenden Masterarbeit sollen verschieden SLAM-Algorithmen zur automatischen Kartographierung der Umgebung and Lokalisation des Endgerätes anhand des im Masterpraktikum entstandenen Systems implementiert und evaluiert werden.  

     Betreuer: Florian Lautenschlager

    Temperaturschätzung für Orte ohne Messstation mit Machine Learning

    Zuverlässige Temperaturdaten sind nur von wenigen, teuren Messstationen (z. B. vom Deutschen Wetterdienst) verfügbar. Zwischen diesen Stationen, die im Schnitt etwa 15 km auseinander liegen, werden die Temperaturen typischerweise durch einfache Verfahren interpoliert. Dieser Prozess kann zu Fehlern führen, weil Einflussfaktoren wie Stadtnähe etc. nicht berücksichtigt werden.

    Das Ziel dieser Arbeit ist die Entwicklung eines Machine-Learning-basierten Temperaturmodells, das auf Basis von verschiedenen Einflussfaktoren die Temperatur für Orte ohne Messstation bestimmen kann. Dabei sollen auch weniger zuverlässige Daten von privaten Messstationen verwendet werden, um die Vorhersagequalität zu verbessern. Somit ist es möglich zu jeder Zeit und für jeden Ort eine möglichst genaue Temperatur zu erhalten.

    Betreuer/AnsprechpartnerMichael Steininger, Konstantin Kobs

    Verknüpfung des Mediawikis mit BibSonomy

    Die von Wikipedia genutzte Software MediaWiki ist eine der bekanntesten Wiki-Implementierungen. Häufig werden auf Wikiseiten Bücher oder Fachartikel zitiert. Die Zitation erfolgt nicht durch einen Link auf eine eindeutig gespeicherte Referenz der Veröffentlichung, sondern in Textform. Daher ist es schwer, einen Überblick über alle Referenzen zu bekommen und eventuelle Fehler zentral zu korrigieren. In diesem Projekt soll ein Plugin für MediaWiki entwickelt werden, das die einfache Übernahme der Daten aus typischen Veröffentlichungssystemen wie BibSonomy erlaubt. Dabei soll der Nutzer mit AJAX-Techniken aus dem Web 2.0 unterstützt werden. Die Daten sind im Wiki abzulegen und mit den Originaldaten zu verknüpfen. Die im Wiki gespeicherten Publikationsdaten dienen als Basis für das Zitieren im Mediawiki.

    Zur Lösung der Aufgabe ist eine skalierbare und erweiterebare Architektur für das MediaWiki-Plugin zu entwerfen und zu implementieren. Die Implementierung für das Mediawiki erfolgt in PHP. Das Wiki muss zur Übernahme der Daten per API auf die externen Systeme zugreifen und die gesammelten Daten entsprechend speichern können.

    Betreuer: Prof. Hotho

    Analyse des Retrievalverhaltens von Benutzern

    BibSonomy erlaubt es dem Benutzer seine gespeicherten Lesezeichen/Publikationen mittels Tags zu verschlagworten. Neben der Möglichkeit die gespeicherten Einträge über Tags wiederzufinden, bietet BibSonomy auch eine Volltextsuche.

    Ziel dieser Arbeit ist es, das Retrievalverhalten der Benutzer zu analysieren. U. a. sollen die folgenden Fragen beantwortet werden: 

    • Verwenden Benutzer die Suche eher als Tags um Einträge wiederzufinden?
    • Welche Tag Typen werden vor allem für das Wiederfinden verwendet?
    • Werden Tags in der Suche eher verwendet? 

    Betreuer: Daniel Zoller

    Performanceanalyse von MariaDB für BibSonomy

    BibSonomy setzt zur Zeit auf MySQL als persistentes Backend. In den letzten Jahren hat sich die offenen Alternative MariaDB immer weiter verbreitet. Ziel dieser Arbeit ist es die nötigen Anpassungen an BibSonomy vorzunehmen und Performanceanalysen mit dem neuen Backend durchzuführen. Weiter soll die Clusterfähigkeit von MariaDB (MariaDB Galera Cluster) für den Produktiveinsatz getestet werden.

    Betreuer: Daniel Zoller

    Autorenerkennung - Deep Learning

    BibSonomy erlaubt die Zuordnung von Autoren einer Veröffentlichung (z. B. die Zuordnung des Autors Andreas Hotho der Publikation "Information Retrieval in Folksonomies: Search and Ranking" zu der Person Andreas Hotho). Ziel dieser Arbeit ist es die Benutzer des Systems anhand ihrer Einträge zu einer Person zuzuordnen. Außerdem sollen weitere Publikationen gefunden und vorgeschlagen werden, die ggf. von einer Person geschrieben wurden. Vor allem sollen Deep Learning Methoden für diese Aufgabe ausprobiert werden.

    Betreuer: Daniel Zoller

    Publikationsrelevanz-vorhersagesystem

    Immer mehr Wissenschaftler veröffentlichen ihre Forschungsergebnisse auf Preprint-Servern wie ArXiv bevor sie ihre Arbeiten auf konventionelle Wege (Konferenzbeitrag, Journal, …) publizieren. Die dabei entstehende Flut an Artikeln macht es für einen Wissenschaftler unmöglich, relevante Arbeiten auf seinem Forschungsgebiet frühzeitig zu erkennen.

    Deshalb ist das Ziel dieser Arbeit ein Publikationsreputationssystem zu entwickeln, was in der Lage ist, den späteren Impact eines Forschungsartikels vorherzusagen. Die Vorhersage soll mittels verschiedener Daten (Publikationsgraph, Altmetrics) erfolgen. Dabei sollen konventionelle Machine Learning Verfahren als auch Deep Learning untersucht werden.

    Betreuer:Daniel Zoller

    Vergleich von Word Embeddings für NLP Tasks

    Word Embeddings stellen eine Möglichkeit dar, natürliche Sprache in einen hochdimensionalen Vektorraum einzubetten und damit für Maschinen besser verwertbar zu machen. In dieser Arbeit soll untersucht werden, wie sich verschiedene vortrainierte Einbettungen für zwei Tasks aus dem Bereich des Natural Language Processing (NLP) verhalten: relation classification und word similarity. 

    Erfahrung mit Python ist sicherlich hilfreich. Zudem sind Kenntnisse im Bereich Text Mining und Machine Learning von Vorteil. Im Fall einer Masterarbeit werden Kenntnisse über neuronale Netze vorausgesetzt, da hier auch word embeddings selbst trainiert werden sollen.

    BetreuerinLena Hettinger

    Neural Networks

    Predicting Pollution from Map Features using Neural Networks

    Environmental pollution, e.g. black carbon or noise is a big problem for both developing and industrial countries. With the availability of comparatively cheap sensors and open-source electronics platforms like Arduino it is now possible for citizens to collect and share environmental data with the goal to analyze it in cooperation with researchers.

    In this thesis your goal will be to build models that can predict pollution levels from map features. Exploiting data that has been collected as part of studies on our open-source citizen science platform EveryAware you will develop different neural network architectures and evaluate their usefulness in predicting pollution levels from map features, e.g. streets, buildings, forests ...

    Betreuer:Alexander Dallmann, Florian Lautenschlager

    Weitere Themen

    Virtual Reality and E-Sports

    eSport boomt. eSportlerInnen treten in einer Vielzahl von Computerspielen gegeneinander an und messen sich in virtuellen Welten. Die Events werden weltweit organisiert und durchgeführt und haben schon lange ebenfalls einen Profibereich mit Sponsoring und Fangemeinde etc. etabliert.

    Ziel dieses Themas ist die Entwicklung einer Virtuellen Realität (VR), in welcher Personen gleichzeitig einen Video-Stream auf einer ebenfalls in der VR vorhandenen virtuellen Leinwand betrachten können. Als Eingabe-/Ausgabegeräte kommen 2 HTC Vives zum Einsatz. Die eigentliche Simulationsumgebung wird mittels aktueller Game-Engines (Unreal Engine, Unitiy3D) realisiert.

    Für weitere Informationen klicken Sie bitte hier.

    Betreuer/Ansprechpartner: Andreas Hotho

    WLAN Router Auto-Optimierung

    Senden mehrere räumlich nah agierende WLAN Router auf überlappenden Kanälen kommt es schnell zur gegenseitigen Störung – das heißt, deren Übertragungskapazität wird verringert. Um dies zu verhindern wäre es wünschenswert, wenn (mehrere, räumlich nahe aufgestellte) WLAN Router sich automatisch hinsichtlich der Wahl des Kanals optimieren um so maximale Leistung/Übertragungsgeschwindigkeit zu erreichen. Die Bachelorarbeit WLAN Router Auto-Optimierung soll untersuchen, wie dieses Ziel mit dem Einsatz geeigneter ML (Machine Learning) Verfahren erreicht werden kann. Hierbei ist zu untersuchen, welche Kanäle am verbreitetsten genutzt werden und welche (manuellen) Empfehlungen es gibt, Kanäle auszuwählen. Anschließend sollten verschiedene ML Verfahren auf ihre Eignung untersucht und mind. ein Verfahren für die Optimierungsaufgabe eingesetzt werden – d.h., basierend auf den allgemeingültigen Empfehlungen und der erkannten (sich möglicherweise stetig verändernden) Router-/Kanalsituation die jeweils beste Kanalverteilung automatisch zu erkennen und zu konfigurieren.

    Betreuer/Ansprechpartner: Andreas Hotho

    Measuring Quantum Entanglement of Publications in BibSonomy

    Ein Computermodell zu finden, das natürliche Sprache - für den Menschen ununterscheidbar - erzeugen kann ermöglicht einen Durchbruch für die künstliche Intelligenz.

    In dieser Arbeit soll untersucht werden, in wiefern die CHSH-Ungleichung für Publikationen in BibSonomy gültig ist. Sollte dies nicht der Fall sein, so schließt es eine Vielzahl von Modellen aus, die nicht als natürlicher Ursprung unserer Sprache gelten können.

     

    Betreuer/Ansprechpartner: Daniel Zoller/Markus Krug

    Verwendung von Deep Learning für die Verbesserung von Sprachaufnahmen

    Sprachverbesserung, also das Unterdrücken von Rauschen und Hintergrundgeräuschen in Sprachaufnahmen, wird beispielsweise in Mobiltelefonen oder Hörgeräten angewendet. Aktuell basieren Sprachverbesserungssysteme allerdings größtenteils auf Methoden der Statistik. In dieser Masterarbeit soll ein System entwickelt werden, welches auf Deep Learning basiert. Dabei lernt ein neuronales Netzwerk zunächst, Stimme von Rauschen zu unterscheiden, dessen Einschätzung dann zur Verbesserung des Signals verwendet wird. Die Betreuung dieser Arbeit findet in Kooperation mit der Signal Processing Gruppe der Universität Hamburg statt, welche an Sprachverbesserung forscht. Während der Bearbeitungszeit wird voraussichtlich eine Reise nach Hamburg ermöglicht und unterstützt, um die Kollegen in Hamburg kennenzulernen und Zwischenergebnisse zu diskutieren.

    Betreuer/Ansprechpartner: Konstantin Kobs (Uni Würzburg), Dr.-Ing. Martin Krawczyk-Becker (Uni Hamburg)

    Automatische Bildbearbeitung mit neuronalen Netzen

    Professionelle Fotografen versuchen, durch Bearbeitung ihrer Bilder die interessanten Objekte im Bild hervorzuheben. Im Gegensatz zu aktuellen automatischen Methoden gehen sie dabei auch lokal vor und verändern beispielsweise nur den Kontrast in einem bestimmten Teil des Bildes. Dies wird durch automatisierte Methoden aktuell kaum oder gar nicht gemacht.

    In der hier beschriebenen Arbeit sollen neue Methoden entwickelt werden, einem neuronalen Netzwerk beizubringen, bearbeitete von nicht bearbeiteten Bildern zu unterscheiden und einem anderen Netzwerk in einem nächsten Schritt die Fähigkeit zu geben, wie professionelle Fotografen Bilder gezielt nachzubearbeiten.

    Ansprechpartner:  Konstantin Kobs

    Open Source Captchas

    Bots stellen ein Problem für Webseitenbetreiber dar, weil sie Spam verursachen können und Systemressourcen verschwenden. Um Bots den Zugriff auf Systeme zu erschweren gibt es sog. Captchas, die Maschinen von Menschen unterscheiden sollen. Der verbreitetste Dienst für Captchas ist Google’s reCAPTCHA. Dieses System wird von Google auch benutzt, um von Nutzern implizit Daten labeln zu lassen, die sie dann für das Trainieren von Machine Learning Modellen nutzen. Allerdings sind die dadurch entstehenden Datensätze nicht öffentlich zugänglich für die Forschung und die Verwendung des Dienstes zur Botabwehr ist aus Datenschutzgründen schwierig.

    Die Aufgabe dieser Arbeit besteht darin einen Open Source Dienst für Captchas zu implementieren. Der Dienst soll es auch ermöglichen Daten von Nutzern labeln zu lassen für die Verwendung in Machine Learning Modellen.

    Betreuer/AnsprechpartnerMichael Steininger

    Verteilter Web-Crawler mit Hadoop

    Ziel der Arbeit ist die Untersuchung von Open Source Frameworks wie Nutch oder Hetrix3 zum verteilten Crawlen des gesamten Webs. Dabei sollen existierende Frameworks aus crawlen in einem räumlich verteilten Setting hin geprüft. Es sind Performancemessungen für vorhanden verteilte Crawler durchzuführen. Es ist auch denkbar, dass vorhanden Crawler, die für ein solches Setting nicht geeignet sind und ein Prototyp im Rahmen der Arbeit entwickelt wird. Im Ergebnis stehen Proformancezahlen für bis zu 100TB an Webdaten für die verschiedenen ausgewählte Crawler zur Verfügung.

    Betreuer/Ansprechpartner: Andreas Hotho

    Gesichtserkennung zur Abrechnung von Kaffee

    Beim Betrieb einer lehrstuhlweiten Kaffeemaschine wird eine möglichst elegante Methode zur Verwaltung der pro Person entnommenen Tassen benötigt.
    Da Strichlisten in der heutigen Zeit nicht mehr als modern gelten, wird dazu an unserem Lehrstuhl eine Website betrieben, auf der jeder Nutzer seine Kaffees verbucht und sich dann Statistiken zu Lieblingskaffee, den Verlauf seines täglichen Kaffeekonsums etc. ansehen kann.
    Aktuell erfolgt die Eintragung von Entnahmen entweder manuell per Klick auf den eigenen Namen oder durch Nutzung eines RFID-Scanners.
    Da beide Methoden häufig als zu aufwendig angesehen werden, soll nun eine Gesichtserkennung zur automatischen Eintragung entwickelt werden. Dazu muss zunächst ein geeignetes Framework zur Gesichtserkennung in Python gefunden und aufgesetzt werden, und dieses dann in die bestehende Webapp integriert werden. Insbesondere soll die Webapp auch die Möglichkeit bekommen, neue Gesichter einzutragen.

    Betreuer/Ansprechpartner: Albin Zehe

    Data privacy protection

    By clicking 'OK' you are leaving the web sites of the Julius-Maximilians-Universität Würzburg and will be redirected to Facebook. For information on the collection and processing of data by Facebook, refer to the social network's data privacy statement.

    Data privacy protection

    By clicking 'OK' you are leaving the web sites of the Julius-Maximilians-Universität Würzburg and will be redirected to Twitter. For information on the collection and processing of data by Facebook, refer to the social network's data privacy statement.

    Social Media
    Contact

    Andreas Hotho
    DMIR Research Group
    Am Hubland
    97074 Würzburg

    Phone: +49 931 31-86731
    Fax: +49 931 31-86732

    Find Contact