piwik-script

Deutsch Intern
    DMIR Research Group

    Praktika, Bachelor- und Masterarbeiten

    Diese Liste enthält die verfügbaren Themen für Praktika, Bachelor- und Masterarbeiten der Data Mining & Information Retrieval-Arbeitsgruppe (DMIR).

    Die Themenstellung erfolgt in Absprache mit dem Studierenden; der Umfang der Arbeit richtet sich nach dem jeweils angestrebten Anschluss.

    Bitte wenden Sie sich für zusätzliche Informationen über ein spezielles Thema direkt an den angegebenen Betreuer.

    Zusätzlich zu den unten aufgeführten Themen stehen auf Anfrage noch weitere Themen zur Auswahl. Wir freuen uns über jede Anfrage.

    Die Ansprechpartner für die jeweiligen Themenbereiche lauten wie folgt:

    EveryAware / p2map Martin Becker / Florian Lautenschlager
    BibSonomy Daniel Zoller
    Text Mining und Natural Language Processing Daniel Schlör
    Neural Networks Alexander Dallmann
    Andere Themen Andreas Hotho

    Bei hervorragender Leistung besteht außerdem bei allen der genannten Themen die Chance am Ende der Arbeit einen Artikel auf einer Informatikkonferenz einzureichen und so früh im Studium Co-Author auf einer wissenschaftlichen Veröffentlichung zu sein!

    EveryAware / p2map

    Ansprechpartner für dieses Thema: Martin Becker, Florian Lautenschlager

    MedWatch: Crawling und Klassifikation von Fake-Medizin-Webseiten

    BA/MP/MA: Verfügbar

    Immer mehr Webseiten nutzen schwere Krankheiten und die Gutgläubigkeit von Patienten aus, um mit wirkungslosen oder sogar gefährlichen Produkten Geld zu verdienen (z.B. das "Powerlight Project"). Sie bieten "Medizin" an, die eine Vielzahl unterschiedlicher Leiden, oft Krebs und andere schwer bis gar nicht behandelbare Krankheiten, heilen soll. In dieser Arbeit soll es darum, solche Seiten ausfindig zu machen. Dafür Bachelor-Arbeiten, Masterpraktika oder sogar Master-Arbeiten möglich. Einige Arbeiten in diesem Rahmen beinhalten: den Bau eines intelligenten Crawlers zum einsammeln einschlägiger Webseiten, die Entwicklung von Klassifikationsalgorithmen aus dem Bereich des Machine Learning (e.g., Neuronale Netze, Deep Learning), oder die Erstellung eines Browser-Plugins zur Kommunikation mit Patienten und der Einbindung von Active Learning Ansätzen zur Verbesserung der Klassifikationsansätze. Zur genauen Abgrenzung der einzelnen Aufgaben oder Arbeiten sprechen Sie bitte mit dem Betreuer.

    Betreuer: Martin Becker

    Tag Maps

    BA/MP/MA: Verfügbar

    Im Projekt P2Map werden mit Hilfe von Sensorboxen von freiwilligen Helfern mobile, standortbezogene Luftqualitätsdaten erfasst. Um diese in einen interprtierbaren Kontext zu setzen erlaubt die zugehörige Smartphone-App durch das hinzufügen von Tags zu einzelnen Messpunkten und Sequenzen das annotieren von subjektiven Eindrücken. Um diese Tags besser analysieren zu können, soll in der Arbeit ein Tool zur ansprechenden Visualisierung, wie zum Beispiel in der nebenstehenden Grafik zu sehen, erstellt werden.

    Betreuer: Florian Lautenschlager

    EveryAware ScienceJournal

    MP: Verfügbar

    Mit dem EveryAware-System lassen sich ortsgebundene Daten sammeln und analysieren. In der Arbeitsgruppe werden sowohl Luftqualitäts- als auch Lautstärkedaten mit eigenen Apps gesammelt. Mittlerweile wurde das System auf generische Daten erweitert, so dass jeder Benutzer beliebige Daten hochladen und weiterverwenden kann. Im Rahmen eines Masterpraktikums soll eine App entwickelt werden, die Daten von im Smartphone integrierten sowie angeschlossenen Sensoren sammelt und die Möglichkeiten bietet, diese mit Notizen zu versehen und an EveryAware zu senden.

    Es existiert bereits eine ähnliche App eines Drittanbieters, bei der jedoch Kernfunktionen fehlen.

    Betreuer: Florian Lautenschlager

    EveryAware: Health

    BA: evtl. verfügbar, MP: verfügbar

    Health tracking erfreut sich immer groesserer Beliebtheit. Dabei werden Puls und Calorienverbrauch gemessen oder Joggingstrecken ausgewertet. Das EveryAware-System bietet die Möglichkeit solche Daten zentral zu sammeln. Allerdings fehlen eine Reihe von Komponenten, die in entsprechenden Masterpraktika oder Bachelorarbeiten entwickelt werden sollen. Dies beinhaltet die Entwicklung von Androidapplikationen, Visualisierungen und einem Webfrontend, das eine intuitive und informative Auswertung der eigenen gesammelten Daten ermöglichen soll (ähnlich etwa zu Runtastic).

     Betreuer: Martin Becker

    EveryAware Trails

    BA/MA: verfügbar

    Im Laufe des EveryAware Projekts wurden viele Luftqualitäts- und Lautstärken-Aufnahmen gemacht. Dazu haben eine Vielzahl von Benutzern beigetragen. Bisher wurden diese Daten kaum analysiert. In dieser Arbeit soll es darum gehen, dieses Defizit zu beheben und die Daten auf das Verhalten unterschiedlicher Nutzergruppen und bzgl. genereller Statistiken zu untersuchen. Unteranderem soll auch HypTrails, eine Methode zum Vergleich unterschiedlicher Bewegungshypothesen, zum Einsatz kommen. Dabei ist vor allem Interesse an den Daten gefragt, da so die interessantesten Ergebnisse entstehen können.

    Betreuer: Martin Becker

    MicroTrails

    BA: verfügbar

    Microworkers ist eine Microtasking-Platform. Das heisst, man kann kleine Aufgaben, wie etwa das Annotieren von Bildern definieren, die dann von einer Vielzahl von Benutzern für eine kleinen Geldbetrag bearbeitet wird. Im Paper MicroTrails wurden für diese Platform mehrere Benutzungshypothesen mithilfe von  HypTrails verglichen. In dieser Arbeit soll es darum gehen, diese Analyse auszuweiten, beispielsweise auf den Vergleich unterschiedlicher Benutzergruppen.

    Betreuer: Martin Becker

    BikeTrails

    BA: verfügbar

    In Amerika werden Daten über Fahrradverleihstationen öffentlich zur Verfügung gestellt. In dieser Arbeit geht es darum, diese Daten zu analysieren. So soll das Verhalten unterschiedlicher Benutzergruppen untersucht werden und allgemeine Statistiken verglichen werden. Dabei soll auch HypTrails, eine Methode zum Vergleich unterschiedlicher Bewegungshypothesen, zum Einsatz kommen.

    Betreuer: Martin Becker

    Latent Topics in Sequences

    MA: verfügbar

    LDA ist ein Ansatz, um aus Dokumentensammlungen latente Themen herauszurechen. Das hilft dabei die Zusammensetzung der Dokumente besser zu verstehen. Wenn man nun Navigationspfade beispielsweise in Wikipedia betrachtet, stellt sich nun die Frage, ob nicht die Dokumente sondern die Navigationspfade über diesen Seiten ebenfalls durch latente Themen beschrieben werden können. In dieser Arbeit soll es dabei gehen, eine Erweiterung von LDA für Sequenzen von Dokumenten und deren Zusammenhang zu entwerfen, die entsprechenden latenten Parameter zu lernen, und das Modell auf mehreren Datensätzen zu evaluieren.

    Betreuer: Martin Becker

    Air Quality Prediction

    BA/MA: verfügbar

    EveryAware ermöglicht es mit einer mobilen Sensorbox Luftqualitätswerte aufzunehmen. Das Ziel ist es flächendeckende Karten zu erstellen, die es ermöglichen die Luftqualität and jedem Ort in einer Stadt einschätzen zu können. Da die Luftqualität stark von der Umgebung abhängt, ist es sogar nicht nötig ständig und überall zu messen. Stattdessen können Modelle verwendet werden, die basierend auf wenigen gemessenen Werten zu interpolieren. 

    Eine akutell sehr bliebte Modellklasse zu Modellierung diskreter Daten sind im Topic-Modelle. In dieser Arbeit soll basierend auf von OpenStreepMap extrahierten Daten das Author-Topic-Modell adaptiert werden.

    Betreuer: Martin Becker

    AirProbe Kalibrierung

    BA: verfügbar, MA: verfügbar


    Die Android-Applikation AirProbe hilft dabei ein Bewusstsein für Luftqualität und deren Auswirkungen zu fördern. Allerdings ist das Messen von Luftqualität nur mit sehr teuren Messgeräten möglich. Im Rahmen des EveryAware-Projekts wurde jedoch eine kostengünstige Sensorox entwickelt, mit der es möglich sein soll, eine Komponente (Black Carbon) anhand mehrere Indikatorgase zu messen. Allerdings ist das Umrechnen dieser Indikatorgase in einen Black Carbon nicht trivial.

    Das Ziel dieser Arbeit soll es sein, eine Methode zu entwicklen die brauchbare Black-Carbon-Werte ableiten kann. Dazu kann zunächst mit diskreten Zielwerten und bewährten Methoden wie etwa SVMs gearbeitet werden. 

    Betreuer: Martin Becker

    EveryAware: GeoMesa

    BA: verfügbar, MA: verfügbar

    Das EveryAware-System dient unteranderem, zur Sammlung und Auswertung beliebiger ortsgebundener Sensordaten, wie etwa Lautstärken oder Luftqualität. Dabei entstehen sehr schnell große Mengen an Daten. In dieser Arbeit soll es darum gehen, das Backend von EveryAware auf eine verteilte Speicherlösung, wie etwa Cassandra, Hive, o.ä. umzustellen. Als übergeordneted Framework ist insbesondere GeoMesa ist ein interessanter Kandidat, da es außerdem Anbindungen an GeoServer  ermöglicht. 

    Die Arbeit ermöglicht es direkt mit unserem Cloudera-Cluster zu arbeiten und Technologien wie Spark, MapReduce, HDFS und viele mehr kennenzulernen.

     Betreuer: Martin Becker

    BlueSpot: SLAM

    MP: verfügbar, MA: verfügbar

    Das EveryAware-System dient unteranderem, zur Sammlung und Auswertung beliebiger ortsgebundener Sensordaten, wie etwa Lautstärken oder Luftqualität. Dabei ist eine möglichst genaue Lokalisation essentiell. Jedoch sind brauchbare Positionswerte vor allem in Gebäuden kaum zu gewährleisten.   

    1. Im Rahmen eines Masterpraktikums soll es zunächst darum gehen, günstige BlueTooth-Einheiten zu entwickeln, die Mobiltelephone erkennen können. Anhand der erkannten Einheiten soll das Mobiltelefon dann in der Lage sein, eine raumgenaue Position zu bestimmen. Desweiteren soll es eine Karte geben, auf der alle aktiven Telefone den entsprechenden Räumen zugeordnet werden. Die Implementierung wird auf dem EveryAware-System und Android basieren.

    2. In der anschliessenden Masterarbeit sollen verschieden SLAM-Algorithmen zur automatischen Kartographierung der Umgebung and Lokalisation des Endgerätes anhand des im Masterpraktikum entstandenen Systems implementiert und evaluiert werden.  

     Betreuer: Martin Becker

    BibSonomy

    Ansprechpartner für dieses Thema: Daniel Zoller

    Verknüpfung des Mediawikis mit BibSonomy

    Die von Wikipedia genutzte Software MediaWiki ist eine der bekanntesten Wiki-Implementierungen. Häufig werden auf Wikiseiten Bücher oder Fachartikel zitiert. Die Zitation erfolgt nicht durch einen Link auf eine eindeutig gespeicherte Referenz der Veröffentlichung, sondern in Textform. Daher ist es schwer, einen Überblick über alle Referenzen zu bekommen und eventuelle Fehler zentral zu korrigieren. In diesem Projekt soll ein Plugin für MediaWiki entwickelt werden, das die einfache Übernahme der Daten aus typischen Veröffentlichungssystemen wie BibSonomy erlaubt. Dabei soll der Nutzer mit AJAX-Techniken aus dem Web 2.0 unterstützt werden. Die Daten sind im Wiki abzulegen und mit den Originaldaten zu verknüpfen. Die im Wiki gespeicherten Publikationsdaten dienen als Basis für das Zitieren im Mediawiki.

    Zur Lösung der Aufgabe ist eine skalierbare und erweiterebare Architektur für das MediaWiki-Plugin zu entwerfen und zu implementieren. Die Implementierung für das Mediawiki erfolgt in PHP. Das Wiki muss zur Übernahme der Daten per API auf die externen Systeme zugreifen und die gesammelten Daten entsprechend speichern können.

    Betreuer: Prof. Hotho

    Analyse des Retrievalverhaltens von Benutzern

    BA/MA: verfügbar

    BibSonomy erlaubt es dem Benutzer seine gespeicherten Lesezeichen/Publikationen mittels Tags zu verschlagworten. Neben der Möglichkeit die gespeicherten Einträge über Tags wiederzufinden, bietet BibSonomy auch eine Volltextsuche.

    Ziel dieser Arbeit ist es, das Retrievalverhalten der Benutzer zu analysieren. U. a. sollen die folgenden Fragen beantwortet werden: 

    • Verwenden Benutzer die Suche eher als Tags um Einträge wiederzufinden?
    • Welche Tag Typen werden vor allem für das Wiederfinden verwendet?
    • Werden Tags in der Suche eher verwendet? 

    Betreuer: Daniel Zoller

    Performanceanalyse von MariaDB für BibSonomy

    BA: verfügbar

    BibSonomy setzt zur Zeit auf MySQL als persistentes Backend. In den letzten Jahren hat sich die offenen Alternative MariaDB immer weiter verbreitet. Ziel dieser Arbeit ist es die nötigen Anpassungen an BibSonomy vorzunehmen und Performanceanalysen mit dem neuen Backend durchzuführen. Weiter soll die Clusterfähigkeit von MariaDB (MariaDB Galera Cluster) für den Produktiveinsatz getestet werden.

    Betreuer: Daniel Zoller

    Autorenerkennung - Deep Learning

    BA/MP/MA: verfügbar

    BibSonomy erlaubt die Zuordnung von Autoren einer Veröffentlichung (z. B. die Zuordnung des Autors Andreas Hotho der Publikation "Information Retrieval in Folksonomies: Search and Ranking" zu der Person Andreas Hotho). Ziel dieser Arbeit ist es die Benutzer des Systems anhand ihrer Einträge zu einer Person zuzuordnen. Außerdem sollen weitere Publikationen gefunden und vorgeschlagen werden, die ggf. von einer Person geschrieben wurden. Vor allem sollen Deep Learning Methoden für diese Aufgabe ausprobiert werden.

    Betreuer: Daniel Zoller

    Publikationsrelevanzvorhersagesystem

    BA/MP/MA: verfügbar

    Immer mehr Wissenschaftler veröffentlichen ihre Forschungsergebnisse auf Preprint-Servern wie ArXiv bevor sie ihre Arbeiten auf konventionelle Wege (Konferenzbeitrag, Journal, …) publizieren. Die dabei entstehende Flut an Artikeln macht es für einen Wissenschaftler unmöglich, relevante Arbeiten auf seinem Forschungsgebiet frühzeitig zu erkennen.

    Deshalb ist das Ziel dieser Arbeit ein Publikationsreputationssystem zu entwickeln, was in der Lage ist, den späteren Impact eines Forschungsartikels vorherzusagen. Die Vorhersage soll mittels verschiedener Daten (Publikationsgraph, Altmetrics) erfolgen. Dabei sollen konventionelle Machine Learning Verfahren als auch Deep Learning untersucht werden.

    Betreuer: Daniel Zoller

    Text Mining und Natural Language Processing

    Ansprechpartner für dieses Thema: Daniel Schlör

    Sentiment in fiktionaler Literatur

    BA/MA/MP: vergeben, ähnliche/anknüpfende Arbeiten möglich

    Anders als beispielsweise bei strukturiertem Text, ist es für Computer nicht ohne weiteres möglich Informationen aus natürlich-sprachlichen Text auszulesen. Eine interessante Meta-Information ist beispielsweise Sentiment, um zu erkennen in welcher Stimmung ein Text verfasst wurde, bzw. welche Stimmung er beim Leser erzeugt. Ein Unternehmen könnte so beispielsweise automatisch herausfinden, wie zufrieden Kunden mit einem Produkt sind, nur unter Zuhilfenahme von Freitext-Reviews.

    Aufgabe bei diesem Thema ist, die Implementierung und Adaption von Sentiment Analysis Methoden auf fiktionale Literatur. Methoden, die bereits für Sentiment-Analysis etabliert sind sollen auf fiktionale Texte angewandt werden um ein Stimmungsabbild für jede mögliche Plot-position erzeugen können, also beispielsweise negative Szenen in denen Protagonisten sterben von positiven Szenen beispielsweise dem klassischen „Happy End“ bezüglich der Leserstimmung differenzieren zu können.

    Da Sentiment-Analysis im Allgemeinen stark sprach- und wortlistenabhängig ist, soll methodisch ein Transfer zwischen Ressourcen verschiedener Sprachen untersucht werden.

    Teilaufgaben:

    • Übersicht und Vergleich von Sentiment Analysis Methoden auch hinsichtlich Sprachperformance
    • Adaption an fiktionale Literatur
    • Implementierung eines SA-Tools zur einfachen Analyse
    • Sprachunabhängigkeit und Evaluation
    • Ziel: Sentiment von literarischen Texten auf verschiedenen Textebenen bestimmen können, Tool Deployment

    BetreuerDaniel Schlör

    Biofeedback und Konsumentenerlebnis

    BA/MA/MP: vergeben, anknüpfende Arbeiten möglich

    In dieser Arbeit soll am Beispiel von Texten der unbewusste Einfluss des Textes auf den Leser analysiert werden. Hierfür sollen Biofeedback Informationen des Lesers parallel zu dessen Lesefortschritt erfasst werden und untersucht werden, ob sich vorhersagen lässt, wie ein Leser auf eine bestimmte Stelle im Text reagieren könnte. 

    Diese Arbeit kann sowohl als Bachelor- als auch als Masterarbeit vergeben werden, wobei sich der Umfang der Arbeit entsprechend ändert:

    Als Bachelorarbeite soll mindestens ein Tool, idealerweise als Smartphone- oder eReader-App, entwickelt werden, das auf Sensordaten, die beispielsweise über ein Fitnessarmband erfasst werden, zugreift und diese zusammen mit dem aktuellen Lesefortschritt abspeichert und visualisiert. 

    Als zweites Evaluationsszenario kommt auch das Zuschauererlebnis bei Filmen in Frage.

    Als Masterarbeit oder in einem Masterpraktikum sollte darüber hinaus mit Methoden des Natural Language Processing der Seiteninhalt zusammen mit den aufgezeichneten Werten verarbeitet werden und so mögliche Indikatoren für Veränderungen im Biofeedback vorhergesagt werden. Hier sind insbesondere Varianten von Sentiment Analysis vielversprechend, bei denen über positive / negative Stimmungsklassifikation hinaus auch Erregungsgrad vorhergesagt werden kann.

    BetreuerDaniel Schlör

    Automatische Summarization von Movie Scripts

    BA/MA/MP: verfügbar

    Text-Extraction bzw. Text-abstraktion sind Methoden zur automatischen Zusammenfassung eines Textes mit Hilfe computerlinguistischer Techniken. Dabei werden Teile eines Textes - zum Beispiel Sätze oder ganze Abschnitte - mittels statistischer und/oder heuristischer Methoden bezüglich ihrer Wichtigkeit oder Relevanz bewertet bzw. bezüglich ihrer wichtigsten Informationen abstrahiert.

    Viele der in diesem Bereich etablierten Methoden arbeiten typischerweise auf Zeitungstexten und werden für solche Evaluationsszenarien entwickelt und entsprechend evaluiert. 

    Ziel dieser Aufgabe ist, die automatische Aufbereitung von Movie Scripts und der Transfer von state-of-the-art-Methoden und die Evaluation in dieser Domäne. 

    Eine weitere mögliche Anwendung ist die Zusammenfassung im Sinne von Extraktion von Schlüsselszenen der vergangenen Folgen von sequentiellen (TV-)Serien.

    BetreuerDaniel Schlör

    Automatische Segmentierung von Texten

    BA/MA/MP: vergeben, ähnliche/anknüpfende Arbeiten möglich

    Die Segmentierung von Texten in möglichst koherente Textabschnitte ist eine entscheidende Vorverarbeitung zu vielen Text-Mining und NLP Anwendungen.

    Mögliche Anwendung ist die Erkennung von Szenen in Filmen, Serien, Dramen und Romanen, aber auch die Strukturierung von Zeitungstexten.

     

    BetreuerDaniel Schlör

    Identifikation von literatur-typischen semantischen Frames zum tieferen Textverständnis

    BA/MA/MP: verfügbar

    Um semantische Zusammenhänge in Text zu verstehen bzw. maschinell begreifbar zu machen gebt es verschiedene Möglichkeiten. Eine typische ist dabei das Auffassen von semantischen Rollen in sogenannten Frames, Frame Semantics genannt. Dabei wird eine Beschreibung eines Events, einer Relation oder Entität betrachtet und die darin jeweils Beteiligten erfasst. Beispielsweise das Konzept „Kochen“ enthält eine Person die kocht (Cook), das Essen das gekocht wird (Food), etwas worin das Essen gekocht wird (Container) und eine Hitzequelle (Heating_instrument). Solche Frames wurden bereits in  FrameNet gesammelt, systematisiert und auf Beispielsätze annotiert.

    Ziel dieser Arbeit ist es, in FrameNet definierte Frames im Kontext von fiktionaler Literatur automatisch zu erkennen. Ausgehend von leicht zu erfassenden Frames soll eine Methodik entwickelt werden um beliebige Frames möglichst korrekt zu erkennen. Schließlich soll neben einer Evaluation auf Frame-Ebene eine extrinsische Evaluation durch Anwendung der Frame-Informationen auf die Klassifikation von bspw. Gattung durchgeführt werden.

    BetreuerDaniel Schlör

    Vergleich von Word Embeddings für NLP Tasks

    BA/MA/MP: verfügbar

    Word Embeddings stellen eine Möglichkeit dar, natürliche Sprache in einen hochdimensionalen Vektorraum einzubetten und damit für Maschinen besser verwertbar zu machen. In dieser Arbeit soll untersucht werden, wie sich verschiedene vortrainierte Einbettungen für zwei Tasks aus dem Bereich des Natural Language Processing (NLP) verhalten: relation classification und word similarity. 

    Erfahrung mit Python ist sicherlich hilfreich. Zudem sind Kenntnisse im Bereich Text Mining und Machine Learning von Vorteil. Im Fall einer Masterarbeit werden Kenntnisse über neuronale Netze vorausgesetzt, da hier auch word embeddings selbst trainiert werden sollen.

    BetreuerLena Hettinger

    Neural Networks

    Ansprechpartner für dieses Thema: Alexander Dallmann

    Predicting Pollution from Map Features using Neural Networks

    BA/MA/MP: verfügbar

    Environmental pollution, e.g. black carbon or noise is a big problem for both developing and industrial countries. With the availability of comparatively cheap sensors and open-source electronics platforms like Arduino it is now possible for citizens to collect and share environmental data with the goal to analyze it in cooperation with researchers.

    In this thesis your goal will be to build models that can predict pollution levels from map features. Exploiting data that has been collected as part of studies on our open-source citizen science platform EveryAware you will develop different neural network architectures and evaluate their usefulness in predicting pollution levels from map features, e.g. streets, buildings, forests ...

    Betreuer: Alexander Dallmann, Martin Becker, Florian Lautenschlager

    Andere Themen

    Hier sind ggf. nicht alle Themen, die wir anbieten aufgelistet. Wenn Sie Interesse an dem Thema allgemein haben, können sie Andreas Hotho für weitere Informationen/Themen kontaktieren. Falls Sie sich für ein konkretes Thema interessieren, dann können Sie direkt Kontakt mit dem Betreuer des Themas aufnehmen.

    Virtual Reality and E-Sports

    BA/MA: verfügbar

    eSport boomt. eSportlerInnen treten in einer Vielzahl von Computerspielen gegeneinander an und messen sich in virtuellen Welten. Die Events werden weltweit organisiert und durchgeführt und haben schon lange ebenfalls einen Profibereich mit Sponsoring und Fangemeinde etc. etabliert.

    Ziel dieses Themas ist die Entwicklung einer Virtuellen Realität (VR), in welcher Personen gleichzeitig einen Video-Stream auf einer ebenfalls in der VR vorhandenen virtuellen Leinwand betrachten können. Als Eingabe-/Ausgabegeräte kommen 2 HTC Vives zum Einsatz. Die eigentliche Simulationsumgebung wird mittels aktueller Game-Engines (Unreal Engine, Unitiy3D) realisiert.

    Für weitere Informationen klicken Sie bitte hier.

    Betreuer/Ansprechpartner: Andreas Hotho

    WLAN Router Auto-Optimierung

    BA/MA: verfügbar

    Senden mehrere räumlich nah agierende WLAN Router auf überlappenden Kanälen kommt es schnell zur gegenseitigen Störung – das heißt, deren Übertragungskapazität wird verringert. Um dies zu verhindern wäre es wünschenswert, wenn (mehrere, räumlich nahe aufgestellte) WLAN Router sich automatisch hinsichtlich der Wahl des Kanals optimieren um so maximale Leistung/Übertragungsgeschwindigkeit zu erreichen. Die Bachelorarbeit WLAN Router Auto-Optimierung soll untersuchen, wie dieses Ziel mit dem Einsatz geeigneter ML (Machine Learning) Verfahren erreicht werden kann. Hierbei ist zu untersuchen, welche Kanäle am verbreitetsten genutzt werden und welche (manuellen) Empfehlungen es gibt, Kanäle auszuwählen. Anschließend sollten verschiedene ML Verfahren auf ihre Eignung untersucht und mind. ein Verfahren für die Optimierungsaufgabe eingesetzt werden – d.h., basierend auf den allgemeingültigen Empfehlungen und der erkannten (sich möglicherweise stetig verändernden) Router-/Kanalsituation die jeweils beste Kanalverteilung automatisch zu erkennen und zu konfigurieren.

    Betreuer/Ansprechpartner: Andreas Hotho

    Verwendung von Deep Learning für die Verbesserung von Sprachaufnahmen

    Masterarbeit: verfügbar

    Sprachverbesserung, also das Unterdrücken von Rauschen und Hintergrundgeräuschen in Sprachaufnahmen, wird beispielsweise in Mobiltelefonen oder Hörgeräten angewendet. Aktuell basieren Sprachverbesserungssysteme allerdings größtenteils auf Methoden der Statistik. In dieser Masterarbeit soll ein System entwickelt werden, welches auf Deep Learning basiert. Dabei lernt ein neuronales Netzwerk zunächst, Stimme von Rauschen zu unterscheiden, dessen Einschätzung dann zur Verbesserung des Signals verwendet wird. Die Betreuung dieser Arbeit findet in Kooperation mit der Signal Processing Gruppe der Universität Hamburg statt, welche an Sprachverbesserung forscht. Während der Bearbeitungszeit wird voraussichtlich eine Reise nach Hamburg ermöglicht und unterstützt, um die Kollegen in Hamburg kennenzulernen und Zwischenergebnisse zu diskutieren.

    Betreuer/Ansprechpartner: Konstantin Kobs (Uni Würzburg), Dr.-Ing. Martin Krawczyk-Becker (Uni Hamburg)

    Automatische Identifikation von Geräuschen mit Neuronalen Netzen

    BA/MA/MP: verfügbar

    In dieser Arbeit soll die Identifikation von Geräuschen mit Hilfe von Neuronalen Netzen evaluiert werden. Zunächst sollen einzelne Geräuschimpulse klassifiziert werden, bevor der Ansatz auf Geräuschpatterns erweitert werden kann.

    Hierfür stehen bereits Daten von Schwingungssensoren, die in einem Tischkicker installiert wurden von unterschiedlicher Qualität bereit. Die Möglichkeit weitere Trainingsdaten zu generieren ist gegeben. Ziel hierbei ist is, Tore von nicht-Toren zu unterscheiden.

    Als zweiter Datensatz sollen Samples von Drum Computer verwendet werden, die ebenfalls als Datensatz zur Verfügung gestellt werden und sich besonders zur Generierung beliebig vieler künstlicher Trainingsdaten eignen.

    Komplexere Ansätze basierend auf Geräuschpatterns könnten etwa Vogelstimmen klassifizieren, Aufnahmen eines Schlagzeugs analysieren oder Schrittmuster von verschiedenen Personen anhand von Schrittgeräuschen identifizieren.

    Betreuer/AnsprechpartnerDaniel Schlör

    Automatische Bildbearbeitung mit neuronalen Netzen

    Bachelorarbeit/Masterarbeit/Masterpraktikum: verfügbar

    Professionelle Fotografen versuchen, durch Bearbeitung ihrer Bilder die interessanten Objekte im Bild hervorzuheben. Im Gegensatz zu aktuellen automatischen Methoden gehen sie dabei auch lokal vor und verändern beispielsweise nur den Kontrast in einem bestimmten Teil des Bildes. Dies wird durch automatisierte Methoden aktuell kaum oder gar nicht gemacht.

    In der hier beschriebenen Arbeit sollen neue Methoden entwickelt werden, einem neuronalen Netzwerk beizubringen, bearbeitete von nicht bearbeiteten Bildern zu unterscheiden und einem anderen Netzwerk in einem nächsten Schritt die Fähigkeit zu geben, wie professionelle Fotografen Bilder gezielt nachzubearbeiten.

    Ansprechpartner: Konstantin Kobs

    Open Source Captchas

    BA/MP/MA: verfügbar

    Bots stellen ein Problem für Webseitenbetreiber dar, weil sie Spam verursachen können und Systemressourcen verschwenden. Um Bots den Zugriff auf Systeme zu erschweren gibt es sog. Captchas, die Maschinen von Menschen unterscheiden sollen. Der verbreitetste Dienst für Captchas ist Google’s reCAPTCHA. Dieses System wird von Google auch benutzt, um von Nutzern implizit Daten labeln zu lassen, die sie dann für das Trainieren von Machine Learning Modellen nutzen. Allerdings sind die dadurch entstehenden Datensätze nicht öffentlich zugänglich für die Forschung und die Verwendung des Dienstes zur Botabwehr ist aus Datenschutzgründen schwierig.

    Die Aufgabe dieser Arbeit besteht darin einen Open Source Dienst für Captchas zu implementieren. Der Dienst soll es auch ermöglichen Daten von Nutzern labeln zu lassen für die Verwendung in Machine Learning Modellen.

    Betreuer/AnsprechpartnerMichael Steininger

    Verteilter Web-Crawler mit Hadoop

    MA: verfügbar

     

    Ziel der Arbeit ist die Untersuchung von Open Source Frameworks wie Nutch oder Hetrix3 zum verteilten Crawlen des gesamten Webs. Dabei sollen existierende Frameworks aus crawlen in einem räumlich verteilten Setting hin geprüft. Es sind Performancemessungen für vorhanden verteilte Crawler durchzuführen. Es ist auch denkbar, dass vorhanden Crawler, die für ein solches Setting nicht geeignet sind und ein Prototyp im Rahmen der Arbeit entwickelt wird. Im Ergebnis stehen Proformancezahlen für bis zu 100TB an Webdaten für die verschiedenen ausgewählte Crawler zur Verfügung.

     

     

    Betreuer/Ansprechpartner: Andreas Hotho

    Data privacy protection

    By clicking 'OK' you are leaving the web sites of the Julius-Maximilians-Universität Würzburg and will be redirected to Facebook. For information on the collection and processing of data by Facebook, refer to the social network's data privacy statement.

    Data privacy protection

    By clicking 'OK' you are leaving the web sites of the Julius-Maximilians-Universität Würzburg and will be redirected to Twitter. For information on the collection and processing of data by Facebook, refer to the social network's data privacy statement.

    Social Media
    Contact

    Andreas Hotho
    DMIR Research Group
    Am Hubland
    97074 Würzburg

    Phone: +49 931 31-86731
    Fax: +49 931 31-86732

    Find Contact

    Hubland Süd, Geb. M2