Deutsch Intern

    Praktika, Bachelor- und Masterarbeiten

    Diese Liste enthält die verfügbaren Themen für Praktika, Bachelor- und Masterarbeiten der Data Mining & Information Retrieval-Arbeitsgruppe (DMIR).

    Die Themenstellung erfolgt in Absprache mit dem Studierenden; der Umfang der Arbeit richtet sich nach dem jeweils angestrebten Anschluss.

    Bitte wenden Sie sich für zusätzliche Informationen über ein spezielles Thema direkt an den angegebenen Betreuer.

    Zusätzlich zu den unten aufgeführten Themen stehen auf Anfrage noch weitere Themen zur Auswahl. Wir freuen uns über jede Anfrage.

    Die Ansprechpartner für die jeweiligen Themenbereiche lauten wie folgt:

    EveryAware Martin Becker
    Semantik auf Web-Daten Thomas Niebler
    BibSonomy Daniel Zoller
    Text Mining und Natural Language Processing Daniel Schlör
    Neural Networks Alexander Dallmann
    Andere Themen Andreas Hotho

    Bei hervorragender Leistung besteht außerdem bei allen der genannten Themen die Chance am Ende der Arbeit einen Artikel auf einer Informatikkonferenz einzureichen und so früh im Studium Co-Author auf einer wissenschaftlichen Veröffentlichung zu sein!

    EveryAware

    Ansprechpartner für dieses Thema: Opens internal link in new windowMartin Becker

    Gait Classification using Sound

    MP: verfügbar

    Menschen sind in der Lage, Personen nur anhand der Geräusche zu indentifizieren, die sie beim  Laufen erzeugen. Ziel dieser Arbeit ist es, ein Maschinelles Lernverfahren, wie etwa SVMs oder Neuronale Netze, dazu zu verwenden, Personen automatisch an ihren Laufgeräuschen zu erkennen. Dazu soll mit den Mitarbeitern des Lehrstuhls ein entsprechenden Datensatz erzeugt werden, der dann im nächsten Schritt zum Trainieren und Testen verwendet werden kann. 

    Betreuer: Martin Becker

    EvA Particles

    MP: verfügbar

    Particles sind Chips, die es ermöglichen kleine, mit dem Internet verbundenen Sensoreinheiten leicht zu erstellen. In dieser Arbeit geht es darum eine Reihe solcher Sensoren zu bauen. Diese sollen dann mit dem EveryAware-System, einer Platform zum Sammeln beliebiger Sensordaten, verknüpft werden. Dazu muss entsprechende  Software für die Particles als auch Visualisierungen für die EveryAware-Platform entwickelt werden. Das Praktium soll mit einem selbst entworfenem Use-Case abschließen. 

    Betreuer: Martin Becker, Matthias Hirth

    EveryAware: Health

    BA: evtl. verfügbar, MP: verfügbar

    Health tracking erfreut sich immer groesserer Beliebtheit. Dabei werden Puls und Calorienverbrauch gemessen oder Joggingstrecken ausgewertet. Das EveryAware-System bietet die Möglichkeit solche Daten zentral zu sammeln. Allerdings fehlen eine Reihe von Komponenten, die in entsprechenden Masterpraktika oder Bachelorarbeiten entwickelt werden sollen. Dies beinhaltet die Entwicklung von Androidapplikationen, Visualisierungen und einem Webfrontend, das eine intuitive und informative Auswertung der eigenen gesammelten Daten ermöglichen soll (ähnlich etwa zu Runtastic).

     Betreuer: Martin Becker

    EveryAware Trails

    BA/MA: verfügbar

    Im Laufe des EveryAware Projekts wurden viele Luftqualitäts- und Lautstärken-Aufnahmen gemacht. Dazu haben eine Vielzahl von Benutzern beigetragen. Bisher wurden diese Daten kaum analysiert. In dieser Arbeit soll es darum gehen, dieses Defizit zu beheben und die Daten auf das Verhalten unterschiedlicher Nutzergruppen und bzgl. genereller Statistiken zu untersuchen. Unteranderem soll auch HypTrails, eine Methode zum Vergleich unterschiedlicher Bewegungshypothesen, zum Einsatz kommen. Dabei ist vor allem Interesse an den Daten gefragt, da so die interessantesten Ergebnisse entstehen können.

    Betreuer: Martin Becker

    Optimizing SparkTrails

    BA: verfügbar

    SparkTrails ist eine MapReduce Implementierung von HypTrails und basiert auf der aktuell sehr populären Clustercomputing-Platform Apache Spark. In dieser Arbeit soll es darum gehen, diese Implementierung weiter zu optimieren. Dabei werden vertiefte Kenntnisse über Spark und dessen Anwendung und Implementierung erworben, was für das spätere Berufsleben von großen Vorteil sein kann.

    Betreuer: Martin Becker

    MicroTrails

    BA: verfügbar

    Microworkers ist eine Microtasking-Platform. Das heisst, man kann kleine Aufgaben, wie etwa das Annotieren von Bildern definieren, die dann von einer Vielzahl von Benutzern für eine kleinen Geldbetrag bearbeitet wird. Im Paper MicroTrails wurden für diese Platform mehrere Benutzungshypothesen mithilfe von  HypTrails verglichen. In dieser Arbeit soll es darum gehen, diese Analyse auszuweiten, beispielsweise auf den Vergleich unterschiedlicher Benutzergruppen.

    Betreuer: Martin Becker

    Latent Topics in Sequences

    MA: verfügbar

    LDA ist ein Ansatz, um aus Dokumentensammlungen latente Themen herauszurechen. Das hilft dabei die Zusammensetzung der Dokumente besser zu verstehen. Wenn man nun Navigationspfade beispielsweise in Wikipedia betrachtet, stellt sich nun die Frage, ob nicht die Dokumente sondern die Navigationspfade über diesen Seiten ebenfalls durch latente Themen beschrieben werden können. In dieser Arbeit soll es dabei gehen, eine Erweiterung von LDA für Sequenzen von Dokumenten und deren Zusammenhang zu entwerfen, die entsprechenden latenten Parameter zu lernen, und das Modell auf mehreren Datensätzen zu evaluieren.

    Betreuer: Martin Becker

    Air Quality Prediction

    BA/MA: verfügbar

    EveryAware ermöglicht es mit einer mobilen Sensorbox Luftqualitätswerte aufzunehmen. Das Ziel ist es flächendeckende Karten zu erstellen, die es ermöglichen die Luftqualität and jedem Ort in einer Stadt einschätzen zu können. Da die Luftqualität stark von der Umgebung abhängt, ist es sogar nicht nötig ständig und überall zu messen. Stattdessen können Modelle verwendet werden, die basierend auf wenigen gemessenen Werten zu interpolieren. 

    Eine akutell sehr bliebte Modellklasse zu Modellierung diskreter Daten sind im Topic-Modelle. In dieser Arbeit soll basierend auf von OpenStreepMap extrahierten Daten das Author-Topic-Modell adaptiert werden.

    Betreuer: Martin Becker

    BikeTrails

    BA: verfügbar

    In Amerika werden Daten über Fahrradverleihstationen öffentlich zur Verfügung gestellt. In dieser Arbeit geht es darum, diese Daten zu analysieren. So soll das Verhalten unterschiedlicher Benutzergruppen untersucht werden und allgemeine Statistiken verglichen werden. Dabei soll auch HypTrails, eine Methode zum Vergleich unterschiedlicher Bewegungshypothesen, zum Einsatz kommen.

    Betreuer: Martin Becker

    AirProbe Kalibrierung

    BA: verfügbar, MA: verfügbar


    Die Android-Applikation AirProbe hilft dabei ein Bewusstsein für Luftqualität und deren Auswirkungen zu fördern. Allerdings ist das Messen von Luftqualität nur mit sehr teuren Messgeräten möglich. Im Rahmen des EveryAware-Projekts wurde jedoch eine kostengünstige Sensorox entwickelt, mit der es möglich sein soll, eine Komponente (Black Carbon) anhand mehrere Indikatorgase zu messen. Allerdings ist das Umrechnen dieser Indikatorgase in einen Black Carbon nicht trivial.

    Das Ziel dieser Arbeit soll es sein, eine Methode zu entwicklen die brauchbare Black-Carbon-Werte ableiten kann. Dazu kann zunächst mit diskreten Zielwerten und bewährten Methoden wie etwa SVMs gearbeitet werden. 

    Betreuer: Martin Becker

    EveryAware: Generisches Userinterface

    MP: verfügbar, MA: verfügbar

    Das EveryAware-System dient unteranderem, zur Sammlung und Auswertung beliebiger ortsgebundener Sensordaten, wie etwa Lautstärken oder Luftqualität. Es untersützt aber auch eine generische Schnittstelle für beliebige Daten. Für diese soll in dieser Arbeit eine entsprechende Benutzeroberfläche entwickelt werden, die es ermöglicht, einfach und intuitiv auf die Daten zugriefen, die Sensoren zu verwalten, und die Sensortemplates erstellen zu können.

    Diese Arbeit kann als Masterpraktikum, aber besonders im Rahmen des HCI Studiengangs auch als Masterarbeit bearbeitet werden.  

     Betreuer: Martin Becker

    EveryAware: GeoMesa

    BA: verfügbar, MA: verfügbar

    Das EveryAware-System dient unteranderem, zur Sammlung und Auswertung beliebiger ortsgebundener Sensordaten, wie etwa Lautstärken oder Luftqualität. Dabei entstehen sehr schnell große Mengen an Daten. In dieser Arbeit soll es darum gehen, das Backend von EveryAware auf eine verteilte Speicherlösung, wie etwa Cassandra, Hive, o.ä. umzustellen. Als übergeordneted Framework ist insbesondere GeoMesa ist ein interessanter Kandidat, da es außerdem Anbindungen an GeoServer  ermöglicht. 

    Die Arbeit ermöglicht es direkt mit unserem Cloudera-Cluster zu arbeiten und Technologien wie Spark, MapReduce, HDFS und viele mehr kennenzulernen.

     Betreuer: Martin Becker

    BlueSpot: SLAM

    MP: verfügbar, MA: verfügbar

    Das EveryAware-System dient unteranderem, zur Sammlung und Auswertung beliebiger ortsgebundener Sensordaten, wie etwa Lautstärken oder Luftqualität. Dabei ist eine möglichst genaue Lokalisation essentiell. Jedoch sind brauchbare Positionswerte vor allem in Gebäuden kaum zu gewährleisten.   

    1. Im Rahmen eines Masterpraktikums soll es zunächst darum gehen, günstige BlueTooth-Einheiten zu entwickeln, die Mobiltelephone erkennen können. Anhand der erkannten Einheiten soll das Mobiltelefon dann in der Lage sein, eine raumgenaue Position zu bestimmen. Desweiteren soll es eine Karte geben, auf der alle aktiven Telefone den entsprechenden Räumen zugeordnet werden. Die Implementierung wird auf dem EveryAware-System und Android basieren.

    2. In der anschliessenden Masterarbeit sollen verschieden SLAM-Algorithmen zur automatischen Kartographierung der Umgebung and Lokalisation des Endgerätes anhand des im Masterpraktikum entstandenen Systems implementiert und evaluiert werden.  

     Betreuer: Martin Becker

    EveryAware ScienceJournal

    MP: Verfügbar

    Mit dem EveryAware-System lassen sich ortsgebundene Daten sammeln und analysieren. In der Arbeitsgruppe werden sowohl Luftqualitäts- als auch Lautstärkedaten mit eigenen Apps gesammelt. Mittlerweile wurde das System auf generische Daten erweitert, so dass jeder Benutzer beliebige Daten hochladen und weiterverwenden kann. Im Rahmen eines Masterpraktikums soll eine App entwickelt werden, die Daten von im Smartphone integrierten sowie angeschlossenen Sensoren sammelt und die Möglichkeiten bietet, diese mit Notizen zu versehen und an EveryAware zu senden.

    Es existiert bereits eine ähnliche App eines Drittanbieters, bei der jedoch Kernfunktionen fehlen.

    Betreuer: Florian Lautenschlager

    Tag Maps

    BA/MP/MA: Verfügbar

    Im Projekt P2Map werden mit Hilfe von Sensorboxen von freiwilligen Helfern mobile, standortbezogene Luftqualitätsdaten erfasst. Um diese in einen interprtierbaren Kontext zu setzen erlaubt die zugehörige Smartphone-App durch das hinzufügen von Tags zu einzelnen Messpunkten und Sequenzen das annotieren von subjektiven Eindrücken. Um diese Tags besser analysieren zu können, soll in der Arbeit ein Tool zur ansprechenden Visualisierung, wie zum Beispiel in der nebenstehenden Grafik zu sehen, erstellt werden.

    Betreuer: Florian Lautenschlager

    Semantik auf Web-Daten

    Ansprechpartner für dieses Thema: Thomas Niebler

    Semantic Web: Ontologielernen mit Metric Learning

    MA: verfügbar

    Das Lernen von Ontologien oder Begriffshierarchien über ihre Bedeutung ist ein wichtiges Problem im Semantic Web, um maschinenlesbare Zusammenhänge zwischen Worten automatisch aufbauen zu können. Hierfür existieren bereits verschiedene Algorithmen, die u.a. auch auf Tagging-Systemen aufbauen (siehe z.B. www.bibsonomy.org/bibtex/216c77e486fb8bc527eb7734b153932ab/thoni).

    Ziel dieser Arbeit ist es, einen solchen existierenden Algorithmus zu implementieren und zu testen. Schließlich sollen Metric-Learning-Ansätze benutzt werden, um den Algorithmus zu verbessern.

    Voraussetzungen: Python oder Java-Kenntnisse vonnöten

    Betreuer: Thomas Niebler

    Semantische Analyse von Navigationsverhalten auf BibSonomy

    BA: verfügbar, MA: verfügbar

    Das Publikationsnetzwerk BibSonomy bietet seinen Nutzern die Möglichkeit, interessante Publikationen und Lesezeichen zu speichern. Da Postings in BibSonomy viel semantische Information beinhalten, ist es interessant, inwieweit die Navigation ebenfalls semantisch charakterisiert werden kann.

    Diese Arbeit analysiert die neueste Navigation von Usern auf BibSonomy anhand von Webserver Logs, extrahiert Navigationspfade und wendet auf diese Pfade Verfahren zur Semantikextraktion an.

    Potentielle Teilthemen für Bachelorarbeiten wären:

    • Einfluss von Navigationshypothesen auf die extrahierte Semantik
    • Analyse des Navigationsverhaltens von verschiedenen Nutzergruppen

     Betreuer: Thomas Niebler

    Einfluss von Tag Cleansing auf Semantikextraktion aus Taggingdaten

    BA: verfügbar

    Das Publikationsnetzwerk BibSonomy bietet seinen Nutzern die Möglichkeit, interessante Publikationen und Lesezeichen zu speichern. Jedes Posting wird mit sogenannten "Tags" versehen, die das Posting möglichst gut beschreiben. Es ist nun möglich, diese Tags zu benutzen, um semantische Beziehungen zwischen ihnen zu errechnen.

    Diese Arbeit vergleicht den semantischen Inhalt "ungesäuberter" und "gesäuberter" Tagrepresentation. Diese Säuberung kann anhand der Popularität eines Tags bemessen werden, aber bspw. auch anhand eines Clusteringansatzes mithilfe der Levenshtein-Distanz. Die Qualität der semantischen Repräsentationen wird anhand menschlicher Intuition gemessen.

    Voraussetzungen: Python (bevorzugt) oder Java-Kenntnisse vonnöten.

    Betreuer: Thomas Niebler

    Semantiklernen aus Taggingdaten mithilfe von Deep Learning

    BA: verfügbar, MA: verfügbar

    Das Publikationsnetzwerk BibSonomy bietet seinen Nutzern die Möglichkeit, interessante Publikationen und Lesezeichen zu speichern. Jedes Posting wird mit sogenannten "Tags" versehen, die das Posting möglichst gut beschreiben. Es ist nun möglich, diese Tags zu benutzen, um semantische Beziehungen zwischen ihnen zu errechnen.

    Diese Arbeit adaptiert verschiedene Maße zur Semantikextraktion aus Taggingdaten, um sie in einem Deep-Learning-Szenario anzuwenden. Die Qualität der Ergebnisse soll anhand menschlicher Intuition gemessen werden.

    Voraussetzungen: Python (bevorzugt) oder Java-Kenntnisse vonnöten.

    Betreuer: Thomas Niebler

    Vergleich verschiedener DeepLearning-Modelle zur Semantikextraktion aus Wikipedia-Links

    BA: verfügbar

    Die freie Enzyklopädie Wikipedia bietet einen umfassenden Wissenschatz in miteinander verknüpften Artikeln an. Sowohl im reinen Artikeltext als auch im Linknetzwerk ist eine große Menge semantischer Information enthalten.

    Diese Arbeit vergleicht die Performance verschiedener auf Deep Learning basierenden Methoden zur Extraktion dieser semantischen Information aus dem Wikipedia-Linknetzwerk. Die Qualität der Ergebnisse soll anhand menschlicher Intuition gemessen werden.

    Voraussetzungen: Python (bevorzugt) oder Java-Kenntnisse vonnöten.

    Betreuer: Thomas Niebler

    Modellierung menschlicher Navigation auf Wikipedia

    BA: verfügbar

    Die freie Enzyklopädie Wikipedia bietet einen umfassenden Wissenschatz in miteinander verknüpften Artikeln an. Sowohl im reinen Artikeltext als auch im Linknetzwerk ist eine große Menge semantischer Information enthalten.

    In dieser Arbeit sollen Hypothesen über die Navigation auf Wikipedia formuliert und getestet werden. Die Qualität der Hypothesen wird mithilfe von HypTrails gemessen..

    Voraussetzungen: Python (bevorzugt) oder Java-Kenntnisse vonnöten.

    Betreuer: Thomas Niebler

    Vergleich der semantischen Performance verschiedener Navigationshypothesen auf dem Wikipedia-Linknetzwerk

    BA: verfügbar

    Die freie Enzyklopädie Wikipedia bietet einen umfassenden Wissenschatz in miteinander verknüpften Artikeln an. Sowohl im reinen Artikeltext als auch im Linknetzwerk ist eine große Menge semantischer Information enthalten.

    Diese Arbeit vergleicht die Performance verschiedener Navigationshypothesen auf dem Wikipedia-Linknetzwerk bezüglich der enthaltenen semantischen Informationen. Die Qualität der Ergebnisse soll anhand menschlicher Intuition gemessen werden.

    Voraussetzungen: Python (bevorzugt) oder Java-Kenntnisse vonnöten.

    Betreuer: Thomas Niebler

    Untersuchung des der zeitlichen Veränderung der Linkstruktur auf enthaltene semantische Informationen in Wikipedia

    MA: verfügbar

    Die freie Enzyklopädie Wikipedia bietet einen umfassenden Wissenschatz in miteinander verknüpften Artikeln an. Sowohl im reinen Artikeltext als auch im Linknetzwerk ist eine große Menge semantischer Information enthalten.

    Diese Arbeit vergleicht den Einfluss des zugrundeliegenden Linknetzwerks auf die enthaltenen semantischen Informationen über mehrere Monate hinweg. Die Qualität der Ergebnisse soll anhand menschlicher Intuition gemessen werden.

    Voraussetzungen: Python (bevorzugt) oder Java-Kenntnisse vonnöten.

    Betreuer: Thomas Niebler

    BibSonomy

    Ansprechpartner für dieses Thema: Daniel Zoller

    Verknüpfung des Mediawikis mit BibSonomy

    Die von Wikipedia genutzte Software MediaWiki ist eine der bekanntesten Wiki-Implementierungen. Häufig werden auf Wikiseiten Bücher oder Fachartikel zitiert. Die Zitation erfolgt nicht durch einen Link auf eine eindeutig gespeicherte Referenz der Veröffentlichung, sondern in Textform. Daher ist es schwer, einen Überblick über alle Referenzen zu bekommen und eventuelle Fehler zentral zu korrigieren. In diesem Projekt soll ein Plugin für MediaWiki entwickelt werden, das die einfache Übernahme der Daten aus typischen Veröffentlichungssystemen wie BibSonomy erlaubt. Dabei soll der Nutzer mit AJAX-Techniken aus dem Web 2.0 unterstützt werden. Die Daten sind im Wiki abzulegen und mit den Originaldaten zu verknüpfen. Die im Wiki gespeicherten Publikationsdaten dienen als Basis für das Zitieren im Mediawiki.

    Zur Lösung der Aufgabe ist eine skalierbare und erweiterebare Architektur für das MediaWiki-Plugin zu entwerfen und zu implementieren. Die Implementierung für das Mediawiki erfolgt in PHP. Das Wiki muss zur Übernahme der Daten per API auf die externen Systeme zugreifen und die gesammelten Daten entsprechend speichern können.

    Betreuer: Prof. Hotho

    Analyse des Retrievalverhaltens von Benutzern

    BA/MA: verfügbar

    BibSonomy erlaubt es dem Benutzer seine gespeicherten Lesezeichen/Publikationen mittels Tags zu verschlagworten. Neben der Möglichkeit die gespeicherten Einträge über Tags wiederzufinden, bietet BibSonomy auch eine Volltextsuche.

    Ziel dieser Arbeit ist es, das Retrievalverhalten der Benutzer zu analysieren. U. a. sollen die folgenden Fragen beantwortet werden: 

    • Verwenden Benutzer die Suche eher als Tags um Einträge wiederzufinden?
    • Welche Tag Typen werden vor allem für das Wiederfinden verwendet?
    • Werden Tags in der Suche eher verwendet? 

    Betreuer: Daniel Zoller

    Performanceanalyse von MariaDB für BibSonomy

    BA: verfügbar

    BibSonomy setzt zur Zeit auf MySQL als persistentes Backend. In den letzten Jahren hat sich die offenen Alternative MariaDB immer weiter verbreitet. Ziel dieser Arbeit ist es die nötigen Anpassungen an BibSonomy vorzunehmen und Performanceanalysen mit dem neuen Backend durchzuführen. Weiter soll die Clusterfähigkeit von MariaDB (MariaDB Galera Cluster) für den Produktiveinsatz getestet werden.

    Betreuer: Daniel Zoller

    Autorenerkennung - Deep Learning

    BA/MP/MA: verfügbar

    BibSonomy erlaubt die Zuordnung von Autoren einer Veröffentlichung (z. B. die Zuordnung des Autors Andreas Hotho der Publikation "Information Retrieval in Folksonomies: Search and Ranking" zu der Person Andreas Hotho). Ziel dieser Arbeit ist es die Benutzer des Systems anhand ihrer Einträge zu einer Person zuzuordnen. Außerdem sollen weitere Publikationen gefunden und vorgeschlagen werden, die ggf. von einer Person geschrieben wurden. Vor allem sollen Deep Learning Methoden für diese Aufgabe ausprobiert werden.

    Betreuer: Daniel Zoller

    Spam Detection with Deep Learning

    BA/MP/MA: verfügbar

    Ziel dieser Arbeit ist es mittels Deep Learning Webseiten, die Spam enthalten zu erkennen.

    Dazu werden mittels Screen Capture die Webseiten in Bilder umgewandelt. Mittels Deep Learning soll ein Klassifikator gelernt werden, der normale Webseiten von Webseiten, die geziehlt auf Werbung ausgerichtet sind, auseinander halten kann.

    Betreuer: Daniel Zoller

    Sentiment in fiktionaler Literatur

    BA/MA/MP: verfügbar

    Anders als beispielsweise bei strukturiertem Text, ist es für Computer nicht ohne weiteres möglich Informationen aus natürlich-sprachlichen Text auszulesen. Eine interessante Meta-Information ist beispielsweise Sentiment, um zu erkennen in welcher Stimmung ein Text verfasst wurde, bzw. welche Stimmung er beim Leser erzeugt. Ein Unternehmen könnte so beispielsweise automatisch herausfinden, wie zufrieden Kunden mit einem Produkt sind, nur unter Zuhilfenahme von Freitext-Reviews.

    Aufgabe bei diesem Thema ist, die Implementierung und Adaption von Sentiment Analysis Methoden auf fiktionale Literatur. Methoden, die bereits für Sentiment-Analysis etabliert sind sollen auf fiktionale Texte angewandt werden um ein Stimmungsabbild für jede mögliche Plot-position erzeugen können, also beispielsweise negative Szenen in denen Protagonisten sterben von positiven Szenen beispielsweise dem klassischen „Happy End“ bezüglich der Leserstimmung differenzieren zu können.

    Da Sentiment-Analysis im Allgemeinen stark sprach- und wortlistenabhängig ist, soll methodisch ein Transfer zwischen Ressourcen verschiedener Sprachen untersucht werden.

    Teilaufgaben:

    • Übersicht und Vergleich von Sentiment Analysis Methoden auch hinsichtlich Sprachperformance
    • Adaption an fiktionale Literatur
    • Implementierung eines SA-Tools zur einfachen Analyse
    • Sprachunabhängigkeit und Evaluation
    • Ziel: Sentiment von literarischen Texten auf verschiedenen Textebenen bestimmen können, Tool Deployment

    BetreuerDaniel Schlör

    Biofeedback und Konsumentenerlebnis

    BA/MA/MP: verfügbar

    In dieser Arbeit soll am Beispiel von Texten der unbewusste Einfluss des Textes auf den Leser analysiert werden. Hierfür sollen Biofeedback Informationen des Lesers parallel zu dessen Lesefortschritt erfasst werden und untersucht werden, ob sich vorhersagen lässt, wie ein Leser auf eine bestimmte Stelle im Text reagieren könnte. 

    Diese Arbeit kann sowohl als Bachelor- als auch als Masterarbeit vergeben werden, wobei sich der Umfang der Arbeit entsprechend ändert:

    Als Bachelorarbeite soll mindestens ein Tool, idealerweise als Smartphone- oder eReader-App, entwickelt werden, das auf Sensordaten, die beispielsweise über ein Fitnessarmband erfasst werden, zugreift und diese zusammen mit dem aktuellen Lesefortschritt abspeichert und visualisiert. 

    Als zweites Evaluationsszenario kommt auch das Zuschauererlebnis bei Filmen in Frage.

    Als Masterarbeit oder in einem Masterpraktikum sollte darüber hinaus mit Methoden des Natural Language Processing der Seiteninhalt zusammen mit den aufgezeichneten Werten verarbeitet werden und so mögliche Indikatoren für Veränderungen im Biofeedback vorhergesagt werden. Hier sind insbesondere Varianten von Sentiment Analysis vielversprechend, bei denen über positive / negative Stimmungsklassifikation hinaus auch Erregungsgrad vorhergesagt werden kann.

    BetreuerDaniel Schlör

    Automatische Summarization von Movie Scripts

    BA/MA/MP: verfügbar

    Text-Extraction bzw. Text-abstraktion sind Methoden zur automatischen Zusammenfassung eines Textes mit Hilfe computerlinguistischer Techniken. Dabei werden Teile eines Textes - zum Beispiel Sätze oder ganze Abschnitte - mittels statistischer und/oder heuristischer Methoden bezüglich ihrer Wichtigkeit oder Relevanz bewertet bzw. bezüglich ihrer wichtigsten Informationen abstrahiert.

    Viele der in diesem Bereich etablierten Methoden arbeiten typischerweise auf Zeitungstexten und werden für solche Evaluationsszenarien entwickelt und entsprechend evaluiert. 

    Ziel dieser Aufgabe ist, die automatische Aufbereitung von Movie Scripts und der Transfer von state-of-the-art-Methoden und die Evaluation in dieser Domäne. 

    Eine weitere mögliche Anwendung ist die Zusammenfassung im Sinne von Extraktion von Schlüsselszenen der vergangenen Folgen von sequentiellen (TV-)Serien.

    BetreuerDaniel Schlör

    Automatische Segmentierung von Texten

    BA/MA/MP: verfügbar

    Die Segmentierung von Texten in möglichst koherente Textabschnitte ist eine entscheidende Vorverarbeitung zu vielen Text-Mining und NLP Anwendungen.

    Mögliche Anwendung ist die Erkennung von Szenen in Filmen, Serien, Dramen und Romanen, aber auch die Strukturierung von Zeitungstexten.

     

    BetreuerDaniel Schlör

    Identifikation von literatur-typischen semantischen Frames zum tieferen Textverständnis

    BA/MA/MP: verfügbar

    Um semantische Zusammenhänge in Text zu verstehen bzw. maschinell begreifbar zu machen gebt es verschiedene Möglichkeiten. Eine typische ist dabei das Auffassen von semantischen Rollen in sogenannten Frames, Frame Semantics genannt. Dabei wird eine Beschreibung eines Events, einer Relation oder Entität betrachtet und die darin jeweils Beteiligten erfasst. Beispielsweise das Konzept „Kochen“ enthält eine Person die kocht (Cook), das Essen das gekocht wird (Food), etwas worin das Essen gekocht wird (Container) und eine Hitzequelle (Heating_instrument). Solche Frames wurden bereits in  FrameNet gesammelt, systematisiert und auf Beispielsätze annotiert.

    Ziel dieser Arbeit ist es, in FrameNet definierte Frames im Kontext von fiktionaler Literatur automatisch zu erkennen. Ausgehend von leicht zu erfassenden Frames soll eine Methodik entwickelt werden um beliebige Frames möglichst korrekt zu erkennen. Schließlich soll neben einer Evaluation auf Frame-Ebene eine extrinsische Evaluation durch Anwendung der Frame-Informationen auf die Klassifikation von bspw. Gattung durchgeführt werden.

    BetreuerDaniel Schlör

    Neural Networks

    Ansprechpartner für dieses Thema: Alexander Dallmann

    Predicting Pollution from Map Features using Neural Networks

    BA/MA/MP: verfügbar

    Environmental pollution, e.g. black carbon or noise is a big problem for both developing and industrial countries. With the availability of comparatively cheap sensors and open-source electronics platforms like Arduino it is now possible for citizens to collect and share environmental data with the goal to analyze it in cooperation with researchers.

    In this thesis your goal will be to build models that can predict pollution levels from map features. Exploiting data that has been collected as part of studies on our open-source citizen science platform EveryAware you will develop different neural network architectures and evaluate their usefulness in predicting pollution levels from map features, e.g. streets, buildings, forests ...

    Betreuer: Alexander Dallmann, Martin Becker, Florian Lautenschlager

    Andere Themen

    Ansprechpartner für dieses Thema: Andreas Hotho

    Virtual Reality and E-Sports

    BA/MA: verfügbar

    eSport boomt. eSportlerInnen treten in einer Vielzahl von Computerspielen gegeneinander an und messen sich in virtuellen Welten. Die Events werden weltweit organisiert und durchgeführt und haben schon lange ebenfalls einen Profibereich mit Sponsoring und Fangemeinde etc. etabliert.

    Ziel dieses Themas ist die Entwicklung einer Virtuellen Realität (VR), in welcher Personen gleichzeitig einen Video-Stream auf einer ebenfalls in der VR vorhandenen virtuellen Leinwand betrachten können. Als Eingabe-/Ausgabegeräte kommen 2 HTC Vives zum Einsatz. Die eigentliche Simulationsumgebung wird mittels aktueller Game-Engines (Unreal Engine, Unitiy3D) realisiert.

    Für weitere Informationen klicken Sie bitte hier.

    Betreuer/Ansprechpartner: Andreas Hotho

    WLAN Router Auto-Optimierung

    BA/MA: verfügbar

    Senden mehrere räumlich nah agierende WLAN Router auf überlappenden Kanälen kommt es schnell zur gegenseitigen Störung – das heißt, deren Übertragungskapazität wird verringert. Um dies zu verhindern wäre es wünschenswert, wenn (mehrere, räumlich nahe aufgestellte) WLAN Router sich automatisch hinsichtlich der Wahl des Kanals optimieren um so maximale Leistung/Übertragungsgeschwindigkeit zu erreichen. Die Bachelorarbeit WLAN Router Auto-Optimierung soll untersuchen, wie dieses Ziel mit dem Einsatz geeigneter ML (Machine Learning) Verfahren erreicht werden kann. Hierbei ist zu untersuchen, welche Kanäle am verbreitetsten genutzt werden und welche (manuellen) Empfehlungen es gibt, Kanäle auszuwählen. Anschließend sollten verschiedene ML Verfahren auf ihre Eignung untersucht und mind. ein Verfahren für die Optimierungsaufgabe eingesetzt werden – d.h., basierend auf den allgemeingültigen Empfehlungen und der erkannten (sich möglicherweise stetig verändernden) Router-/Kanalsituation die jeweils beste Kanalverteilung automatisch zu erkennen und zu konfigurieren.

    Betreuer/Ansprechpartner: Andreas Hotho

    Contact

    Universität Würzburg
    Sanderring 2
    97070 Würzburg

    Phone: +49 931 31-0
    Fax: +49 931 31-82600

    Find Contact

    Sanderring Röntgenring Hubland Nord Hubland Süd Campus Medizin