piwik-script

Intern
    DMIR Research Group

    Praktika, Bachelor- und Masterarbeiten

    Diese Liste enthält die verfügbaren Themen für Praktika, Bachelor- und Masterarbeiten der Data Mining & Information Retrieval-Arbeitsgruppe (DMIR).

    Die Themenstellung erfolgt in Absprache mit dem Studierenden; der Umfang der Arbeit richtet sich nach dem jeweils angestrebten Anschluss.

    Bitte wenden Sie sich für zusätzliche Informationen über ein spezielles Thema direkt an den angegebenen Betreuer.

    Zusätzlich zu den unten aufgeführten Themen stehen auf Anfrage noch weitere Themen zur Auswahl. Wir freuen uns über jede Anfrage.

    Die Ansprechpartner für die jeweiligen Themenbereiche lauten wie folgt:

    EveryAware / p2mapFlorian Lautenschlager
    BibSonomyDaniel Zoller
    Text Mining und Natural Language ProcessingDaniel Schlör
    Neural NetworksAlexander Dallmann
    Andere ThemenAndreas Hotho

    Bei hervorragender Leistung besteht außerdem bei allen der genannten Themen die Chance am Ende der Arbeit einen Artikel auf einer Informatikkonferenz einzureichen und so früh im Studium Co-Author auf einer wissenschaftlichen Veröffentlichung zu sein!

    EveryAware / p2map

    Ansprechpartner für dieses Thema: Florian Lautenschlager

    Tag Maps

    BA/MP/MA: Verfügbar

    Im Projekt P2Map werden mit Hilfe von Sensorboxen von freiwilligen Helfern mobile, standortbezogene Luftqualitätsdaten erfasst. Um diese in einen interprtierbaren Kontext zu setzen erlaubt die zugehörige Smartphone-App durch das hinzufügen von Tags zu einzelnen Messpunkten und Sequenzen das annotieren von subjektiven Eindrücken. Um diese Tags besser analysieren zu können, soll in der Arbeit ein Tool zur ansprechenden Visualisierung, wie zum Beispiel in der nebenstehenden Grafik zu sehen, erstellt werden.

    Betreuer: Florian Lautenschlager

    AirProbe Kalibrierung

    BA/MA: Verfügbar


    Die Android-Applikation AirProbe hilft dabei ein Bewusstsein für Luftqualität und deren Auswirkungen zu fördern. Allerdings ist das Messen von Luftqualität nur mit sehr teuren Messgeräten möglich. Im Rahmen des EveryAware-Projekts wurde jedoch eine kostengünstige Sensorox entwickelt, mit der es möglich sein soll, eine Komponente (Black Carbon) anhand mehrere Indikatorgase zu messen. Allerdings ist das Umrechnen dieser Indikatorgase in einen Black Carbon nicht trivial.

    Das Ziel dieser Arbeit soll es sein, eine Methode zu entwicklen die brauchbare Black-Carbon-Werte ableiten kann. Dazu kann zunächst mit diskreten Zielwerten und bewährten Methoden wie etwa SVMs gearbeitet werden. 

    Betreuer: Florian Lautenschlager

    EveryAware ScienceJournal

    MP: Verfügbar

    Mit dem EveryAware-System lassen sich ortsgebundene Daten sammeln und analysieren. In der Arbeitsgruppe werden sowohl Luftqualitäts- als auch Lautstärkedaten mit eigenen Apps gesammelt. Mittlerweile wurde das System auf generische Daten erweitert, so dass jeder Benutzer beliebige Daten hochladen und weiterverwenden kann. Im Rahmen eines Masterpraktikums soll eine App entwickelt werden, die Daten von im Smartphone integrierten sowie angeschlossenen Sensoren sammelt und die Möglichkeiten bietet, diese mit Notizen zu versehen und an EveryAware zu senden.

    Es existiert bereits eine ähnliche App eines Drittanbieters, bei der jedoch Kernfunktionen fehlen.

    Betreuer: Florian Lautenschlager

    BlueSpot: SLAM

    MP/MA: Verfügbar

    Das EveryAware-System dient unteranderem, zur Sammlung und Auswertung beliebiger ortsgebundener Sensordaten, wie etwa Lautstärken oder Luftqualität. Dabei ist eine möglichst genaue Lokalisation essentiell. Jedoch sind brauchbare Positionswerte vor allem in Gebäuden kaum zu gewährleisten.   

    1. Im Rahmen eines Masterpraktikums soll es zunächst darum gehen, günstige BlueTooth-Einheiten zu entwickeln, die Mobiltelephone erkennen können. Anhand der erkannten Einheiten soll das Mobiltelefon dann in der Lage sein, eine raumgenaue Position zu bestimmen. Desweiteren soll es eine Karte geben, auf der alle aktiven Telefone den entsprechenden Räumen zugeordnet werden. Die Implementierung wird auf dem EveryAware-System und Android basieren.
       
    2. In der anschliessenden Masterarbeit sollen verschieden SLAM-Algorithmen zur automatischen Kartographierung der Umgebung and Lokalisation des Endgerätes anhand des im Masterpraktikum entstandenen Systems implementiert und evaluiert werden.  

     Betreuer: Florian Lautenschlager

    Temperaturschätzung für Orte ohne Messstation mit Machine Learning

    BA/MA: verfügbar

    Zuverlässige Temperaturdaten sind nur von wenigen, teuren Messstationen (z. B. vom Deutschen Wetterdienst) verfügbar. Zwischen diesen Stationen, die im Schnitt etwa 15 km auseinander liegen, werden die Temperaturen typischerweise durch einfache Verfahren interpoliert. Dieser Prozess kann zu Fehlern führen, weil Einflussfaktoren wie Stadtnähe etc. nicht berücksichtigt werden.

    Das Ziel dieser Arbeit ist die Entwicklung eines Machine-Learning-basierten Temperaturmodells, das auf Basis von verschiedenen Einflussfaktoren die Temperatur für Orte ohne Messstation bestimmen kann. Dabei sollen auch weniger zuverlässige Daten von privaten Messstationen verwendet werden, um die Vorhersagequalität zu verbessern. Somit ist es möglich zu jeder Zeit und für jeden Ort eine möglichst genaue Temperatur zu erhalten.

    Betreuer/AnsprechpartnerMichael Steininger, Konstantin Kobs

    BibSonomy

    Ansprechpartner für dieses Thema:Daniel Zoller

    Verknüpfung des Mediawikis mit BibSonomy

    Die von Wikipedia genutzte Software MediaWiki ist eine der bekanntesten Wiki-Implementierungen. Häufig werden auf Wikiseiten Bücher oder Fachartikel zitiert. Die Zitation erfolgt nicht durch einen Link auf eine eindeutig gespeicherte Referenz der Veröffentlichung, sondern in Textform. Daher ist es schwer, einen Überblick über alle Referenzen zu bekommen und eventuelle Fehler zentral zu korrigieren. In diesem Projekt soll ein Plugin für MediaWiki entwickelt werden, das die einfache Übernahme der Daten aus typischen Veröffentlichungssystemen wie BibSonomy erlaubt. Dabei soll der Nutzer mit AJAX-Techniken aus dem Web 2.0 unterstützt werden. Die Daten sind im Wiki abzulegen und mit den Originaldaten zu verknüpfen. Die im Wiki gespeicherten Publikationsdaten dienen als Basis für das Zitieren im Mediawiki.

    Zur Lösung der Aufgabe ist eine skalierbare und erweiterebare Architektur für das MediaWiki-Plugin zu entwerfen und zu implementieren. Die Implementierung für das Mediawiki erfolgt in PHP. Das Wiki muss zur Übernahme der Daten per API auf die externen Systeme zugreifen und die gesammelten Daten entsprechend speichern können.

    Betreuer: Prof. Hotho

    Analyse des Retrievalverhaltens von Benutzern

    BA/MA: verfügbar

    BibSonomy erlaubt es dem Benutzer seine gespeicherten Lesezeichen/Publikationen mittels Tags zu verschlagworten. Neben der Möglichkeit die gespeicherten Einträge über Tags wiederzufinden, bietet BibSonomy auch eine Volltextsuche.

    Ziel dieser Arbeit ist es, das Retrievalverhalten der Benutzer zu analysieren. U. a. sollen die folgenden Fragen beantwortet werden: 

    • Verwenden Benutzer die Suche eher als Tags um Einträge wiederzufinden?
    • Welche Tag Typen werden vor allem für das Wiederfinden verwendet?
    • Werden Tags in der Suche eher verwendet? 

    Betreuer: Daniel Zoller

    Performanceanalyse von MariaDB für BibSonomy

    BA: verfügbar

    BibSonomy setzt zur Zeit auf MySQL als persistentes Backend. In den letzten Jahren hat sich die offenen Alternative MariaDB immer weiter verbreitet. Ziel dieser Arbeit ist es die nötigen Anpassungen an BibSonomy vorzunehmen und Performanceanalysen mit dem neuen Backend durchzuführen. Weiter soll die Clusterfähigkeit von MariaDB (MariaDB Galera Cluster) für den Produktiveinsatz getestet werden.

    Betreuer: Daniel Zoller

    Autorenerkennung - Deep Learning

    BA/MP/MA: verfügbar

    BibSonomy erlaubt die Zuordnung von Autoren einer Veröffentlichung (z. B. die Zuordnung des Autors Andreas Hotho der Publikation "Information Retrieval in Folksonomies: Search and Ranking" zu der Person Andreas Hotho). Ziel dieser Arbeit ist es die Benutzer des Systems anhand ihrer Einträge zu einer Person zuzuordnen. Außerdem sollen weitere Publikationen gefunden und vorgeschlagen werden, die ggf. von einer Person geschrieben wurden. Vor allem sollen Deep Learning Methoden für diese Aufgabe ausprobiert werden.

    Betreuer: Daniel Zoller

    Publikationsrelevanzvorhersagesystem

    BA/MP/MA: verfügbar

    Immer mehr Wissenschaftler veröffentlichen ihre Forschungsergebnisse auf Preprint-Servern wie ArXiv bevor sie ihre Arbeiten auf konventionelle Wege (Konferenzbeitrag, Journal, …) publizieren. Die dabei entstehende Flut an Artikeln macht es für einen Wissenschaftler unmöglich, relevante Arbeiten auf seinem Forschungsgebiet frühzeitig zu erkennen.

    Deshalb ist das Ziel dieser Arbeit ein Publikationsreputationssystem zu entwickeln, was in der Lage ist, den späteren Impact eines Forschungsartikels vorherzusagen. Die Vorhersage soll mittels verschiedener Daten (Publikationsgraph, Altmetrics) erfolgen. Dabei sollen konventionelle Machine Learning Verfahren als auch Deep Learning untersucht werden.

    Betreuer:Daniel Zoller

    Text Mining und Natural Language Processing

    Ansprechpartner für dieses Thema:Daniel Schlör

    Sentiment in fiktionaler Literatur

    BA/MA/MP: vergeben, ähnliche/anknüpfende Arbeiten möglich

    Anders als beispielsweise bei strukturiertem Text, ist es für Computer nicht ohne weiteres möglich Informationen aus natürlich-sprachlichen Text auszulesen. Eine interessante Meta-Information ist beispielsweise Sentiment, um zu erkennen in welcher Stimmung ein Text verfasst wurde, bzw. welche Stimmung er beim Leser erzeugt. Ein Unternehmen könnte so beispielsweise automatisch herausfinden, wie zufrieden Kunden mit einem Produkt sind, nur unter Zuhilfenahme von Freitext-Reviews.

    Aufgabe bei diesem Thema ist, die Implementierung und Adaption von Sentiment Analysis Methoden auf fiktionale Literatur. Methoden, die bereits für Sentiment-Analysis etabliert sind sollen auf fiktionale Texte angewandt werden um ein Stimmungsabbild für jede mögliche Plot-position erzeugen können, also beispielsweise negative Szenen in denen Protagonisten sterben von positiven Szenen beispielsweise dem klassischen „Happy End“ bezüglich der Leserstimmung differenzieren zu können.

    Da Sentiment-Analysis im Allgemeinen stark sprach- und wortlistenabhängig ist, soll methodisch ein Transfer zwischen Ressourcen verschiedener Sprachen untersucht werden.

    Teilaufgaben:

    • Übersicht und Vergleich von Sentiment Analysis Methoden auch hinsichtlich Sprachperformance
    • Adaption an fiktionale Literatur
    • Implementierung eines SA-Tools zur einfachen Analyse
    • Sprachunabhängigkeit und Evaluation
    • Ziel: Sentiment von literarischen Texten auf verschiedenen Textebenen bestimmen können, Tool Deployment

    BetreuerDaniel Schlör

    Biofeedback und Konsumentenerlebnis

    BA/MA/MP: vergeben, anknüpfende Arbeiten möglich

    In dieser Arbeit soll am Beispiel von Texten der unbewusste Einfluss des Textes auf den Leser analysiert werden. Hierfür sollen Biofeedback Informationen des Lesers parallel zu dessen Lesefortschritt erfasst werden und untersucht werden, ob sich vorhersagen lässt, wie ein Leser auf eine bestimmte Stelle im Text reagieren könnte. 

    Diese Arbeit kann sowohl als Bachelor- als auch als Masterarbeit vergeben werden, wobei sich der Umfang der Arbeit entsprechend ändert:

    Als Bachelorarbeite soll mindestens ein Tool, idealerweise als Smartphone- oder eReader-App, entwickelt werden, das auf Sensordaten, die beispielsweise über ein Fitnessarmband erfasst werden, zugreift und diese zusammen mit dem aktuellen Lesefortschritt abspeichert und visualisiert. 

    Als zweites Evaluationsszenario kommt auch das Zuschauererlebnis bei Filmen in Frage.

    Als Masterarbeit oder in einem Masterpraktikum sollte darüber hinaus mit Methoden des Natural Language Processing der Seiteninhalt zusammen mit den aufgezeichneten Werten verarbeitet werden und so mögliche Indikatoren für Veränderungen im Biofeedback vorhergesagt werden. Hier sind insbesondere Varianten von Sentiment Analysis vielversprechend, bei denen über positive / negative Stimmungsklassifikation hinaus auch Erregungsgrad vorhergesagt werden kann.

    BetreuerDaniel Schlör

    Automatische Summarization von Movie Scripts

    BA/MA/MP: verfügbar

    Text-Extraction bzw. Text-abstraktion sind Methoden zur automatischen Zusammenfassung eines Textes mit Hilfe computerlinguistischer Techniken. Dabei werden Teile eines Textes - zum Beispiel Sätze oder ganze Abschnitte - mittels statistischer und/oder heuristischer Methoden bezüglich ihrer Wichtigkeit oder Relevanz bewertet bzw. bezüglich ihrer wichtigsten Informationen abstrahiert.

    Viele der in diesem Bereich etablierten Methoden arbeiten typischerweise auf Zeitungstexten und werden für solche Evaluationsszenarien entwickelt und entsprechend evaluiert. 

    Ziel dieser Aufgabe ist, die automatische Aufbereitung von Movie Scripts und der Transfer von state-of-the-art-Methoden und die Evaluation in dieser Domäne. 

    Eine weitere mögliche Anwendung ist die Zusammenfassung im Sinne von Extraktion von Schlüsselszenen der vergangenen Folgen von sequentiellen (TV-)Serien.

    BetreuerDaniel Schlör

    Automatische Segmentierung von Texten

    BA/MA/MP: vergeben, ähnliche/anknüpfende Arbeiten möglich

    Die Segmentierung von Texten in möglichst koherente Textabschnitte ist eine entscheidende Vorverarbeitung zu vielen Text-Mining und NLP Anwendungen.

    Mögliche Anwendung ist die Erkennung von Szenen in Filmen, Serien, Dramen und Romanen, aber auch die Strukturierung von Zeitungstexten.

     

    BetreuerDaniel Schlör

    Identifikation von literatur-typischen semantischen Frames zum tieferen Textverständnis

    BA/MA/MP: verfügbar

    Um semantische Zusammenhänge in Text zu verstehen bzw. maschinell begreifbar zu machen gebt es verschiedene Möglichkeiten. Eine typische ist dabei das Auffassen von semantischen Rollen in sogenannten Frames, Frame Semantics genannt. Dabei wird eine Beschreibung eines Events, einer Relation oder Entität betrachtet und die darin jeweils Beteiligten erfasst. Beispielsweise das Konzept „Kochen“ enthält eine Person die kocht (Cook), das Essen das gekocht wird (Food), etwas worin das Essen gekocht wird (Container) und eine Hitzequelle (Heating_instrument). Solche Frames wurden bereits in  FrameNet gesammelt, systematisiert und auf Beispielsätze annotiert.

    Ziel dieser Arbeit ist es, in FrameNet definierte Frames im Kontext von fiktionaler Literatur automatisch zu erkennen. Ausgehend von leicht zu erfassenden Frames soll eine Methodik entwickelt werden um beliebige Frames möglichst korrekt zu erkennen. Schließlich soll neben einer Evaluation auf Frame-Ebene eine extrinsische Evaluation durch Anwendung der Frame-Informationen auf die Klassifikation von bspw. Gattung durchgeführt werden.

    BetreuerDaniel Schlör

    Vergleich von Word Embeddings für NLP Tasks

    BA/MA/MP: verfügbar

    Word Embeddings stellen eine Möglichkeit dar, natürliche Sprache in einen hochdimensionalen Vektorraum einzubetten und damit für Maschinen besser verwertbar zu machen. In dieser Arbeit soll untersucht werden, wie sich verschiedene vortrainierte Einbettungen für zwei Tasks aus dem Bereich des Natural Language Processing (NLP) verhalten: relation classification und word similarity. 

    Erfahrung mit Python ist sicherlich hilfreich. Zudem sind Kenntnisse im Bereich Text Mining und Machine Learning von Vorteil. Im Fall einer Masterarbeit werden Kenntnisse über neuronale Netze vorausgesetzt, da hier auch word embeddings selbst trainiert werden sollen.

    BetreuerLena Hettinger

    Neural Networks

    Ansprechpartner für dieses Thema:Alexander Dallmann

    Predicting Pollution from Map Features using Neural Networks

    BA/MA/MP: verfügbar

    Environmental pollution, e.g. black carbon or noise is a big problem for both developing and industrial countries. With the availability of comparatively cheap sensors and open-source electronics platforms like Arduino it is now possible for citizens to collect and share environmental data with the goal to analyze it in cooperation with researchers.

    In this thesis your goal will be to build models that can predict pollution levels from map features. Exploiting data that has been collected as part of studies on our open-source citizen science platform EveryAware you will develop different neural network architectures and evaluate their usefulness in predicting pollution levels from map features, e.g. streets, buildings, forests ...

    Betreuer:Alexander Dallmann, Martin Becker, Florian Lautenschlager

    Andere Themen

    Hier sind ggf. nicht alle Themen, die wir anbieten aufgelistet. Wenn Sie Interesse an dem Thema allgemein haben, können sie Andreas Hotho für weitere Informationen/Themen kontaktieren. Falls Sie sich für ein konkretes Thema interessieren, dann können Sie direkt Kontakt mit dem Betreuer des Themas aufnehmen.

    Virtual Reality and E-Sports

    BA/MA: verfügbar

    eSport boomt. eSportlerInnen treten in einer Vielzahl von Computerspielen gegeneinander an und messen sich in virtuellen Welten. Die Events werden weltweit organisiert und durchgeführt und haben schon lange ebenfalls einen Profibereich mit Sponsoring und Fangemeinde etc. etabliert.

    Ziel dieses Themas ist die Entwicklung einer Virtuellen Realität (VR), in welcher Personen gleichzeitig einen Video-Stream auf einer ebenfalls in der VR vorhandenen virtuellen Leinwand betrachten können. Als Eingabe-/Ausgabegeräte kommen 2 HTC Vives zum Einsatz. Die eigentliche Simulationsumgebung wird mittels aktueller Game-Engines (Unreal Engine, Unitiy3D) realisiert.

    Für weitere Informationen klicken Sie bitte hier.

    Betreuer/Ansprechpartner: Andreas Hotho

    WLAN Router Auto-Optimierung

    BA/MA: verfügbar

    Senden mehrere räumlich nah agierende WLAN Router auf überlappenden Kanälen kommt es schnell zur gegenseitigen Störung – das heißt, deren Übertragungskapazität wird verringert. Um dies zu verhindern wäre es wünschenswert, wenn (mehrere, räumlich nahe aufgestellte) WLAN Router sich automatisch hinsichtlich der Wahl des Kanals optimieren um so maximale Leistung/Übertragungsgeschwindigkeit zu erreichen. Die Bachelorarbeit WLAN Router Auto-Optimierung soll untersuchen, wie dieses Ziel mit dem Einsatz geeigneter ML (Machine Learning) Verfahren erreicht werden kann. Hierbei ist zu untersuchen, welche Kanäle am verbreitetsten genutzt werden und welche (manuellen) Empfehlungen es gibt, Kanäle auszuwählen. Anschließend sollten verschiedene ML Verfahren auf ihre Eignung untersucht und mind. ein Verfahren für die Optimierungsaufgabe eingesetzt werden – d.h., basierend auf den allgemeingültigen Empfehlungen und der erkannten (sich möglicherweise stetig verändernden) Router-/Kanalsituation die jeweils beste Kanalverteilung automatisch zu erkennen und zu konfigurieren.

    Betreuer/Ansprechpartner: Andreas Hotho

    Measuring Quantum Entanglement of Publications in BibSonomy

    Bachelorarbeit: Verfügbar

    Ein Computermodell zu finden, das natürliche Sprache - für den Menschen ununterscheidbar - erzeugen kann ermöglicht einen Durchbruch für die künstliche Intelligenz.

    In dieser Arbeit soll untersucht werden, in wiefern die CHSH-Ungleichung für Publikationen in BibSonomy gültig ist. Sollte dies nicht der Fall sein, so schließt es eine Vielzahl von Modellen aus, die nicht als natürlicher Ursprung unserer Sprache gelten können.

     

    Betreuer/Ansprechpartner: Daniel Zoller/Markus Krug

    Verwendung von Deep Learning für die Verbesserung von Sprachaufnahmen

    Masterarbeit: verfügbar

    Sprachverbesserung, also das Unterdrücken von Rauschen und Hintergrundgeräuschen in Sprachaufnahmen, wird beispielsweise in Mobiltelefonen oder Hörgeräten angewendet. Aktuell basieren Sprachverbesserungssysteme allerdings größtenteils auf Methoden der Statistik. In dieser Masterarbeit soll ein System entwickelt werden, welches auf Deep Learning basiert. Dabei lernt ein neuronales Netzwerk zunächst, Stimme von Rauschen zu unterscheiden, dessen Einschätzung dann zur Verbesserung des Signals verwendet wird. Die Betreuung dieser Arbeit findet in Kooperation mit der Signal Processing Gruppe der Universität Hamburg statt, welche an Sprachverbesserung forscht. Während der Bearbeitungszeit wird voraussichtlich eine Reise nach Hamburg ermöglicht und unterstützt, um die Kollegen in Hamburg kennenzulernen und Zwischenergebnisse zu diskutieren.

    Betreuer/Ansprechpartner: Konstantin Kobs (Uni Würzburg), Dr.-Ing. Martin Krawczyk-Becker (Uni Hamburg)

    Automatische Identifikation von Geräuschen mit Neuronalen Netzen

    BA/MA/MP: reserviert

    In dieser Arbeit soll die Identifikation von Geräuschen mit Hilfe von Neuronalen Netzen evaluiert werden. Zunächst sollen einzelne Geräuschimpulse klassifiziert werden, bevor der Ansatz auf Geräuschpatterns erweitert werden kann.

    Hierfür stehen bereits Daten von Schwingungssensoren, die in einem Tischkicker installiert wurden von unterschiedlicher Qualität bereit. Die Möglichkeit weitere Trainingsdaten zu generieren ist gegeben. Ziel hierbei ist is, Tore von nicht-Toren zu unterscheiden.

    Als zweiter Datensatz sollen Samples von Drum Computer verwendet werden, die ebenfalls als Datensatz zur Verfügung gestellt werden und sich besonders zur Generierung beliebig vieler künstlicher Trainingsdaten eignen.

    Komplexere Ansätze basierend auf Geräuschpatterns könnten etwa Vogelstimmen klassifizieren, Aufnahmen eines Schlagzeugs analysieren oder Schrittmuster von verschiedenen Personen anhand von Schrittgeräuschen identifizieren.

    Betreuer/AnsprechpartnerDaniel Schlör

    Automatische Bildbearbeitung mit neuronalen Netzen

    Bachelorarbeit/Masterarbeit/Masterpraktikum:verfügbar

    Professionelle Fotografen versuchen, durch Bearbeitung ihrer Bilder die interessanten Objekte im Bild hervorzuheben. Im Gegensatz zu aktuellen automatischen Methoden gehen sie dabei auch lokal vor und verändern beispielsweise nur den Kontrast in einem bestimmten Teil des Bildes. Dies wird durch automatisierte Methoden aktuell kaum oder gar nicht gemacht.

    In der hier beschriebenen Arbeit sollen neue Methoden entwickelt werden, einem neuronalen Netzwerk beizubringen, bearbeitete von nicht bearbeiteten Bildern zu unterscheiden und einem anderen Netzwerk in einem nächsten Schritt die Fähigkeit zu geben, wie professionelle Fotografen Bilder gezielt nachzubearbeiten.

    Ansprechpartner:Konstantin Kobs

    Open Source Captchas

    BA/MP/MA: verfügbar

    Bots stellen ein Problem für Webseitenbetreiber dar, weil sie Spam verursachen können und Systemressourcen verschwenden. Um Bots den Zugriff auf Systeme zu erschweren gibt es sog. Captchas, die Maschinen von Menschen unterscheiden sollen. Der verbreitetste Dienst für Captchas ist Google’s reCAPTCHA. Dieses System wird von Google auch benutzt, um von Nutzern implizit Daten labeln zu lassen, die sie dann für das Trainieren von Machine Learning Modellen nutzen. Allerdings sind die dadurch entstehenden Datensätze nicht öffentlich zugänglich für die Forschung und die Verwendung des Dienstes zur Botabwehr ist aus Datenschutzgründen schwierig.

    Die Aufgabe dieser Arbeit besteht darin einen Open Source Dienst für Captchas zu implementieren. Der Dienst soll es auch ermöglichen Daten von Nutzern labeln zu lassen für die Verwendung in Machine Learning Modellen.

    Betreuer/AnsprechpartnerMichael Steininger

    Verteilter Web-Crawler mit Hadoop

    MA: verfügbar

     

    Ziel der Arbeit ist die Untersuchung von Open Source Frameworks wie Nutch oder Hetrix3 zum verteilten Crawlen des gesamten Webs. Dabei sollen existierende Frameworks aus crawlen in einem räumlich verteilten Setting hin geprüft. Es sind Performancemessungen für vorhanden verteilte Crawler durchzuführen. Es ist auch denkbar, dass vorhanden Crawler, die für ein solches Setting nicht geeignet sind und ein Prototyp im Rahmen der Arbeit entwickelt wird. Im Ergebnis stehen Proformancezahlen für bis zu 100TB an Webdaten für die verschiedenen ausgewählte Crawler zur Verfügung.

     

     

    Betreuer/Ansprechpartner: Andreas Hotho

    Hinweis zum Datenschutz

    Mit 'OK' verlassen Sie die Seiten der Universität Würzburg und werden zu Facebook weitergeleitet. Informationen zu den dort erfassten Daten und deren Verarbeitung finden Sie in deren Datenschutzerklärung.

    Hinweis zum Datenschutz

    Mit 'OK' verlassen Sie die Seiten der Universität Würzburg und werden zu Twitter weitergeleitet. Informationen zu den dort erfassten Daten und deren Verarbeitung finden Sie in deren Datenschutzerklärung.

    Social Media
    Kontakt

    Andreas Hotho
    DMIR Research Group
    Am Hubland
    97074 Würzburg

    Tel.: +49 931 31-86731
    Fax: +49 931 31-86732

    Suche Ansprechpartner

    Hubland Süd, Geb. M2
    Hubland Süd, Geb. M2