Differenzierbare Alignierungstechniken für Music Information Retrieval (DAT4MIR)

Logo_DFG Teaser_DAT4MIR Logo_FAU

The aim of the DAT4MIR project is to adapt, explore, and develop differentiable alignment techniques in the context of challenging music analysis and retrieval applications. The project is funded by the German Research Foundation. On this website, we summarize the project's main objectives and provide links to project-related resources (data, demonstrators, websites) and publications.

Project Description

Differentiable Alignment Techniques for Music Information Retrieval

The research field known as Music Information Retrieval (MIR) aims to develop computational tools that allow users to find, organize, analyze, and interact with music in all its different forms and facets. From a multimedia perspective, music is a challenging domain due to the many time-dependent musical concepts such as melody, harmony, pitch and instrumentation activity, loudness, rhythm, and lyrics. Given data-driven deep learning approaches to capture these concepts, one typically requires fine-grained target annotations that reflect the local properties of the underlying music recordings. However, such strongly aligned (frame-level) annotations are generally difficult to obtain or generate. Recent years have seen major advances in general time series analysis by developing differentiable alignment techniques that can be used in loss functions for deep learning pipelines. Since the alignment process can then be part of the differentiable model, such techniques make it possible to train a neural network based on weakly aligned target annotations where only global correspondences need to be known. In this project, our primary goal is to adapt, explore, and develop differentiable alignment techniques in the context of challenging music analysis and retrieval applications. Building upon recently proposed differentiable versions of dynamic time warping, we will systematically study efficiency and approximation properties from a theoretical and practical perspective. Furthermore, we will investigate the role of temporal constraints to better handle confounding factors and improve the explainability of models and learned representations. From an MIR perspective, we want to achieve substantial advances in analyzing music signals by exploiting weakly annotated training data. To this end, we will consider concrete MIR tasks with many yet unsolved problems, including multi-pitch estimation, cross-version music retrieval, and score-audio matching of musical patterns such as themes and leitmotifs. In summary, while making substantial progress for various MIR tasks, we want to gain a better understanding and advance research of modern alignment techniques using music as a challenging multimedia domain.

Projektbeschreibung

Differenzierbare Alignierungstechniken für Music Information Retrieval

Das als Music Information Retrieval (MIR) bekannte Forschungsgebiet befasst sich mit der Entwicklung computergestützter Werkzeuge, die es einer Benutzerin oder einem Benutzer ermöglichen, Musik in all ihren verschiedenen Formen und Facetten zu durchsuchen, zu organisieren und zu analysieren. Aus multimedialer Sicht stellt Musik aufgrund der vielen zeitabhängigen musikalischen Konzepte wie Melodie, Harmonie, Tonhöhe, Instrumentierung, Lautstärke, Rhythmus und Gesangstext einen anspruchsvollen Anwendungsbereich dar. Für datengetriebene Deep-Learning-Ansätze zur Analyse dieser Konzepte benötigt man feingranulare Zielannotationen, die die lokalen Eigenschaften der zugrunde liegenden Musikaufnahmen beschreiben. Solche auf Frame-Ebene zu spezifizierenden "starken" Annotationen sind jedoch im Allgemeinen kaum verfügbar und schwierig zu erzeugen. In den letzten Jahren wurden auf dem Gebiet der Zeitreihenanalyse große Fortschritte bei Entwicklung differenzierbarer Alignierungstechniken erzielt, die als Baustein in Loss-Funktionen von Deep-Learning-Verfahren eingesetzt werden können. Hierbei wird die Alignierung Teil des differenzierbaren Modells, wodurch das Training des neuronalen Netzwerks basierend auf "schwachen" Annotation (wo nur globale Korrespondenzen bekannt sein müssen) ermöglicht wird. Das Hauptziel dieses Projekts ist die Erforschung und Weiterentwicklung differenzierbarer Alignierungstechniken im Kontext anspruchsvoller MIR-Aufgaben zur Analyse von Musikaufnahmen. Zunächst wollen wir neuartige Techniken differenzierbarer Varianten des Dynamic Time Warping aufgreifen und systematisch hinsichtlich ihrer Effizienz und Approximationseigenschaften aus theoretischer und praktischer Sicht untersuchen. Darüber hinaus wollen wir erforschen, wie man die durch eine Alignierung definierten zeitlichen Randbedingungen zur Reduzierung von Störfaktoren einsetzen und die Erklärbarkeit der erlernten Modelle und Darstellungen verbessern kann. Auf Anwendungsseite wollen wir die Analyse von Musiksignalen vorantreiben, indem wir schwach annotierte Trainingsdaten durch den Einsatz differenzierbarer Alignierungstechniken besser ausnutzen. Insbesondere betrachten wir konkrete MIR-Aufgaben mit vielen ungelösten Teilproblemen, wie die simultane Schätzung mehrerer Grundfrequenzen, die versionsübergreifende Musiksuche und das Auffinden musikalischer Muster wie Themen und Leitmotive (oft als Notentext kodiert) in polyphonen Musikaufnahmen. Zusammenfassend wollen wir in diesem Projekt sowohl im MIR-Bereich als auch bei der Erforschung moderner Alignierungstechniken bedeutende wissenschaftliche Fortschritte erzielen, wobei die Musik als komplexer und herausfordernder Anwendungsbereich dient.