Τμήμα Μουσικής Τεχνολογίας & Ακουστικής

Ελληνικό Μεσογειακό Πανεπιστήμιο

Παρουσίαση Διπλωματικής Εργασίας του φοιτητή Τσάμη Κωνσταντίνο -Θεόδωρο

ΠΡΟΣΚΛΗΣΗ ΣΕ ΔΗΜΟΣΙΑ ΠΑΡΟΥΣΙΑΣΗ ΜΕΤΑΠΤΥΧΙΑΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ

 Τίτλος

«Design and Development of a Dataset Creation System and an AI Model for Overlapping Audio Event Counting» του Μεταπτυχιακού φοιτητή: Κωνσταντίνος-Θεόδωρος Τσάμης,  φοιτητής του Προγράμματος Μεταπτυχιακών Σπουδών ΠΜΣ “Τεχνολογίες Ήχου και Μουσικής”

 

Επιβλέπων Καθηγητής: Μάξιμος Καλιακάτσος-Παπακώστας

 

H παρουσίαση θα πραγματοποιηθεί την Τετάρτη 29 Ιανουαρίου 2025 στις 11:00, διαδικτυακά μέσω του συνδέσμου:

https://teams.microsoft.com/l/meetup-join/19%3ameeting_Y2JiNGE2ZjEtMDZjMS00MjVkLTg1YjEtNmQ3YmNjODBkMzY2%40thread.v2/0?context=%7b%22Tid%22%3a%226ae07702-c5f7-4f38-9b87-acad62a75d93%22%2c%22Oid%22%3a%22b367514f-ef8a-4875-9714-14563333cd0a%22%7d

ABSTRACT

This thesis presents a system for counting overlapping sounds in audio streams, leveraging a dataset creation method tailored for this complex task. Traditional datasets, such as UrbanSound and AudioSet, lack the specificity required for predicting overlapping sound events, motivating the development of a custom dataset generation pipeline. By synthesizing multitrack audio compositions with precise labels of current overlaps, the dataset ensures high diversity and relevance to real-world scenarios. The system integrates Wav2Vec2 for feature extraction and a custom Long Short-Term Memory (LSTM) architecture to detect overlapping audio events in an audio file. The results demonstrate the critical role of the dataset in enhancing model training and performance. This work paves the way for future advancements in machine listening and multitrack audio analysis.

 

Μετάβαση στο περιεχόμενο