Αναγνώριση Ήχων Κρουστών μέσω Μηχανικής Μάθησης με Αυτοματοποιημένο Σύστημα Παραγωγής Ήχων (3D Auto-Drum Machine)

Ανάπτυξη ενός αυτοματοποιημένου συστήματος (3D Auto-Drum Machine) που παράγει και καταγράφει ήχους κρουστών με πλήρως ελεγχόμενες συνθήκες κρούσης. Η δύναμη και η θέση κρούσης καταγράφονται μαζί με τον ήχο, δημιουργώντας μια βάση δεδομένων που χρησιμοποιείται για την εκπαίδευση μοντέλων μηχανικής μάθησης, τα οποία μπορούν να αναγνωρίσουν το υλικό και τη γεωμετρία του αντικειμένου από τον ήχο.
3D Auto-Drum Machineaudio recognitionmachine learningpercussive instruments
Περιγραφή
Η έρευνα στοχεύει στη γεφύρωση του χάσματος μεταξύ των φυσικών χαρακτηριστικών των μουσικών οργάνων και του ήχου που παράγουν. Τα παραδοσιακά κρουστά όργανα, όπως τα πιατίνια, παράγουν πολύπλοκους ήχους που εξαρτώνται από το υλικό, το σχήμα και τον τρόπο κρούσης. Για να μελετήσουμε αυτή τη σχέση, αναπτύχθηκε ένα ρομποτικό σύστημα ακριβείας, το οποίο μπορεί να χτυπά μια επιφάνεια σε προκαθορισμένα σημεία με ελεγχόμενη δύναμη. Το σύστημα καταγράφει ταυτόχρονα τον ήχο που εκπέμπεται, τη δύναμη κρούσης και τις ακριβείς συντεταγμένες του σημείου κρούσης.
Με αυτό τον τρόπο, δημιουργήσαμε μια βάση δεδομένων με ηχητικά δείγματα από διαφορετικά υλικά (αλουμίνιο, κράμα MS63, κράμα B8) και διαφορετικές γεωμετρίες (επίπεδο φύλλο, πιατίνι). Στη συνέχεια, χρησιμοποιήσαμε ένα προ-εκπαιδευμένο μοντέλο βαθιάς μάθησης (DistilHuBERT) για να αναλύσουμε τα ηχητικά δείγματα. Τα αποτελέσματα έδειξαν ότι τα δείγματα από διαφορετικά υλικά/γεωμετρίες είναι διαχωρίσιμα, ενώ οι επαναλήψεις των μετρήσεων ήταν συνεπείς, επιβεβαιώνοντας την αξιοπιστία της μεθόδου. Η δυνατότητα αυτή ανοίγει το δρόμο για τη δημιουργία μεγάλων βάσεων δεδομένων που θα επιτρέψουν την εκπαίδευση μοντέλων για την πρόβλεψη του ήχου νέων υλικών και σχεδίων, μειώνοντας την ανάγκη για χρονοβόρες και δαπανηρές κατασκευές.
Παραδείγματα
Συγκριτικά φάσματα ήχου: Γράφημα που συγκρίνει τα φάσματα ήχου από τα τρία διαφορετικά υλικά (αλουμίνιο, MS63, B8) για την ίδια θέση κρούσης, αναδεικνύοντας τις διαφορές που οφείλονται στο υλικό και τη γεωμετρία.

Οπτικοποίηση μηχανικής μάθησης: Το διάγραμμα t-SNE που δείχνει πώς τα 96 ηχητικά δείγματα ομαδοποιούνται ανά υλικό/γεωμετρία, αποδεικνύοντας ότι είναι διαχωρίσιμα από το μοντέλο.

Δημοσιεύσεις
Brezas, S., Skoulakis, A., Kaliakatsos-Papakostas, M., Sarantis-Karamesinis, A., Orphanos, Y., Tatarakis, M., Papadogiannis, N.A., Bakarezos, M., Kaselouris, E., Dimitriou, V. (2024). Audio Recognition of the Percussion Sounds Generated by a 3D Auto-Drum Machine System via Machine Learning. Electronics, 13(9), 1787. https://doi.org/10.3390/electronics13091787
Ερευνητική Ομάδα
Βασίλειος Δημητρίου, Καθηγητής
Μάξιμος Καλιακάτσος-Παπακώστας, Αναπληρωτής Καθηγητής
Ευάγγελος Κασελούρης, Επίκουρος Καθηγητής
Χρυσούλα Αλεξανδράκη, Αναπληρώτρια Καθηγήτρια
Νεκτάριος Παπαδογιάννης, Καθηγητής
Μάκης Μπακαρέζος, Καθηγητής
Γιάννης Ορφανός, ΕΔΙΠ
Σπύρος Μπρέζας, Μεταδιδάκτορας, Σύμβουλος Ακουστικής
Δέσποινα Γρηγορίου, Υποψήφια Διδάκτωρ
Μιχάλης Σταράκης, Υποψήφιος Διδάκτωρ
Νίκος Χαραλαμπίδης, Μεταπτυχιακός φοιτητής
Λάμπρος Καριώτογλου, Προπτυχιακός φοιτητής
