amlb.github.io

24 octobre 2018

Animateur: Dorian Cazau
Question concrète: approche multimodale, consistant à apprendre conjointement des features sur la vidéo et le son, améliore t-elle la reconnaissance automatique de scènes acoustiques issues de vidéos youtube ?
Méthode machine learning: multimodal deep auto-encoder
Dataset formatté et benchmarké: Google Audio Set (https://research.google.com/audioset)

Présentation

How LSTM works.pdf

Notebooks et fichiers data:

AtelierML-24102018.ipynb: notebook de l’atelier
associatedLabels.npy: labels associés à chaque matrice de dataMat.npy et de tensors.npy
dataMat.npy: MFCCs (matrice pour chaque fichier)
tensors.npy: 4 frames extraites et réunies pour former un tenseur pour chaque vidéo

Theoretical point & doc sources

Liens

How a LSTM works ?

Vanishing gradient problem

https://medium.com/@anishsingh20/the-vanishing-gradient-problem-48ae7f501257