24 octobre 2018
- Animateur: Dorian Cazau
- Question concrète: approche multimodale, consistant à apprendre conjointement des features sur la vidéo et le son, améliore t-elle la reconnaissance automatique de scènes acoustiques issues de vidéos youtube ?
- Méthode machine learning: multimodal deep auto-encoder
- Dataset formatté et benchmarké: Google Audio Set (https://research.google.com/audioset)
Présentation
How LSTM works.pdf
Notebooks et fichiers data:
Theoretical point & doc sources
Liens
How a LSTM works ?
Vanishing gradient problem