J'ai une bonne compréhension des réseaux de neurones, de la propagation arrière et de la règle de la chaîne, mais j'ai du mal à comprendre la différenciation automatique.
Les éléments ci-dessous font référence à la différenciation automatique en dehors du contexte de la propagation arrière:
- Comment la différenciation automatique calcule-t-elle le gradient à partir d'une matrice?
- Quelles sont les conditions requises pour calculer un dégradé? Une fonction doit-elle être spécifiée?
- Quels sont certains cas d'utilisation pour cela (autre que la rétro-propagation)?
- Pourquoi est-ce important et quelles sont les alternatives?
Est-ce que je manque quelque chose?