Lecture 23: Accelerating Gradient Descent (Use Momentum)

Description

In this lecture, Professor Strang explains both momentum-based gradient descent and Nesterov's accelerated gradient descent.

Summary

Study the zig-zag example: Minimize \(F = \frac{1}{2} (x^2 + by^2)\)
Add a momentum term / heavy ball remembers its directions.
New point \(k\) + 1 comes from TWO old points \(k\) and \(k\) - 1.
"1^st order" becomes "2^nd order" or "1^st order system" as in ODEs.
Convergence rate improves: 1 - \(b\) to 1 - square root of \(b\) !

Related section in textbook: VI.4

Instructor: Prof. Gilbert Strang

Course Info

keyboard_arrow_right

Instructor:	Prof. Gilbert Strang
Course Number:	18.065 18.0651
Departments:	Mathematics
Topics:	Engineering > Electrical Engineering > Signal Processing Mathematics > Applied Mathematics Mathematics > Computation Mathematics > Linear Algebra
As Taught In:	Spring 2018
Level:	Undergraduate

Topics

Course Features

AV lectures - Video

Assignments - problem sets (no solutions)

AV special element audio - Podcast

Browse Course Material

Course Info

Topics

Course Features

Description

Summary

Course Info

Topics

Course Features