Так получилось потому, что в третьем шаге нужно было рассматривать получившуюся картинку и проговаривать