Gradient Descent on Token Input Embeddings

3 points | by kp1197 17 hours ago

1 comments

kp1197 17 hours ago
Does performing gradient descent on token input embeddings lead to interpretable results? And if not, why?