Hell Fast
也就是说,如果需要attention,也就是动力系统需要我们有必要记住这个信息,有利于需求的满足,那么,就记住他更多抽象层级的信息,否则就记住比较少的,抽象的关键特征 但 transformer 里的 attention,其实是上下文中的相互影响(注意)