用于语言引导视频分割的局部-全局语境感知Transformer

0 引言随着Transformer的大火,NLP任务和CV任务的壁垒逐渐被打通。视频分割一直是一项极具挑战的任务,因为它对理解整个视频内容和各种语