它是一种模型压缩技术,通过将一个复杂的、计算开销大的大模型(称为教师模型)的知识“蒸馏”到一个更小、更高效的模型(称为学生模型)。这个过程的核心目标是让学生模型在轻量化的同时,尽量保留教师模型的性能。