Multilingual Safety Alignment via Self-Distillation

Published in arXiv preprint, 2026

Recommended citation: Qin, R., Wang, Q., Liu, D., Li, Q., Wei, Z., & Shen, W. Multilingual Safety Alignment via Self-Distillation. arXiv preprint arXiv:2605.02971, 2026. https://arxiv.org/abs/2605.02971

Abstract. This paper proposes Multilingual Self-Distillation, a cross-lingual safeguard transfer framework that improves multilingual safety alignment of large language models without requiring response data for each target language.

Authors: Ruiyang Qin, Qingzhuo Wang, Dongrui Liu, Qiang Li, Zhihua Wei, Wen Shen†.

Download paper here

Twitter Facebook LinkedIn

Wen Shen (沈雯)