DiffSinger Singing Voice Synthesis Demo

Master's Thesis Project: Cross-Lingual Transfer Learning for SVS

Contact: jiashu.dong28@gmail.com

This repository demo is part of my master's thesis project. It is based on the official OpenVPI DiffSinger implementation. This work explores phoneme-mapped cross-lingual transfer learning for singing voice synthesis (SVS), focusing on adapting an English-trained DiffSinger model to German using minimal target-language data. We focus on the acoustic model and investigate how data quality—particularly accent, vocal range, and recording conditions—impacts low-resource SVS performance.

Group 1: Pure Vocals (A Capella)

Sample 1

Lyrics:
sieh mich horen niemals werde ich die perfekte braut
Ground Truth
Base GTs 3H
FT GTs 30min
FT GTs 15min
FT NativeNarrow 15min
FT ProficientWide 15min
Zero-shot

Sample 2

Lyrics:
für dich dreh ich so lang an der erde bis du wieder bei mir bist
Ground Truth
Base GTs 3H
FT GTs 30min
FT GTs 15min
FT NativeNarrow 15min
FT ProficientWide 15min
Zero-shot

Sample 3

Lyrics:
und wenn sie tanzt sieh wo an da zu dem moment
Ground Truth
Base GTs 3H
FT GTs 30min
FT GTs 15min
FT NativeNarrow 15min
FT ProficientWide 15min
Zero-shot

Group 2: Vocals with Accompaniment

Sample 4

Lyrics:
und wenn ich dich frag was das hier für dich ist mach ich dann alles kaputt mach ich dann alles kaputt und wenn ich dir sag dass du viel mehr für mich bist mach ich dann alles kaputt mach ich dann alles kaputt alles kaputt
Ground Truth
Base GTs 3H
FT GTs 30min
FT GTs 15min
FT NativeNarrow 15min
FT ProficientWide 15min
Zero-shot

Sample 5

Lyrics:
kann ich es sehen ich seh dich mit all deinen farben und deinen narben hinter den mauern ja ich seh dich lass dir nichts sagen nein lass dir nichts sagen weisst du denn gar nicht wie schön du bist
Ground Truth
Base GTs 3H
FT GTs 30min
FT GTs 15min
FT NativeNarrow 15min
FT ProficientWide 15min
Zero-shot

Model Descriptions