DiffSinger SVS Demo - Master's Thesis Project

This repository demo is part of my master's thesis project. It is based on the official OpenVPI DiffSinger implementation. This work explores phoneme-mapped cross-lingual transfer learning for singing voice synthesis (SVS), focusing on adapting an English-trained DiffSinger model to German using minimal target-language data. We focus on the acoustic model and investigate how data quality—particularly accent, vocal range, and recording conditions—impacts low-resource SVS performance.

Group 1: Pure Vocals (A Capella)

Sample 1

Lyrics:

sieh mich horen niemals werde ich die perfekte braut

Ground Truth

Base GTs 3H

FT GTs 30min

FT GTs 15min

FT NativeNarrow 15min

FT ProficientWide 15min

Zero-shot

Sample 2

Lyrics:

für dich dreh ich so lang an der erde bis du wieder bei mir bist

Ground Truth

Base GTs 3H

FT GTs 30min

FT GTs 15min

FT NativeNarrow 15min

FT ProficientWide 15min

Zero-shot

Sample 3

Lyrics:

und wenn sie tanzt sieh wo an da zu dem moment

Ground Truth

Base GTs 3H

FT GTs 30min

FT GTs 15min

FT NativeNarrow 15min

FT ProficientWide 15min

Zero-shot

Group 2: Vocals with Accompaniment

Sample 4

Lyrics:

und wenn ich dich frag was das hier für dich ist mach ich dann alles kaputt mach ich dann alles kaputt und wenn ich dir sag dass du viel mehr für mich bist mach ich dann alles kaputt mach ich dann alles kaputt alles kaputt

Ground Truth

Base GTs 3H

FT GTs 30min

FT GTs 15min

FT NativeNarrow 15min

FT ProficientWide 15min

Zero-shot

Sample 5

Lyrics:

kann ich es sehen ich seh dich mit all deinen farben und deinen narben hinter den mauern ja ich seh dich lass dir nichts sagen nein lass dir nichts sagen weisst du denn gar nicht wie schön du bist

Ground Truth

Base GTs 3H

FT GTs 30min

FT GTs 15min

FT NativeNarrow 15min

FT ProficientWide 15min

Zero-shot

Model Descriptions

Ground Truth: Original human recordings
Base GTs 3H: Base model trained with 3 hours of gtsinger data
FT GTs 30min: Fine-tuned model with 30 minutes of gtsinger data
FT GTs 15min: Fine-tuned model with 15 minutes of gtsinger data
FT NativeNarrow 15min: Fine-tuned model with 15 minutes data from native singer with narrow pitch range
FT ProficientWide 15min: Fine-tuned model with 15 minutes data from proficient singer with wide pitch range
Zero-shot: Zero-shot singing voice synthesis from English model