| | --- |
| | tags: |
| | - DiffSVC |
| | - pre-trained_model |
| | - basemodel |
| | - diff-svc |
| | license: "gpl" |
| | datasets: |
| | - 512rc_50k |
| | - 512rc_80k |
| | - 512rc_100k |
| | --- |
| | [English](./README.md) | **简体中文** |
| | # DiffSVCBaseModel |
| |
|
| | 任何类型的音色都能用的大型底模! |
| |
|
| | ## 先康康效果 |
| |
|
| | | 原始音频 | 用纳西妲模型推理的 | |
| | | -------------- | ------------------------------------ | |
| | | [点击播放](https://huggingface.co/HuanLin/DiffSVCBaseModel/resolve/main/gouzhiqishi.wav) | [点击播放](https://huggingface.co/HuanLin/DiffSVCBaseModel/resolve/main/gouzhiqishi_-4key_nahida_384_20_348k_0x.flac) | |
| |
|
| |
|
| | ## 这玩意咋用? |
| |
|
| | 1. 按照你的数据挑选一个zip包,保存到你的电脑上 |
| |
|
| | 2. 填好你的配置,把数据集丢到```(diffsvc 根目录)/data/raw/{角色名称}/``` |
| |
|
| | 3. 把底模(仅丢 .ckpt 文件)丢到 ```(diffsvc 根目录)/checkpoints/{角色名称}``` |
| |
|
| | 4. 向原仓库一样预处理和训练数据集,如果不是从step1开始,那就成功了 |
| |
|
| | ## 我用了多少数据集? |
| |
|
| | 两份开源数据集(opencpop ,m4singer),40多个小时的音频 |
| |
|
| | ## 我想演自己炼底模! |
| |
|
| | 邢,自己下载 [这个已预处理过的文件](./BaseModelBinary.tar.gz). |
| |
|
| | ## 下载专区 |
| |
|
| | ** 选一个符合自己配置文件中 rc 值的模型 ** |
| |
|
| | | 版本 | 下载传送门 | lr参考值 |
| | | -------------- | ---------------------------------- | --- | |
| | | 384rc,50k_step | [传送](./384rc_50k_step.zip) | 0.0016 | |
| | | 384rc,80k_step | [传送](./384rc_80k_step.zip) | 0.0032 | |
| | | 384rc,100k_step | [传送](./384rc_100k_step.zip) | 0.0032 | |
| | |
| | 更多版本还在路上 |
| | |
| | > rc: 就是配置里的 residual_channels(中文特供翻译: 网格宽度, 简称网宽) |
| |
|
| | ## 涉及仓库 |
| |
|
| | | 仓库 | 传送门 | |
| | | --------------- | ---------------------------------------------------- | |
| | | Diff-SVC | [传送](https://github.com/prophesier/diff-svc) | |
| | | 44.1KHz声码器 | [传送](https://openvpi.github.io/vocoders) | |
| | | M4Singer | [传送](https://github.com/M4Singer/M4Singer) | |
| | | OpenCPOP | [传送](https://github.com/wenet-e2e/opencpop) | |
| | | Pre-trained_Models(有更多RC版本的) | [传送](https://huggingface.co/Erythrocyte/Pre-trained_Models) | |
| | |