第十七届全国人机语音通讯学术会议
主页
参赛流程
数据集
NCMMSC2022-MTTSC 数据集授权

NCMMSC2022-MTTSC数据集仅适用于"NCMMSC2022-面向蒙古语的低资源语音合成竞赛"。如果您同意,则授予使用数据的权限:

1、在任何使用我们数据集的工作中,请您引用我们网站上列出的论文(详情请看 论文引用 一栏)。

2、您不可以将此数据集和修改版本传播至第三方。

3、您不得将数据集或任何衍生作品用于商业目的,例如许可或出售数据,或将数据用于获取商业利益的目的。

最终解释权归“NCMMSC2022-面向蒙古语的低资源语音合成竞赛”组织者及NCMMSC2022组委会所有。

论文引用
[1] 刘瑞,康世胤,高光来,李劲东,飞龙. MonTTS:完全非自回归的实时、高保真蒙古语语音合成模型[J]. 中文信息学报, 2022, 36(7): 86-97.
(LIU Rui, KANG Shiyin, GAO Guanglai, LI Jingdong, BAO Feilong. MonTTS: A Real-time and High-fidelity Mongolian TTS Model with Pure Non-autoregressive Mechanism. , 2022, 36(7): 86-97.)
http://jcip.cipsc.org.cn/CN/abstract/abstract3357.shtml
[2] Liu, Rui, et al. "Mongolian text-to-speech system based on deep neural network." National conference on man-machine speech communication. Springer, Singapore, 2017.
https://ttslr.github.io/papers/NCMMSC2017.pdf
[3] Li, Jingdong, et al. "End-to-end mongolian text-to-speech system." 2018 11th international symposium on chinese spoken language processing (ISCSLP). IEEE, 2018.
https://ttslr.github.io/papers/ISCSLP2018.pdf
[4] Hu, Yifan, et al. "MnTTS: An Open-Source Mongolian Text-to-Speech Synthesis Dataset and Accompanied Baseline." arXiv preprint arXiv:2209.10848 (2022). [Accepted by IALP2022]
https://arxiv.org/abs/2209.10848
数据集介绍

NCMMSC2022-MTTSC数据集由一位母语为蒙古语的专业女播音员录制。整个录音过程在内蒙古大学的标准录音棚中使用Adobe Audition软件进行录制。播音员按照我们的文字脚本,逐句朗读。 此外,还有一名志愿者负责监督录音过程,如果录音过程中出现杂音、不合理的停顿等问题,会请播音员重新录制。

数据集包括训练集验证集测试集三部分,训练集和验证集均由一个包含文字脚本的metadata.csv和包含对应音频的wavs文件夹组成。测试集由包含测试文字脚本的metadata.csv文件组成。

注:验证集只允许调整超参数和测试模型性能,不允许在训练中使用。

其中metadata.csv文件内容由“语音文件编号|蒙古文拉丁字符”组成(如下图所示)。参赛队伍无需进行蒙古文文本前端处理,拉丁字符可以直接作为TTS模型的输入。

注:音素序列也是语音合成模型的另一种重要文本形式,但是本竞赛不提供,仅提供字符序列。


数据集的蒙古文拉丁字符集:[-,_,',",`,A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,P,Q,R,S,T,U,V,W,X,Y,Z,a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r,s,t,u,v,w,x,y,z]

数据集下载

参赛者注册成功即代表已同意并将遵循上述的数据集授权内容。


数据集下载链接将在比赛主办方审核注册信息后发送至参赛者邮箱。

MD5以及数据集各文件大小
数据集名称 MD5 大小
训练集 c51d1b5cff02ef474f61a97cb4ead39d 191MB
验证集 6f12f6a679edac60f9297b2fc6b56397 57.1MB
测试集 5f206276591ffe11bb624079be5d36cc 46.7KB
主办方咨询邮箱: liurui_imu@163.com hyfwalker@163.com
Copyright © 第十七届全国人机语音通讯学术会议