数据堂专注于AI数据生产,拥有大量的语音数据资源,涵盖了各种不同场景下的语音数据,包括普通话、方言、英语、日语、韩语、泰语、印地语等多个国家的语言。这些数据被广泛应用在车载语音、智能客服、智能音箱等人工智能产品的落地。拥有国际领先的自主核心数据处理技术,已实现基于“Human-in-the-loop”技术进行大规模的数据生产能力。
在语音识别数据服务领域,数据堂判研行业趋势,已生产出包含中文普通话、中文方言、英语系语音、欧洲语系语音、亚洲语系语音、美洲语系语音、噪声数据等大量的成品语音数据集,可以为AI企业提供有效的训练数据,解决迫在眉睫的数据需求。
普通话手机采集语音数据
由6278名分布于广东、福建、山东、江苏、北京、湖南等全国33省中国发音人参与录制。其中,男性2980人,女性3298人,录音内容为常用口语句子,录音环境包含安静环境和噪音环境。数据标注文本均由专业标注人员转写校对,准确率不低于98%。
苏州方言手机语音采集语音数据
方言手机语音采集语音数据由250名苏州本地发音人参与录制,口音正宗。每人约500句苏州方言口语化句子,录音内容口语化、生活化,朗读更加自然流利。并由苏州本地人参与质检校对,文本转写更精准。
杭州方言手机语音采集数据
挑选杭州本地370名口音纯正的人员参与录音。每人约500句杭州方言口语化句子。录音内容口语化、生活化,朗读更加自然流利。并由杭州本地人参与质检校对,文本转写更精准。
美式英语手机采集语音数据
采集349名美国本地发音人员。录音环境安静,录音内容丰富:覆盖经济,娱乐,新闻,口语等多个领域。由人工精准转写,并标注语音起止时间点。
印地语手机采集语音数据
由1425名印度本土发音人参与录制,口音正宗;录音文本由语言专家参与设计,涵盖通用、交互、车载、家居等多类别,内容丰富,且经过人工校对,准确率高,可应用于语音识别、机器翻译、声纹识别。
日语手机采集语音数据
由1,245名日本本土发音人参与录制,口音正宗;录音文本涵盖通用、交互、车载、家居等多类别,内容丰富。文本经过人工校对,准确率高。
韩语手机采集语音数据
参与录音人员达到上千人,男女各占比49%、51%。一个录音人的语音时长控制在半小时左右。录音文本包括日常口语、各种交互类句子、家居命令、车载命令等。
泰语手机采集语音数据
由490位泰国本地人员参与采集。录音环境安静,录音内容包括车载、家居、语音助手等多个领域。每人约50句,有效数据时长15小时,所有文本由人工转写,准确率高。
更多成品语音数据集可访问数据堂官方网站进行了解。
数据堂作为一家专注于人工智能数据服务的公司,可以为您提供最优质的语音数据集标注服务,让您免于繁琐的标注过程,从而更好地完成您的研究工作。如果您需要语音数据集标注服务,不妨联系我们,我们一定会让您满意。
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net