慧听普通话对话语音识别数据库-1000小时

發布日期:2019-01-23

普通話對話語音識別數據庫在國內多地區完成語音采集。每組由2人進行限定話題范圍內、無文本的自由對話。覆蓋話題種類多達70個,如:餐飲、寵物、政治、法律、求職、房產、購物、健康、交通、教育、科技、理財、留學、母嬰、食品、天氣、小說、音樂、影響、家居、游戲、服飾等等。

該數據庫總有效時長超過1000小時。數據采樣率為48 kHz,采樣精度是16bit,單通道錄音,并以PCM非壓縮文件格式存儲。

該庫總共采集了1400人的對話語音數據。發音人年齡范圍18~60歲,來自全國各大方言區。所有發音人用普通話以日常交流方式進行對話,在限定話題范圍內自由發揮,發音自然流利。

語音采集設備是高保真桌面麥克,錄音環境是相對安靜的室內。

全部錄音數據與錄音文本均由標注團隊成員細心校對,保證錯誤率低于5%。

該普通話對話數據庫錄音質量高、以純自然方式發音、覆蓋話題范圍廣泛、標注質量高,可用于語音識別系統訓練、測試、語音分析、對話研究等多種用途。

相關數據
排列三组选045前后关系