英偉達 Parakeet TDT 0.6B 成開源 ASR 新王:1秒轉(zhuǎn)錄60分鐘音頻
5 月 7 日消息,科技媒體 marktechpost 昨日(5 月 6 日)發(fā)布博文,報道稱英偉達最新推出 Parakeet TDT 0.6B,是一款先進的自動語音識別(ASR)模型,已在 Hugging Face 平臺上完全開源。
本文引用地址:http://www.antipu.com.cn/article/202505/470178.htmParakeet TDT 0.6B 的核心優(yōu)勢在于其無與倫比的速度和轉(zhuǎn)錄質(zhì)量。該模型僅需 1 秒即可處理 60 分鐘音頻,是現(xiàn)有主流開源 ASR 典型模型速度的 50 倍。
在 Hugging Face 的 Open ASR Leaderboard 上,其字錯率(WER)低至 6.05%,成為開源模型中的佼佼者。這一性能為實時轉(zhuǎn)錄、語音分析、呼叫中心智能和音頻內(nèi)容索引等企業(yè)級應用提供了強大支持。
該模型基于 Transformer 架構,結合高質(zhì)量轉(zhuǎn)錄數(shù)據(jù)進行微調(diào),并針對英偉達硬件優(yōu)化推理。
援引博文介紹,該模型關鍵特性包括:6 億參數(shù)的編碼-解碼結構、量化和融合內(nèi)核以提升推理效率、支持 TDT(Transducer Decoder Transformer)架構,以及精確的時間戳、數(shù)字格式化和標點恢復功能。
此外,該模型還開創(chuàng)性地支持歌曲轉(zhuǎn)歌詞轉(zhuǎn)錄,這一罕見功能拓展了音樂索引和媒體平臺的用例,依托英偉達的 TensorRT 和 FP8 量化技術,其實時率(Real Time Factor,RTF,模型處理時間和音頻長度的比值)達到 3386。
Parakeet TDT 0.6B 不僅關注速度和精度,還內(nèi)置了多項獨特功能。該模型能將歌曲內(nèi)容轉(zhuǎn)為歌詞,適用于音樂和媒體領域;支持數(shù)字和時間戳格式化,提升會議記錄、法律轉(zhuǎn)錄和醫(yī)療記錄的可讀性;標點恢復功能則增強了下游自然語言處理(NLP)應用的表現(xiàn)。這些特性大幅提升轉(zhuǎn)錄質(zhì)量,減輕后期處理或人工編輯的負擔,尤其適合企業(yè)級部署。
評論