- Nov 12, 2025
- Parsed from source:Nov 12, 2025
- Detected by Releasebot:Dec 23, 2025
【2025.11】
Release notes
- TTS 2.0音色上新 | 新音色*1,新增有声阅读音色:1个。
- TTS 1.0音色上新 | 新音色*18,新增角色扮演、多情感音色:18个。
- Oct 1, 2025
- Parsed from source:Oct 1, 2025
- Detected by Releasebot:Dec 23, 2025
- Modified by Releasebot:Jan 8, 2026
- Sep 1, 2025
- Parsed from source:Sep 1, 2025
- Detected by Releasebot:Dec 23, 2025
【2025.09】
Release Notes
- 已支持隐式 meta 水印写入,当前仅大模型语音合成、声音复刻和 语音播客v3 协议接口支持,音频格式支持mp3/wav/ogg_opus。官网接口文档→,搜索 “aigc_metadata”。
- 播客大模型已支持合成结尾加上显式水印(“AI”的摩斯码节奏音频),文档已经更新(搜索 aigc_watermark 跳转请点击→)。
- 大模型语音合成2.0版本上新:
- 推出豆包语音合成模型2.0,支持TTS对话式合成新范式(Query-Response),提供更加自然、更丰富情感、更具有表现力的语音合成效果。
- 新上线异步执行长文本任务接口:最大单次可执行的文本长度为10万字符,合成音频数据在服务端可保存7天。适用于批量进行音频内容生产(如有声小说等),但对时效性要求不高的场景;调用的价格跟大模型语音合成/声音复刻短文本定价保持一致;
- 音色上新 | 新音色*14,新增趣味口音、角色扮演音色:14个;
- TTS(大模型) 已支持合成结尾加上显式水印(“AI”的摩斯码节奏音频),已经上线,文档已经更新(搜索 aigc_watermark 跳转请点击→)。
- Sep 1, 2025
- Parsed from source:Sep 1, 2025
- Detected by Releasebot:Jan 8, 2026
【2025.09】
新上线 异步执行长文本任务接口
最大单次可执行的文本长度为10万字符,合成音频数据在服务端可保存7天。适用于批量进行音频内容生产(如有声小说等),但对时效性要求不高的场景;调用的价格跟大模型语音合成/声音复刻短文本定价保持一致;
Original source Report a problem - Sep 1, 2025
- Parsed from source:Sep 1, 2025
- Detected by Releasebot:Dec 25, 2025
- Modified by Releasebot:Jan 7, 2026
【2025.09】
新一轮大模型语音识别全面升级上线,涵盖闲时版、流式与非流式优化、13语种混合模型、极速版录音识别、重采样、热词与替换词管理等多项改进,显著提升准确性、速度和扩展能力。
Release Notes
大模型录音文件闲时版上线:整体产品效果及功能同大模型录音文件识别标准版,时效性24小时内完成处理,适用于大批量、对时效性要求较低的录音文件识别任务处理,价格相比于标准版更加实惠;(接口文档→)
大模型流式语音识别-地址/音乐优化:对于地址、歌名语音识别困难的词语,能调用专业的地图/音乐领域推荐词服务辅助识别,提升识别准确率;支持范围:流式输入、二遍流式输入模式、录音文件识别;(接口文档→)
大模型录音文件识别(auc)及大模型流式语音识别-流式输入模式(bigmodel_nostream),新上线13语种混合模型,除中英之外,支持的语种包括11种外语:日语、韩语、印尼语、菲律宾语、马来语、泰语、法语、德语、西班牙语、葡萄牙语、沙特阿拉伯语;接口调用时,默认调用中文模型(支持中英及国内主流方言),如需调用外语模型,需要指定语种;(注意:双向流式模式仍然只支持中英文识别)
双向流式优化版支持非流式二遍识别
产品升级 | 新增语速、音量、语种、情绪、性别五种检测
400新版本模型上线,性能提升,ITN效果优化,支持传参选择使用不同模型版本
上线录音文件识别大模型极速版,具体API请见https://www.volcengine.com/docs/6561/1631584
流式接口重采样优化
自学习平台替换词支持正则
自学习平台热词传入和context扩容至5000词
支持通过API接口创建和管理热词表、替换词表
- Sep 1, 2025
- Parsed from source:Sep 1, 2025
- Detected by Releasebot:Jan 8, 2026
【2025.09】
已支持隐式 meta 水印写入,当前仅大模型语音合成、声音复刻和语音播客v3 协议接口支持,音频格式支持 mp3/wav/ogg_opus。官网接口文档 → 链接,搜索 “aigc_metadata”。
Original source Report a problem - Aug 1, 2025
- Parsed from source:Aug 1, 2025
- Detected by Releasebot:Dec 23, 2025
- Modified by Releasebot:Jan 8, 2026
【2025.08】
1. 播客大模型-二期迭代功能:
- 输入支持url及文件(txt/pdf/word);
- 输出支持URL 形式返回的解析结果,链接有效期为一小时;
- 语音合成对白文本支持修改,支持客户自定义导入;
- 音色顺序可支持指定或随机;
- 支持输出每轮音频时长,调用方可依此实现时间戳;
说明:通过 prompt 联网搜索内容生成播客功能已上线,但效果仍有优化空间,当前可以先做体验测试;
2. 产品能力升级
- 支持16、32bit两种pcm位深;
- 新增多发音人;
- 支持内置联网。
3. 音色上新 | 新音色*9,新增客服场景音色:9个;
- 新音色*9,新增客服场景音色:9个
4. 音色上新 | 新音色*22,新增客服场景音色:14个;新增有声阅读、多语种、通用场景、角色扮演音色:8个;
- 新音色*22,新增客服场景音色:14个;新增有声阅读、多语种、通用场景、角色扮演音色:8个
5. 产品升级 | TTS DMD 版本上线,较默认版本音质有提升,且延时更优。(需注意,此版本在复刻场景中会放大训练prompt的发音人的特质,因此对prompt的要求更高,使用高质量的训练音频,可以获得更优的音质效果)
- TTS DMD 版本上线,较默认版本音质有提升,且延时更优。(需注意,此版本在复刻场景中会放大训练prompt的发音人的特质,因此对prompt的要求更高,使用高质量的训练音频,可以获得更优的音质效果)
- Jul 1, 2025
- Parsed from source:Jul 1, 2025
- Detected by Releasebot:Dec 23, 2025
- Modified by Releasebot:Jan 8, 2026
【2025.07】
上线语音同传大模型2.0,支持两种模式
- 支持语音到语音S2S(Speech-to-Speech):语音流式输入,对语音理解翻译后,模型自动对说话人声音进行复刻,并按照说话人的音色进行目标语种语音的输出;
- 支持语音到文本S2T(Speech-to-Text):语音流式输入,对语音理解翻译后文本返回。
上线语音播客大模型,对送入的播客主题文本进行分析,流式生成双人播客音频;支持断点续传。
音色上新 | 新音色*1,新增通用场景音色:Vivi;
音色上新 | 新音色*1,新增英语教育场景音色:Tina老师;
- Jul 1, 2025
- Parsed from source:Jul 1, 2025
- Detected by Releasebot:Jan 5, 2026
【2025.07】
上线录音文件识别大模型极速版,具体API请见 https://www.volcengine.com/docs/6561/1631584
Original source Report a problem - Jun 1, 2025
- Parsed from source:Jun 1, 2025
- Detected by Releasebot:Jan 8, 2026