什么是Unreal Speech?
Unreal Speech 是一款超低成本的文本转语音(TTS)API,比 Eleven Labs 便宜 11 倍,专为生产环境设计。它支持 48 种声音、8 种语言,并能生成长达 10 小时的音频,延迟低至 300 毫秒。无论是实时流媒体还是长音频生成,Unreal Speech 都能轻松应对。
Unreal Speech的核心功能有哪些?
- 超低成本:比 Eleven Labs 便宜 11 倍
- 快速响应:音频流延迟仅 300 毫秒
- 长音频支持:可生成长达 10 小时的音频
- 多语言支持:48 种声音,涵盖 8 种语言
- 逐字时间戳:精确到每个单词的同步信息
- 免费试用:每月免费生成 25 万字符
Unreal Speech的使用案例有哪些?
- 实时语音流媒体:适用于需要低延迟的应用场景
- 长音频生成:适合播客、有声书等长内容制作
- 多语言支持:为全球用户提供本地化语音服务
- 逐字同步:适用于教育、语音助手等需要精确同步的场景
如何使用Unreal Speech?
- 短音频生成:使用
/stream端点,支持 1000 字符,响应时间 0.3 秒 - 中音频生成:使用
/speech端点,支持 3000 字符,返回 MP3 和时间戳 - 长音频生成:使用
/synthesisTasks端点,支持 50 万字符,异步处理 - 实时时间戳:使用
/streamWithTimestamps端点,支持逐字同步






