Want to Become a Sponsor? Contact Us Now!🎉

人工智能新闻
OpenVoice:用于本地和云部署的即时语音克隆

OpenVoice:用于本地和云部署的即时语音克隆

Published on

在不断发展的语音合成技术领域中,OpenVoice 成为扮演颠覆者角色的重要力量,提供多样性即时语音克隆能力,适用于多种应用场景。OpenVoice 是一个由 MyShell 团队开发的开源解决方案,用户只需使用短音频剪辑即可复制说话者的声音,生成逼真且可自定义的多语言语音。

OpenVoice 的主要功能

OpenVoice 具有一系列引人注目的功能,这些功能使其与其他语音克隆解决方案有所区别:

  1. 准确的音色克隆:OpenVoice 可以准确地克隆参考说话者的音色,确保生成的语音与原始声音非常相似。这一功能对于需要高度真实性的应用非常有用,如有声读物叙述或个性化虚拟助手。

  2. 灵活的语音风格控制:OpenVoice 的一大亮点之一是其能够对各种语音风格参数进行细致的控制。用户可以调整情绪、口音、节奏、暂停和语调等属性,从而实现广泛的表达可能性。这种灵活性使用户能够根据特定环境或个人喜好定制生成的语音。

  3. 零-shot 跨语种语音克隆:OpenVoice 实现了令人惊叹的零-shot 跨语种语音克隆,即可以生成训练数据集中未包含的语言的语音。这种能力为创建本地化内容或在不需要大量特定语言的训练数据的情况下触达全球受众开辟了令人兴奋的机遇。

Anakin AI - The Ultimate No-Code AI App Builder

性能基准

为评估 OpenVoice 的性能,MyShell 团队在多种 GPU 配置下进行了全面的基准测试。结果表明,OpenVoice 相对于其他文本到语音 API 具有令人印象深刻的高效率和成本效益。

GPU每秒处理单词数每美元处理单词数
RTX 2070132.7660 万
RTX 3080 Ti230.4453 万

基准测试显示,RTX 2070 GPU 每美元可以处理惊人的 660 万个单词,这使其成为大规模语音克隆项目的非常具有成本效益的选择。另一方面,RTX 3080 Ti 具有最高的原始处理速度,每秒大约可处理 230.4 个单词,适用于优先考虑快速交付的应用程序。

值得注意的是,这些基准测试侧重于单线程操作,而在像 RTX 3080 Ti 这样更强大的 GPU 上进行多线程操作可能会进一步提升性能并缩小成本性能差距。

在本地运行 OpenVoice

OpenVoice 的一个重要优势是能够在本地运行,为用户提供了比仅依赖云端 API 更多的控制、隐私和成本节约。以下是如何在本地设置和运行 OpenVoice 的逐步指南:

  1. 先决条件:确保您拥有兼容的 GPU(支持 CUDA 的 NVIDIA GPU)以及所需的依赖项,包括 Python、PyTorch 和 CUDA 工具包。

  2. 克隆代码库:使用以下命令从官方 GitHub 页面克隆 OpenVoice 代码库:

    git clone https://github.com/myshell-ai/OpenVoice.git
  3. 安装依赖项:进入克隆的代码库目录,并使用 pip 安装所需的 Python 包:

    cd OpenVoice
    pip install -r requirements.txt
  4. 准备模型:下载预训练的模型检查点,并将其放置在代码库内的指定目录中。获取检查点的具体说明可在 OpenVoice 文档中找到。

  5. 配置设置:修改配置文件(config.jsonconfig.yaml)以指定所需的设置,例如输入音频格式、输出目录和语音风格参数。

  6. 运行语音克隆:在本地机器上执行主要脚本以进行语音克隆。将参考音频剪辑的路径和目标文字作为参数提供:

    python main.py --reference_audio path/to/reference.wav --text "你好,这是一个测试。"
  7. 评估结果:生成的语音将保存在指定的输出目录中。听取合成音频,并评估其质量、自然度和与参考音色的相似性。微调设置并尝试不同的语音风格参数,以达到期望的结果。

通过在本地运行 OpenVoice,您可以利用即时语音克隆的威力,无需依赖外部 API,减少延迟并确保数据隐私。对于需要严格安全要求的应用程序或更倾向于在语音合成流程中保持完全控制的用户来说,这种本地部署选项特别有益。

结论

OpenVoice代表着语音合成领域的一个重要里程碑,为即时语音克隆提供了一种多功能且易于使用的解决方案。凭借其精确的音色克隆、灵活的语音风格控制和零阶跨语言能力,OpenVoice使用户能够在多种语言中创建逼真而富有表现力的语音。

令人印象深刻的性能基准证明了OpenVoice的性价比和效率,在从有声书叙述和个性化虚拟助手到本地内容创作等各种应用方面都具有吸引力。

此外,本地运行OpenVoice的能力为用户提供了更大的控制、隐私和成本节约,使他们能够在不仅仅依赖基于云的API的情况下利用语音克隆的能力。

随着开源社区继续为OpenVoice的开发和改进做出贡献,我们可以预期在语音合成领域将会有进一步的进展和创新。凭借其多功能性、易用性和令人印象深刻的功能,OpenVoice有望彻底改变我们与语音内容的互动和创作方式,为创作者、开发者和企业带来令人兴奋的可能性。

Anakin AI - The Ultimate No-Code AI App Builder