Fish Speech

Fish Speech 是一个由 Fish Audio 团队开发的文本转语音（TTS）技术，旨在利用先进的机器学习和深度学习技术将文字转换为自然流畅的语音输出。

收录时间：

2024-12-15

打开网站手机查看

项目框架 # Fish Speech # 开源TTS # 文本转语音

Fish Speech

Fish Speech

Fish Speech 是由 Fish Audio 开发的开源文本转语音（TTS）系统，提供高质量、自然流畅的语音合成能力。该工具融合了 VQ-GAN、Llama 与 VITS 等先进深度学习架构，能够将输入文本转化为接近真人发音的语音输出。

Fish Speech官网入口网址：https://github.com/fishaudio/fish-speech/blob/main/docs/README.zh.md

Fish Speech插图

系统支持多语言处理，涵盖中文、日语、英语等主流语种，并扩展至韩语、法语、德语等多种语言。其训练数据规模庞大，累计使用约15万小时的三语语音素材，显著提升了语音生成的自然度与语言适应性。

核心特点

轻量化设计，可在本地设备部署并进行模型微调，适合作为个性化语音助手使用
提供多种交互方式，包括命令行操作、HTTP API 接口及 Web 用户界面，便于不同技术背景的用户接入
源代码公开，开发者可通过 GitHub 获取模型与完整实现，便于二次开发与研究

Fish Speech 适用于内容创作、教育辅助、语音克隆、有声读物生成及娱乐应用等多个场景，主要面向开发者、研究人员和技术爱好者。需注意的是，在处理超长文本或进行高精度音色复刻时，系统仍存在一定限制。

作为一款开源且功能完善的 TTS 工具，Fish Speech 为人工智能语音合成领域提供了实用的技术方案，同时兼顾易用性与可扩展性。

相关导航

CozeWorkflows

一个开源项目，由风哥（AI 博主）开发并维护，该项目旨在提供200多个Coze工作流，帮助用户高效处理AI任务。

NaturalReader

NaturalReader 是一款功能强大的 AI 文本转语音工具，结合了先进的 AI 技术和用户友好的界面，适合需要高质量语音内容的用户和企业。

AI-Media2Doc

一键将音视频转化为小红书/公众号/知识笔记/思维导图/视频字幕等各种风格的文档。

Text To Speech

在线文本转语音

SQLBot

一款基于大语言模型和 RAG(检索增强生成)的智能问数系统。借助 SQLBot，用户可以实现数据的即问即答，快速提炼获取所需的数据信息及可视化图表，并且支持进一步开展智能分析。

RealDubbing

RealDubbing 是一款完全免费的在线文本转语音（TTS）服务，它通过先进的AI技术，帮助用户轻松将文字转换为自然、高质量的语音。

lmsysorg

LMSYS Org是一个专注于大规模人工智能模型研究与开放协作的非营利组织，提供了丰富的资源、工具和社区服务，旨在促进学术界与工业界的合作，降低大模型技术的使用门槛。

AniPortrait

AniPortrait 是腾讯游戏智迹团队开发的一款创新的音频驱动肖像动画生成框架，能够通过音频和参考肖像图像生成高质量的动态视频。