MultiTalk MultiTalk 是一个音频驱动的多人物对话视频生成系统,支持多人对话、互动控制、卡通角色生成、唱歌等。 430 项目框架# MultiTalk# 多人物对话视频# 音频驱动视频生成
Edge-TTS Edge-TTS 是一个基于微软 Azure 文本转语音(TTS)功能的 Python 库,旨在为开发者提供简单、高效、免费的文本转语音解决方案。 340 项目框架# Edge-TTS# 开源TTS工具# 文本转语音
GPT-SoVITS GPT-SoVITS 是一款创新的开源声音克隆工具,它将 GPT 模型与 SoVITS 技术相结合,能够在样本数据极少的情况下,实现高质量的语音克隆和文本到语音转换(TTS)。 400 项目框架# GPT-SoVITS# 语音合成# 语音转换
Fish Speech Fish Speech 是一个由 Fish Audio 团队开发的文本转语音(TTS)技术,旨在利用先进的机器学习和深度学习技术将文字转换为自然流畅的语音输出。 1150 项目框架# Fish Speech# 开源TTS# 文本转语音
PaddleSpeech 百度飞桨(PaddlePaddle)平台上的一个开源语音处理工具包,旨在为语音识别、语音合成、语音翻译、语音识别、语音分类、语音标点恢复、语音情感分析等任务提供全面的解决方案。 410 项目框架# PaddleSpeech# 文本转语音# 语音识别
Xinference Xinference 是一个功能强大且功能全面的分布式推理框架,旨在简化大语言模型(LLM)、语音识别、多模态模型等多种AI模型的推理任务。 460 项目框架# AI模型部署# Xinference# 开源推理框架
DroidRun DroidRun 是一个开源框架,旨在通过自然语言命令控制 Android 设备,实现移动设备的自动化操作。 430 项目框架# Android自动化# DroidRun# LLM代理
browser-use Browser Use 是一款专为大语言模型设计的智能浏览器工具。它是将 AI 智能体与浏览器连接起来的最简单方式,通过提供强大且简单的浏览器自动化接口,让 AI 智能体能够访问各类网站。 400 项目框架# browser-use# 大语言模型# 浏览器自动化
AgenticSeek 一个完全本地运行的 AI 助手,旨在替代传统云端 AI 服务,提供多种功能,包括智能网页浏览、代码编写、任务规划、语音交互等,支持多种编程语言和多语言支持。 400 项目框架# AgenticSeek# 代码生成# 智能代理
MCP Feedback Enhanced MCP Feedback Enhanced 是一个基于 Model Context Protocol(MCP)的反馈驱动开发工具,旨在通过用户确认而非推测操作,优化AI交互流程,提升开发效率。 440 项目框架# AI反馈工具# MCP Feedback Enhanced# Model Context Protocol
awesome-llm-apps awesome-llm-apps 是一个开源项目集合,旨在展示如何利用先进语言模型(如 RAG 和 AI 代理)构建实用应用程序。 330 项目框架# AI代理# LLM应用# 检索增强生成
Gemini CLI Gemini CLI 是一个开源的 AI 代理工具,由 Google 开发,旨在将 Gemini 模型的强大功能直接集成到开发者的终端中 。 390 项目框架# Gemini CLI# 命令行AI工具# 开发者终端助手
小智 AI 聊天机器人 小智 AI 聊天机器人是一款基于开源硬件和开源软件的智能对话设备,旨在帮助用户入门 AI 硬件开发和 AI 模型应用。 1000 项目框架# AI 语音交互# 小智 AI 聊天机器人# 开源硬件
coze-studio Coze Studio 是由字节跳动开发并开源的一站式 AI Agent 开发工具,旨在为开发者提供从开发到部署的全方位支持,帮助他们快速构建和调试智能体、应用和工作流 。 470 项目框架# AI Agent开发# coze-studio# 低代码平台
PoloAPI PoloAPI 是一个专注于大模型 API 聚合服务的平台,旨在帮助开发者和企业快速接入和使用多种 AI 模型,如 Claude、OpenAI、Gemini 等。 2190 项目框架# AI模型调用# PoloAPI# 大模型API聚合
EmotiVoice易魔声 EmotiVoice是一个强大的开源TTS引擎,完全免费,支持中英文双语,包含2000多种不同的音色,以及特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。 9030 项目框架# EmotiVoice# 开源TTS# 情感语音合成
MotionAgent MotionAgent是一个能将用户创造的剧本生成视频的深度学习模型工具。用户通过我们提供的工具组合,进行剧本创作、剧照生成、图片/视频生成、背景音乐谱写等工作。 1200 项目框架# AI视频生成# MotionAgent# 开源创意工具
DreamTalk DreamTalk是一个基于扩散模型的音频驱动表达性头部生成框架,核心功能是将静态人物照片转化为逼真、富有表现力的说话视频。 840 项目框架# DreamTalk# 开源AI项目# 扩散模型
AniPortrait AniPortrait 是腾讯游戏智迹团队开发的一款创新的音频驱动肖像动画生成框架,能够通过音频和参考肖像图像生成高质量的动态视频。 910 项目框架# AI动画生成# AniPortrait# 音频驱动肖像动画
Diffutoon Diffutoon 是一种基于扩散模型的高分辨率可编辑卡通着色技术,其核心功能是将真实视频转换为动漫风格,同时保持内容的一致性和高质量。 2180 项目框架# Diffutoon# 动漫风格渲染# 视频转绘技术
MindSearch MindSearch是一款由上海人工智能实验室联合研发的开源AI搜索引擎框架,旨在通过模仿人类的思维过程,高效地处理复杂信息搜集与整合任务。 1510 项目框架# AI搜索引擎# MindSearch# 多智能体框架
Midscene.js Midscene.js 是一个基于人工智能(AI)技术的自动化 SDK,旨在简化用户界面(UI)自动化测试流程,提高测试效率和准确性。 90 项目框架# UI自动化测试# 多模态大模型# 自然语言交互
AstrBo 易于上手的多平台聊天机器人及开发框架。松耦合 / 异步 / 多消息平台部署 / 易用的插件系统 / 完善的大语言模型(LLM)接入 1790 项目框架# AstrBo# 大语言模型集成# 聊天机器人框架