AI工具集

共 1935 篇网址

MultiTalk

MultiTalk 是一个音频驱动的多人物对话视频生成系统，支持多人对话、互动控制、卡通角色生成、唱歌等。

930

项目框架 # MultiTalk # 多人物对话视频 # 音频驱动视频生成

Edge-TTS

Edge-TTS 是一个基于微软 Azure 文本转语音（TTS）功能的 Python 库，旨在为开发者提供简单、高效、免费的文本转语音解决方案。

1020

项目框架 # Edge-TTS # 开源TTS工具 # 文本转语音

GPT-SoVITS

GPT-SoVITS 是一款创新的开源声音克隆工具，它将 GPT 模型与 SoVITS 技术相结合，能够在样本数据极少的情况下，实现高质量的语音克隆和文本到语音转换（TTS）。

940

项目框架 # GPT-SoVITS # 语音合成 # 语音转换

Fish Speech

Fish Speech 是一个由 Fish Audio 团队开发的文本转语音（TTS）技术，旨在利用先进的机器学习和深度学习技术将文字转换为自然流畅的语音输出。

2330

项目框架 # Fish Speech # 开源TTS # 文本转语音

PaddleSpeech

百度飞桨（PaddlePaddle）平台上的一个开源语音处理工具包，旨在为语音识别、语音合成、语音翻译、语音识别、语音分类、语音标点恢复、语音情感分析等任务提供全面的解决方案。

930

项目框架 # PaddleSpeech # 文本转语音 # 语音识别

Xinference

Xinference 是一个功能强大且功能全面的分布式推理框架，旨在简化大语言模型（LLM）、语音识别、多模态模型等多种AI模型的推理任务。

980

项目框架 # AI模型部署 # Xinference # 开源推理框架

DroidRun

DroidRun 是一个开源框架，旨在通过自然语言命令控制 Android 设备，实现移动设备的自动化操作。

940

项目框架 # Android自动化 # DroidRun # LLM代理

browser-use

Browser Use 是一款专为大语言模型设计的智能浏览器工具。它是将 AI 智能体与浏览器连接起来的最简单方式，通过提供强大且简单的浏览器自动化接口，让 AI 智能体能够访问各类网站。

960

项目框架 # browser-use # 大语言模型 # 浏览器自动化

olmOCR

olmOCR是一个用于将PDF、图像等基于图像的文档转换为可读、纯文本格式的工具。

1060

项目框架 # OCR工具 # OLMOCR # 文档转文本

AgenticSeek

一个完全本地运行的 AI 助手，旨在替代传统云端 AI 服务，提供多种功能，包括智能网页浏览、代码编写、任务规划、语音交互等，支持多种编程语言和多语言支持。

930

项目框架 # AgenticSeek # 代码生成 # 智能代理

MCP Feedback Enhanced

MCP Feedback Enhanced 是一个基于 Model Context Protocol（MCP）的反馈驱动开发工具，旨在通过用户确认而非推测操作，优化AI交互流程，提升开发效率。

920

项目框架 # AI反馈工具 # MCP Feedback Enhanced # Model Context Protocol

awesome-llm-apps

awesome-llm-apps 是一个开源项目集合，旨在展示如何利用先进语言模型（如 RAG 和 AI 代理）构建实用应用程序。

840

项目框架 # AI代理 # LLM应用 # 检索增强生成

Gemini CLI

Gemini CLI 是一个开源的 AI 代理工具，由 Google 开发，旨在将 Gemini 模型的强大功能直接集成到开发者的终端中。

890

项目框架 # Gemini CLI # 命令行AI工具 # 开发者终端助手

小智 AI 聊天机器人

小智 AI 聊天机器人是一款基于开源硬件和开源软件的智能对话设备，旨在帮助用户入门 AI 硬件开发和 AI 模型应用。

1520

项目框架 # AI 语音交互 # 小智 AI 聊天机器人 # 开源硬件

WeKnora

WeKnora是一款基于大语言模型的文档理解与语义检索框架，专为结构复杂、内容异构的文档场景而打造。

830

项目框架 # WeKnora # 文档理解 # 语义检索

coze-studio

Coze Studio 是由字节跳动开发并开源的一站式 AI Agent 开发工具，旨在为开发者提供从开发到部署的全方位支持，帮助他们快速构建和调试智能体、应用和工作流。

1070

项目框架 # AI Agent开发 # coze-studio # 低代码平台

PoloAPI

PoloAPI 是一个专注于大模型 API 聚合服务的平台，旨在帮助开发者和企业快速接入和使用多种 AI 模型，如 Claude、OpenAI、Gemini 等。

2800

项目框架 # AI模型调用 # PoloAPI # 大模型API聚合

EmotiVoice易魔声

EmotiVoice是一个强大的开源TTS引擎，完全免费，支持中英文双语，包含2000多种不同的音色，以及特色的情感合成功能，支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。

1,1090

项目框架 # EmotiVoice # 开源TTS # 情感语音合成

MotionAgent

MotionAgent是一个能将用户创造的剧本生成视频的深度学习模型工具。用户通过我们提供的工具组合，进行剧本创作、剧照生成、图片/视频生成、背景音乐谱写等工作。

1720

项目框架 # AI视频生成 # MotionAgent # 开源创意工具

DreamTalk

DreamTalk是一个基于扩散模型的音频驱动表达性头部生成框架，核心功能是将静态人物照片转化为逼真、富有表现力的说话视频。

1370

项目框架 # DreamTalk # 开源AI项目 # 扩散模型

AniPortrait

AniPortrait 是腾讯游戏智迹团队开发的一款创新的音频驱动肖像动画生成框架，能够通过音频和参考肖像图像生成高质量的动态视频。

1390

项目框架 # AI动画生成 # AniPortrait # 音频驱动肖像动画

IDM-VTON

IDM-VTON是一款基于深度学习和扩散模型的虚拟试衣技术，旨在通过高保真度的图像生成实现逼真的虚拟试穿效果。

2320

项目框架 # AI试衣 # IDM-VTON # 虚拟试穿

Diffutoon

Diffutoon 是一种基于扩散模型的高分辨率可编辑卡通着色技术，其核心功能是将真实视频转换为动漫风格，同时保持内容的一致性和高质量。

2680

项目框架 # Diffutoon # 动漫风格渲染 # 视频转绘技术

MindSearch

MindSearch是一款由上海人工智能实验室联合研发的开源AI搜索引擎框架，旨在通过模仿人类的思维过程，高效地处理复杂信息搜集与整合任务。

2020

项目框架 # AI搜索引擎 # MindSearch # 多智能体框架

Midscene.js

Midscene.js 是一个基于人工智能（AI）技术的自动化 SDK，旨在简化用户界面（UI）自动化测试流程，提高测试效率和准确性。

1820

项目框架 # UI自动化测试 # 多模态大模型 # 自然语言交互

AstrBo

易于上手的多平台聊天机器人及开发框架。松耦合 / 异步 / 多消息平台部署 / 易用的插件系统 / 完善的大语言模型（LLM）接入

2310

项目框架 # AstrBo # 大语言模型集成 # 聊天机器人框架

1 2 3 4 5 … 71