AI工具集

共 1935 篇网址

Veo3

Veo 3 是 Google DeepMind 推出的新一代视频生成模型，专为电影制作人、故事讲述者和创意工作者设计，将视频与音频无缝结合，开启生成式 AI 的创作新篇章。

1400

AI大模型 # Google DeepMind # Veo3 # 视频生成模型

Seedance

字节跳动开发的AI视频生成模型，模型能够根据文本或图像生成高质量的视频内容，支持多镜头切换、稳定运动轨迹和风格化控制，适用于创意内容创作、广告制作和教育演示等场景。

1240

AI大模型 # AI视频生成 # Seedance # 文本生成视频

Hallo

Hallo 是一个由复旦大学（Fudan University）开发的开源项目，专注于音频驱动的视觉合成技术，特别是用于人像动画生成。

930

AI大模型 # 人脸动画生成 # 开源视觉合成 # 音频驱动动画

MuseTalk

MuseTalk 是一个实时高质量音频驱动唇形同步模型，旨在解决高分辨率、身份一致性和准确唇形同步的面部视觉配音挑战，尤其适用于实时应用如直播视频。

1060

AI大模型 # MuseTalk # 唇形同步 # 数字人视频生成

SadTalker

SadTalker 是一个基于单张图像和音频生成说话人脸视频的模型，其核心功能是通过音频输入使静态图片中的图像动起来，并生成说话的虚拟人物。

940

AI大模型 # AI说话头像 # SadTalker # 开源数字人

F5-TTS

一款高性能文本到语音（TTS）系统，基于流匹配的非自回归生成方法，结合了扩散变换器（DiT）技术。

970

AI大模型 # F5-TTS # 扩散变换器 # 文本到语音

Seed-TTS

Seed-TTS 是由字节跳动开发的高级文本到语音（TTS）模型系列，旨在生成高质量、几乎无法与人类语音区分的语音。

980

AI大模型 # Seed-TTS # 可控TTS # 字节跳动

MiniMind

MiniMind项目旨在从零开始训练一个轻量级语言模型（LLM），并提供完整的训练、微调、推理和部署流程。

1060

AI大模型 # MiniMind # PyTorch实现 # 从零训练

Qwen-Image

Qwen-Image 是阿里通义千问团队于2025年8月5日开源的200亿参数图像生成基础模型，采用MMDiT架构，专为复杂文本渲染与高精度图像生成设计。

1320

AI大模型 # Qwen-Image # 图像生成模型 # 文本渲染

gpt-oss

gpt-oss 是 OpenAI 开发的开源模型，支持推理、代理任务和开发者使用场景。

1060

AI大模型 # gpt-oss # OpenAI # 开源大模型

Moondream

Moondream 是一个开源的轻量级视觉语言模型，由开发者 vikhyatk 推出，旨在提供高效、灵活的图像理解和文本生成能力。

1050

AI大模型 # Moondream # 开源AI # 视觉语言模型

林哥的大模型野榜

“林哥的大模型野榜”是一个专注于中国用户需求的大模型产品排行榜，旨在帮助用户更好地了解和选择适合的大模型产品。

2050

AI大模型 # AI模型评测 # 中文大模型 # 大模型排行榜

元象大模型 XChat

元象大模型XChat是一款由元象科技自主研发的高性能通用人工智能大模型，旨在降低开发门槛与推理成本，满足多任务需求。

2750

AI大模型 # 人工智能聊天助手 # 元象大模型 XChat # 大语言模型

讯飞星辰MaaS平台

讯飞星辰MaaS平台是科大讯飞推出的一款一站式大模型定制精调平台，旨在为开发者和企业用户提供低门槛、全栈式的大模型应用开发服务。

5140

AI大模型 # 大模型精调 # 无代码AI开发 # 讯飞星辰MaaS平台

达医智影

达医智影是阿里巴巴达摩院医疗AI实验室研发的一款创新性AI医疗工具，专注于CT智能读片和癌症筛查领域。

2790

AI大模型 # AI医学影像 # 多癌早筛 # 达医智影

53AI

53AI企业大模型应用平台是大中型企业广泛采用大模型落地应用平台，系统实现对全部主流大模型的统一纳管，包括DeepSeeK、OpenAI、Azure OpenAI、文心一言、讯飞星火、零一、LlaMa等。

3380

AI大模型 # 53AI # 企业智能化 # 大模型应用平台

FaceChain

FaceChain 是一个基于深度学习技术的个性化数字形象生成工具，利用生成对抗网络（GANs）和 Stable Diffusion 模型，通过少量照片生成高度个性化的数字形象。

2550

AI大模型 # AI人像生成 # FaceChain # 开源数字人

Whisper

Whisper 是 OpenAI 开发的一款强大的语音识别模型，具有多语言支持、语音翻译和语言识别等多功能能力。

7770

AI大模型 # Whisper # 开源ASR # 语音识别

DDColor

DDColor 是一种由阿里巴巴达摩院研发的先进图像上色技术，旨在通过深度学习技术将黑白或灰度图像转换为逼真且生动的彩色图像。

2800

AI大模型 # DDColor # 图像上色 # 深度学习

LivePortrait

LivePortrait是一款由快手科技与中国科学技术大学、复旦大学共同研发的AI驱动肖像动画工具，旨在将静态肖像图像转化为逼真的动态视频。

3490

AI大模型 # AI肖像动画 # LivePortrait # 静态图像转视频

EchoMimic

EchoMimic 是蚂蚁集团开发的一款基于音频驱动的肖像动画生成工具，旨在通过音频和面部标志点生成逼真的动态视频。

4240

AI大模型 # EchoMimic # 开源AI工具 # 数字人生成

CosyVoice

CosyVoice是一款由阿里巴巴通义实验室开发并开源的多语言语音生成模型，专注于自然语音生成、音色克隆和情感控制。

760

AI大模型 # CosyVoice # 语音合成 # 音色克隆

AnchorCrafter

AnchorCrafter 是由中国科学院与腾讯联合推出的一项创新技术，旨在通过人工智能生成高保真度的产品推广视频。

3700

AI大模型 # AI虚拟主播 # AnchorCrafter # 人-物交互视频生成

Goku

Goku视频生成模型是由中国香港大学与字节跳动联合推出的一款AI视频生成工具，能够实现文本到视频、图像到视频以及文本到图像等多种生成方式。

9820

AI大模型 # Goku # 多模态生成 # 视频生成模型

TryOnDiffusion

谷歌推出的一款基于扩散模型的虚拟试衣技术，旨在为用户提供高质量、逼真的试衣体验

2180

AI大模型 # AI 时尚 # TryOnDiffusion # 图像生成

中国大模型列表

全面收集有明确来源的大模型情况

2660

AI大模型 # 中国大模型列表 # 大模型 # 开源AI

1 … 9 10 11 12 13 … 71