sql-llm-benchmark

专注于语言模型（LLM）SQL 能力评测的专业平台，构建了全面且具实践价值的 SQL 能力排行榜（SCALE），为开发者、数据库管理员及企业技术决策者提供关键参考

收录时间：

2024-12-21

打开网站手机查看

AI大模型 # LLM数据库优化 # MCP裁判模型 # sql-llm-benchmark # SQL方言转换 # 大语言模型SQL能力评测

sql-llm-benchmark

sql-llm-benchmark

sql-llm-benchmark 是一个专注于评估大语言模型（LLM）在 SQL 相关任务中表现的开源测评框架，同时提供公开的排行榜与详细分析报告。该平台围绕 SQL 理解、方言转换和 SQL 优化三大核心能力，构建了一套结构化、可复现的评测体系，适用于数据库工具开发、模型选型及技术研究等场景。

sql-llm-benchmark官网入口网址：https://sql-llm-leaderboard.com

sql-llm-benchmark插图

系统采用模块化设计，支持灵活接入多种大语言模型作为被测对象或裁判模型，并允许用户自定义测试数据集以适配特定需求。为提升评估准确性，裁判机制集成了 MCP（Model Context Protocol）网络搜索功能，使其能够在判断过程中实时参考数据库官方文档与行业最佳实践。

主要功能特点

多维度能力评估：覆盖 SQL 语义理解、跨数据库方言迁移（如 MySQL 到 PostgreSQL）、以及查询性能优化等关键任务。
增强型裁判机制：通过 MCP 协议引入外部知识检索，减少主观误判，提高评分客观性。
自动化报告生成：每次评测自动生成包含总分、分项得分、具体用例响应及交互日志的完整报告。
可视化结果展示：前端界面清晰呈现各模型在排行榜中的位置，并支持深入查看单项测试细节。
高扩展性架构：便于集成新的 LLM 接口、新增测试用例或扩展至其他数据库方言场景。

该平台由 ActionTech 团队发起并维护，已在 GitHub 开源。其评测结果可为数据库工程师、AI 应用开发者及技术决策者提供可靠的模型能力参考，助力在实际业务中选择适合的 LLM 解决方案。千流导航收录此项目，供关注数据库与大模型融合应用的专业用户查阅使用。

相关导航

眸思大模型

一款多模态大模型，旨在通过视觉和语言的深度融合，提升视障人士的生活便利性

Seed-TTS

Seed-TTS 是由字节跳动开发的高级文本到语音（TTS）模型系列，旨在生成高质量、几乎无法与人类语音区分的语音。

Hallo

Hallo 是一个由复旦大学（Fudan University）开发的开源项目，专注于音频驱动的视觉合成技术，特别是用于人像动画生成。

通义千问

阿里云自主研发的大语言模型

FaceChain

FaceChain 是一个基于深度学习技术的个性化数字形象生成工具，利用生成对抗网络（GANs）和 Stable Diffusion 模型，通过少量照片生成高度个性化的数字形象。

Qwen-Image

Qwen-Image 是阿里通义千问团队于2025年8月5日开源的200亿参数图像生成基础模型，采用MMDiT架构，专为复杂文本渲染与高精度图像生成设计。

Cephalon Cloud 端脑云

AIGC 应用平台

CosyVoice

CosyVoice是一款由阿里巴巴通义实验室开发并开源的多语言语音生成模型，专注于自然语音生成、音色克隆和情感控制。