谷歌AI推出CardBench评估框架(谷歌评分卡)
ccwgpt 2024-09-13 16:00 43 浏览 0 评论
IT之家 9 月 3 日消息,谷歌 AI 研究人员最新推出了 CardBench 基准,主要为学习型基数估计(cardinality estimation)满足系统评估框架需求。
CardBench 基准是个综合评估框架,包含 20 个不同真实数据库中的数千次查询,大大超过了以往的任何基准。
项目背景
基数估计(cardinality estimation,简称 CE)是优化关系数据库查询性能的关键,涉及预测数据库查询将返回的中间结果数量,直接影响查询优化器对执行计划的选择。
对于选择高效的连接顺序、决定是否使用索引以及选择最佳连接方法来说,准确的卡入度估计至关重要。
这些决策会对查询执行时间和数据库整体性能产生重大影响。不准确的估计会导致糟糕的执行计划,从而大大降低性能,有时甚至会降低几个数量级。
现代数据库系统中广泛使用的基数估计技术,依赖于启发式(Heuristic)方法和简化模型,例如假设数据统一和列独立。
这些方法虽然计算效率高,但往往需要准确预测基数,在涉及多个表和过滤器的复杂查询中表现尤为明显。
最新的数据驱动方法试图在不执行查询的情况下,对表内和表间的数据分布进行建模,从而减少了一些开销,但在数据发生变化时仍需要重新训练。
尽管取得了这些进步,但由于缺乏全面的基准,因此很难对不同的模型进行比较,也很难评估它们在不同数据集上的通用性。
CardBench
CardBench 能在各种条件下对学习到的基数模型进行更全面的评估。该基准支持三种关键设置:
基于实例的模型,即在单个数据集上进行训练;
零点模型,即在多个数据集上进行预训练,然后在一个未见数据集上进行测试;
微调模型,即进行预训练,然后使用目标数据集的少量数据进行微调。
该基准测试提供两组训练数据:一组用于具有多个筛选条件谓词的单个表查询,另一组用于涉及两个表的二进制联接查询。
该基准测试包括 9125 个单表查询和 8454 个二进制连接查询,适用于其中一个较小的数据集,从而确保为模型评估提供强大且具有挑战性的环境。
例如,微调图神经网络(GNN)模型在二进制连接查询中的 q-error 中位数为 1.32,第 95 百分位数为 120,明显优于零点模型。结果表明,即使是 500 次查询,对预训练模型进行微调也能大幅提高其性能。这使它们在训练数据有限的实际应用中变得可行。
总之,CardBench 代表了在学习的基数估计方面的重大进步。研究人员可以通过提供全面、多样的基准,系统地评估和比较不同的 CE 模型,从而促进这一关键领域的进一步创新。该基准能够支持需要较少数据和训练时间的微调模型,为训练新模型成本过高的实际应用提供了切实可行的解决方案。
IT之家附上参考地址
相关推荐
- FastUI:用Python构建高性能React应用,告别JavaScript
-
在现代Web开发中,前后端分离已经成为主流趋势。然而,前端开发往往需要深入掌握JavaScript和各种框架,这对于许多Python开发者来说是一个不小的挑战。今天,我们要介绍一个革命性的UI框架——...
- Python + Flet 开发网站的最佳数据库模块组合
-
对于使用Python和Flet开发网站并需要数据库支持的应用,以下是推荐的模块组合方案。方案一:SQLite+SQLAlchemy(推荐轻量级方案)**适用场景**:中小型应用、单用户或...
- 前端程序员应该往全栈方向发展吗?还是坚守前端?
-
这是一个非常经典且重要的问题,几乎每一位走到职业生涯十字路口的前端程序员都会思考。它没有一个绝对的“正确答案”,但我们可以从多个维度来分析,帮你找到最适合你的那条路。简单来说,这不是一个“要不要”的...
- Python交互仪表盘工具:Panel 进阶学习路线图
-
Panel作为Python生态系统中最强大的交互式仪表盘工具之一,其学习曲线既平缓又深远。这里我将为您构建一个系统化的进阶学习框架,包含实战项目和关键学习节点。1.现代化Web集成开发1....
- PuePy:将Python带入浏览器的革命性框架
-
在现代网络开发中,JavaScript无疑是主导地位的编程语言。但最近,随着WebAssembly和PyScript的崛起,Python的使用场景逐渐扩展到了前端开发领域。PuePy应运而生,作为一...
- 不容易!找到一个python的超简易网站搭建神器
-
作者:清香客来源:Python技术相信很多学习python的酱友们,大部分和我一样是为了提升工作效率,但是在提升自己的工作效率时,也会想着做同样工作的同事能不能也用上自己写的脚本(视工作环境而定)...
- PyWebView:用 Python 构建桌面应用的神器
-
作为一个Python开发者,我一直希望能找到一种简便的方法来构建桌面应用,而不是去学习诸如Electron这种重度依赖JavaScript的技术栈。就在我为桌面应用开发寻找替代方案时,遇到...
- Python Django框架中级教程:深入探索Django的核心功能
-
在Python的Web开发领域中,Django框架以其强大的功能和高效的开发模式占据着重要地位。对于已经掌握了Django基础的开发者来说,进一步深入学习中级知识能让我们开发出更复杂、更强大的Web应...
- 【Python程序开发系列】使用Flask实现前后端分离(案例)
-
这是我的第398篇原创文章。一、引言随着web开发的不断发展,前后端分离已成为越来越流行的架构设计。Flask是一个轻量级的Pythonweb框架,非常适合用于构建API,然后配合前端框...
- 每天一个Python库:Flask超轻量Web框架,灵活高效!
-
为什么要学Flask?Flask是一个「微型但强大的」Web框架:极简上手,几行代码即可跑起来灵活扩展,想加啥加啥(RESTful、JWT、数据库…)文档齐全,适合入门API开发或快...
- Python个人量化投资系统:后台搭建
-
独立搞量化系统的程序员最烦啥?重复造权限管理的轮子绝对排前三。技术老手用Python+PearAdminFlask两天搭出量化后台,实测开源框架真能省下80%基础工作量。开源后台框架选对,一人项目...
- python后端学什么(python后端好找工作吗)
-
在当今数字化的时代,Python后端开发成为了众多开发者追逐的热门领域。那么,想要在这个领域崭露头角,我们究竟应该学些什么呢?学习Python后端开发需要掌握全栈技术栈,涵盖从基础语法到分布式...
- Motia:重新定义后端与智能体整合的未来平台
-
在AIagent技术飞速发展的今天,我们拥有了诸如Dify、RAGFlow、LangChain等一系列优秀平台。然而,随着场景复杂度增加,开发者正面临一个共同问题:后端越来越碎片化,Agen...
- Python数据校验不再难:Pydantic库的工程化实践指南
-
在FastAPI框架横扫Python后端开发领域的今天,其默认集成的Pydantic库正成为处理数据验证的黄金标准。这个看似简单的库究竟隐藏着哪些让开发者爱不释手的能力?本文将通过真实项目案例,带您解...
- Python Flask 建站框架实操教程(flask框架网页)
-
下面我将带您从零开始构建一个完整的Flask网站,包含用户认证、数据库操作和前端模板等核心功能。##第一部分:基础项目搭建###1.创建项目环境```bash#创建项目目录mkdirfl...
你 发表评论:
欢迎- 一周热门
- 最近发表
-
- FastUI:用Python构建高性能React应用,告别JavaScript
- Python + Flet 开发网站的最佳数据库模块组合
- 前端程序员应该往全栈方向发展吗?还是坚守前端?
- Python交互仪表盘工具:Panel 进阶学习路线图
- PuePy:将Python带入浏览器的革命性框架
- 不容易!找到一个python的超简易网站搭建神器
- PyWebView:用 Python 构建桌面应用的神器
- Python Django框架中级教程:深入探索Django的核心功能
- 【Python程序开发系列】使用Flask实现前后端分离(案例)
- 每天一个Python库:Flask超轻量Web框架,灵活高效!
- 标签列表
-
- 框架图 (58)
- flask框架 (53)
- quartz框架 (51)
- abp框架 (47)
- jpa框架 (47)
- springmvc框架 (49)
- 分布式事务框架 (65)
- scrapy框架 (56)
- shiro框架 (61)
- 定时任务框架 (56)
- java日志框架 (61)
- JAVA集合框架 (47)
- mfc框架 (52)
- abb框架断路器 (48)
- ui自动化框架 (47)
- beego框架 (52)
- java框架spring (58)
- grpc框架 (65)
- tornado框架 (48)
- 前端框架bootstrap (54)
- ppt框架 (48)
- 内联框架 (52)
- cad怎么画框架 (58)
- ssm框架实现登录注册 (49)
- oracle字符串长度 (48)