从数据表到图表分析,这个实用的图表推荐框架令你如虎添翼
ccwgpt 2024-11-20 13:17 37 浏览 0 评论
编辑:陈萍
面对数据表时,很多人通常不清楚应该创建什么样的图表分析。在这种场景中,你需要一个智能助手,可以帮你更好的生成图表分析。
为多维数据集创建图表(表格)是销售、人力资源、投资、工程、科研、教育等许多领域的常见应用。为了执行常规分析和发现见解,人们花费大量时间构建不同类型的图表来展示不同的观点。这个过程通常需要数据分析方面的专业知识和广泛的知识储备来创建适当的图表。
有没有可能通过智能的方式来创建图表呢?近日,由微软研究院、北京大学和清华大学共同发表了一篇论文,文中提出的新型图表推荐框架 Table2Charts 可以高效地解决创建图表问题。
论文地址:https://arxiv.org/pdf/2008.11015.pdf
人们通常会创建不同类型的图表来研究多维数据集。但是,要构建一个能够推荐常用组成图表的智能助手,通常面临着多方言统一、数据不平衡和开放词汇这些根本性问题。
因此,该论文提出了 Table2Charts 框架,该框架可以从大量的(表,图表)对语料库中学习通用模式。此外,基于具有复制机制和启发式搜索的深度 Q-learning,Table2Charts 可进行表到序列的生成,其中每个序列都遵循图表模板。
在具有 196000 个表和 306000 个图表的大型电子表格语料库中,该研究展示了 Table2Charts 可以学习表字段的共享表示,这样不同图表类型的任务就可以相互增强。
该论文的主要贡献如下:
该论文提出了 Table2Charts 框架,该框架可以构建图表合成助手。它能够学习共享表的表示形式,以便在所有图表类型的推荐任务中获得更好的性能和效率,这是通过在图表类型之间的统一操作空间上定义图表模板来实现的;
对于涉及从表中选择数据字段以填充模板的结构化预测问题(生成分析操作序列),该论文设计了具有复制机制的深度 Q 值网络(Deep Q-value Network, DQN)。DQN 的编码器部分学习表表示,而解码器部分学习序列生成;
首次构建并大规模评估能够从人类智慧中学习的端到端图表推荐系统。
方法
在 Table2Charts 中,该论文设计了一种编码器 - 解码器 DQN 结构,它所具有的复制机制可用来填充图表模板。由于模板规则生成序列的曝光偏差较大,因此研究者在进行集束搜索时采用搜索采样技术进行训练。
此外,为了解决数据不平衡问题并相互提高不同图表类型之间的性能,研究者将主要的图表类型混合在一起进行训练以获得混合模型。
混合编码器部分是共享表表示形式,它将被传输到每个单一类型任务以进行解码器调整。混合编码器 - 解码器也可直接用于多类型任务。
DQN 的模型架构如下图 3 所示:
混合训练和迁移学习
该论文设计的 DQN 具有编码器 - 解码器框架,其中编码器计算表字段的表示嵌入,而解码器使用给定的表示进行序列生成。基本思想为:表表示编码器应该在一个多类型和六个单类型任务之间共享,以暴露于不同且丰富的表字段样本,并减少部署任务模型的内存占用和推理时间。
为了学习共享表表示编码器并获取特定任务的解码器,该论文提出了一个混合与迁移范式,该范式包含以下两个阶段:
混合训练:将所有主要图表类型混合在一起并训练一个 DQN 模型。混合编码器将被迁移至下一阶段,而整个混合 DQN 将用于多类型推荐任务;
迁移学习:从上一阶段获取混合编码器,并冻结其参数。然后,对于每个单一类型的任务,共享编码器仅用图表类型的数据训练新的解码器部分。
在单独训练(Lone Training)中,只使用图表类型的数据为每个单一类型的任务训练整个 DQN。与之相比,Table2Charts 中的混合迁移范式具有以下两个优点:
更好的内存占用和推理速度,因为现在所有任务的 DQN 模型共享一个相同的表表示编码器,而单独训练仍然需要为每个任务保留表表示编码器,并导致更多的编码器计算;
编码器暴露的样本远远超过每种图表类型所能提供的样本。这不仅可以更好地学习和泛化表的表示形式,而且还解决了数据不平衡的问题,因此仅解码器部分(与较大的编码器部分相比较小)需要针对较小的图表类型进行调整。
实验
图表语料库
本研究中的图表语料库包含 39139 个(12.8%)线状、93614 个(30.5%)条状、149747 个(48.8%)Series、20921(6.8%)个饼图、2237(0.7%)个区域和 1244(0.4%)个雷达图。
在过滤掉重复表、超大表(>128 个字段)、空图表(未选择字段)和过于复杂的图表(y 轴字段数 > 4 个)并对每个表模式的表(由表的字段名和字段类型组成)进行下采样后,306902 个图表中保留 196255 个,共有 131119 个不同的表模式。这些模式(及其表和图表)按 7:1:2 的比例分配给训练、验证和测试。
对单一类型推荐任务的评估
评价结果如表 1 所示。混合和迁移范式(Transfer)通常比单独训练 (Lone) 和仅混合模式(Mixed) 效果更好。特别地,Transfer 的评价标准 R@1 超过了其他两种方法。
在较小的图表类型上,增强效果清晰可见,召回率提升了约 12%。数据不平衡的问题得到了解决,因为较小图表类型的有限数据仅用于训练小的解码器部分,而无需担心编码器部分。
探索表表示
该实验从验证集中随机选择 3039 个表(包含 20000 个字段),通过 t-SNE 进行可视化,用来理解共享表表示编码器生成的嵌入如何工作。
在下图 4a 中,每个点代表一个字段,颜色代表其字段类型。在图中,我们可以清楚地看到通过嵌入学得的字段类型信息。例如,日期时间字段和年份字段很接近。一种可能的解释是,它们都经常在序列图中用作 x 轴,因此具有相似的表示形式。
相关推荐
- 详解DNFSB2毒王的各种改动以及大概的加点框架
-
首先附上改动部分,然后逐项分析第一个,毒攻掌握技能意思是力量智力差距超过15%的话差距会被强行缩小到15%,差距不到15%则无效。举例:2000力量,1650智力,2000*0.85=1700,则智力...
- 通篇干货!纵观 PolarDB-X 并行计算框架
-
作者:玄弟七锋PolarDB-X面向HTAP的混合执行器一文详细说明了PolarDB-X执行器设计的初衷,其初衷一直是致力于为PolarDB-X注入并行计算的能力,兼顾TP和AP场景,逐渐...
- 字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强
-
梦晨发自凹非寺量子位|公众号QbitAI字节最新深度思考模型,在数学、代码等多项推理任务中超过DeepSeek-R1了?而且参数规模更小。同样是MoE架构,字节新模型Seed-Thinkin...
- 阿里智能化研发起飞!RTP-LLM 实现 Cursor AI 1000 token/s 推理技术揭秘
-
作者|赵骁勇阿里巴巴智能引擎事业部审校|刘侃,KittyRTP-LLM是阿里巴巴大模型预测团队开发的高性能LLM推理加速引擎。它在阿里巴巴集团内广泛应用,支撑着淘宝、天猫、高德、饿...
- 多功能高校校园小程序/校园生活娱乐社交管理小程序/校园系统源码
-
校园系统通常是为学校、学生和教职工提供便捷的数字化管理工具。综合性社交大学校园小程序源码:同城校园小程序-大学校园圈子创业分享,校园趣事,同校跑腿交友综合性论坛。小程序系统基于TP6+Uni-app...
- 婚恋交友系统nuiAPP前端解决上传视频模糊的问题
-
婚恋交友系统-打造您的专属婚恋交友平台系统基于TP6+Uni-app框架开发;客户移动端采用uni-app开发,管理后台TH6开发支持微信公众号端、微信小程序端、H5端、PC端多端账号同步,可快速打包...
- 已节省数百万GPU小时!字节再砍MoE训练成本,核心代码全开源
-
COMET团队投稿量子位|公众号QbitAI字节对MoE模型训练成本再砍一刀,成本可节省40%!刚刚,豆包大模型团队在GitHub上开源了叫做COMET的MoE优化技术。COMET已应用于字节...
- 通用电气完成XA102发动机详细设计审查 将为第六代战斗机提供动力
-
2025年2月19日,美国通用电气航空航天公司(隶属于通用电气公司)宣布,已经完成了“下一代自适应推进系统”(NGAP)计划下提供的XA102自适应变循环发动机的详细设计审查阶段。XA102是通用电气...
- tpxm-19双相钢材质(双相钢f60材质)
-
TPXM-19双相钢是一种特殊的钢材,其独特的化学成分、机械性能以及广泛的应用场景使其在各行业中占有独特的地位。以下是对TPXM-19双相钢的详细介绍。**化学成分**TPXM-19双相钢的主要化学成...
- thinkphp6里怎么给layui数据表格输送数据接口
-
layui官网已经下架了,但是产品还是可以使用。今天一个朋友问我怎么给layui数据表格发送数据接口,当然他是学前端的,后端不怎么懂,自学了tp框架问我怎么调用。其实官方文档上就有相应的数据格式,js...
- 完美可用的全媒体广告精准营销服务平台PHP源码
-
今天测试了一套php开发的企业网站展示平台,还是非常不错的,下面来给大家说一下这套系统。1、系统架构这是一套基于ThinkPHP框架开发的HTML5响应式全媒体广告精准营销服务平台PHP源码。现在基于...
- 一对一源码开发,九大方面完善基础架构
-
以往的直播大多数都是一对多进行直播社交,弊端在于不能满足到每个用户的需求,会降低软件的体验感。伴随着用户需求量的增加,一对一直播源码开始出现。一个完整的一对一直播流程即主播发起直播→观看进入房间观看→...
- Int J Biol Macromol .|交联酶聚集体在分级共价有机骨架上的固定化:用于卤代醇不对称合成的高稳定酶纳米反应器
-
大家好,今天推送的文章发表在InternationalJournalofBiologicalMacromolecules上的“Immobilizationofcross-linkeden...
- 【推荐】一款开源免费的 ChatGPT 聊天管理系统,支持PC、H5等多端
-
如果您对源码&技术感兴趣,请点赞+收藏+转发+关注,大家的支持是我分享最大的动力!!!项目介绍GPTCMS是一款开源且免费(基于GPL-3.0协议开源)的ChatGPT聊天管理系统,它基于先进的GPT...
- 高性能计算(HPC)分布式训练:训练框架、混合精度、计算图优化
-
在深度学习模型愈发庞大的今天,分布式训练、高效计算和资源优化已成为AI开发者的必修课。本文将从数据并行vs模型并行、主流训练框架(如PyTorchDDP、DeepSpeed)、混合精度训练(...
你 发表评论:
欢迎- 一周热门
- 最近发表
-
- 详解DNFSB2毒王的各种改动以及大概的加点框架
- 通篇干货!纵观 PolarDB-X 并行计算框架
- 字节新推理模型逆袭DeepSeek,200B参数战胜671B,豆包史诗级加强
- 阿里智能化研发起飞!RTP-LLM 实现 Cursor AI 1000 token/s 推理技术揭秘
- 多功能高校校园小程序/校园生活娱乐社交管理小程序/校园系统源码
- 婚恋交友系统nuiAPP前端解决上传视频模糊的问题
- 已节省数百万GPU小时!字节再砍MoE训练成本,核心代码全开源
- 通用电气完成XA102发动机详细设计审查 将为第六代战斗机提供动力
- tpxm-19双相钢材质(双相钢f60材质)
- thinkphp6里怎么给layui数据表格输送数据接口
- 标签列表
-
- MVC框架 (46)
- spring框架 (46)
- 框架图 (58)
- bootstrap框架 (43)
- flask框架 (53)
- quartz框架 (51)
- abp框架 (47)
- jpa框架 (47)
- laravel框架 (46)
- express框架 (43)
- springmvc框架 (49)
- 分布式事务框架 (65)
- scrapy框架 (52)
- java框架spring (43)
- grpc框架 (55)
- orm框架有哪些 (43)
- ppt框架 (48)
- 内联框架 (52)
- winform框架 (46)
- gui框架 (44)
- cad怎么画框架 (58)
- ps怎么画框架 (47)
- ssm框架实现登录注册 (49)
- oracle字符串长度 (48)
- oracle提交事务 (47)