百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

从“上古卷轴”到楔形文字,AI揭开古代文献神秘面纱,或将重写历史

ccwgpt 2025-02-28 15:04 41 浏览 0 评论


导读:AI的飞跃可能会开辟我们理解古代世界的新方法。想象一下,如果ChatGPT可以在「上古卷轴」的文本洪流上接受训练,我们将有机会直接与历史对话。
2023年10月,一封电子邮件发到了Federica Nicolardi的手机上,其中有一张图片将永远改变她的研究。
这是一张纸莎草卷轴的碎片,此卷轴在公元79年维苏威(Vesuvius)火山喷发时被烧毁——也就是导致庞贝古城被埋于地下的那次灾难。
18世纪,人们在意大利庞贝城附近Herculeaneum的一座豪华罗马别墅遗迹中发现了数百件卷轴,这本烧焦的卷轴就是其中之一。
几百年来,研究者们试图剥开卷轴上脆弱的碳化层,探寻内部记录的秘密,却都没有成功,许多卷轴因此变成了碎片。
学者们只好接受这些「上古卷轴」永远无法打开的事实。
意大利那不勒斯大学(University of Naples)的纸莎草纸学家Nicolardi曾尝试使用AI来阅读这些难以辨认的内容。
现在最新结果已经发过来了,AI将文字还原为了整齐清晰的希腊字母,——这是一段过去2000年来完全无法访问的文本。
从希腊语、拉丁语、到中国的甲骨文(Oracle Bone Script),AI正在准备重塑我们看待古代世界的方式。
重建古代文本
几十年来,计算机一直被用于对数字化文本进行分类和分析,AI的加入使研究者有望处理之前无法理解的庞大档案。
于是,大量新文本得以涌现,比过去几个世纪得到的数据还要多。
在2010年代,将深度学习应用于古代文本的早期尝试是基于文本的数码照片(拍摄纸莎草纸或者棕榈叶的原件)。
这个时期最常用的网络是CNN,对图像进行光学字符识别(OCR)。
研究甲骨文的团队使用模型来还原残缺的字母图像、拼凑碎片、以及分析字符如何随着时间的推移而演变。
与此同时,RNN网络也发挥了自己处理时间序列数据的优势,被用于搜索、翻译和填补已翻译文本的空白。比如,用RNN来猜测古巴比伦文字中数百个公式化的行政和法律文本中缺失的字符。
除了加速繁琐的任务,神经网络还帮助建立了人类专家无法发现的关系。
2017年,英国牛津大学开展了第一个展示AI潜力的大型项目:破译来自西西里岛的希腊铭文。
这些古文字读起来非常复杂,保存得也很糟糕,有一部分缺失还混合了方言,研究者不确定铭文的具体归属地以及日期。
过去的研究人员一般利用自己对类似现有文本的了解来解释新的资料,他们通常是特定时间和地点作品的专家。
但一个人不可能掌握与新文本相关的所有信息,于是AI登场了。
研究人员在公元前7世纪至公元5世纪之间写成的数万个希腊铭文上训练了一个RNN模型:Pythia。然后要求模型文本在它以前从未见过的文本上,预测缺失的单词或字符。
2022年,他们又使用流行的Transformer训练了一个名为Ithaca的模型,在之前的基础上加入了预测未知文本的日期和起源地点的能力。
Transformer通过并行分析输入的不同特征(字符或单词)来捕获比RNN更复杂的语言模式,并根据上下文对其进行加权。
最终,Ithaca以62%的准确率恢复了古代文本中人工产生的空白,相比之下人类专家的准确率为25%。而Ithaca和专家合作时,预测准确率达到了72%。
此外,Ithaca还以71%的准确率确定了铭文的地理来源,且日期预测也与公认的时间接近。
创建者将Ithaca免费开源后,每周都会收到几百次的访问。迄今为止,Ithaca做出贡献的例子包括重新确定雅典政治法令的日期,以及对公元前4世纪泥板的调查等等。
海量档案
关于古代文献,另一个截然不同的挑战则是数据量。
比如研究人员在处理的世界上最大的历史档案之一:包含数十万篇文章,涵盖27位韩国国王的统治时间(14世纪至20世纪初)。
这些记录是完整的,来源也是已知的,但几乎没有人能读懂,因为它们是用古汉字书写的,不同于现代汉字或韩文。
一个由政府翻译组成的小团队,正在努力手动将这些文本翻译成现代韩语,但这项任务可能需要几十年才能完成。
来自纽约大学(New York University)的首席机器翻译研究员 Kyunghyun Cho与同事合作,训练了一个基于Transformer的网络来自动翻译这些记录。
由于目前还没有足够的类似数据来训练这样的模型,因此团队采取了多语言方法。专家认为AI的翻译(对国事访问、惩罚叛徒和音乐会等事件的描述)比古代的翻译更准确、更易读,在某些情况下甚至比现代翻译更好。
另一方面,研究人员正在使用神经网络来处理只有少量文本幸存下来的古代语言。
训练Transformer一般需要大量的数据,不适用于这种情况,研究者于是回归以前的模型。
例如,希腊Patras大学的Katerina Papavassileiou和同事使用RNN从克里特岛克诺索斯(Knossos, Crete)的1,100块迈锡尼泥板(Mycenaean tablets)中恢复了缺失的文本,包含公元前两千年书写的羊群记录(Linear B)。
在人工测试中,模型的前十个预测准确率达到了72%,而在实际应用中,其性能通常能跟人类专家打平。
为了进一步改进结果,Papavassileiou希望添加视觉数据(如不完整字母的痕迹),而不仅仅是依赖音译文本。她还在研究「迁移学习」,将模型从一个系列的泥板中学到的知识应用于其他系列的泥板。
看似不可能的任务
让我们回到最开始的例子,阅读赫库兰尼姆(Herculaneum)卷轴涉及克服两个大问题。
首先,脆弱的卷轴无法展开。为了看到它们的内部,计算机科学家 Brent Seales花了数年时间开发「虚拟展开」技术,包括对卷轴的内部结构进行高分辨率计算机断层扫描(CT),并手工绘制横截面每一帧中可见的表面,然后使用算法将表面展开成平面图像。
2015年,研究人员使用这种技术从以色列恩戈地(EnGedi)的一个烧焦、无法打开的卷轴(公元3世纪左右)中阅读完整的文本,结果证明它来自圣经的章节。
相比于EnGedi的卷轴,Herculaneum的卷轴每卷都有几百圈,而且像丝绸一样薄。为了捕获极高分辨率的CT数据,团队将几个卷轴运送到牛津附近的Diamond Light Source使用粒子加速器。
但是,EnGedi卷轴和其他后期作品的墨水往往含有铁,在CT扫描中会发出明亮的光芒,而Herculaneum的抄写员使用的是碳基墨水,在扫描中是看不见的,因为它的密度与使用的莎草纸相同。
Seales团队意识到,虽然他们无法直接看到墨水,但有可能检测到它的形状。——如果裸露的纸莎草纤维与涂有墨水的纤维相比,表面纹理存在细微差异,也许他们可以训练神经网络来捕捉这种差异。
不过对于Seales的小团队来说,这个工作量太大了,因此他们在2023年3月与硅谷企业家Nat Friedman合作发起了维苏威火山挑战赛(Vesuvius Challenge),并提供了丰厚的现金奖励。
Seales团队发布了卷轴表面的扁平图像,并要求参赛者训练神经网络来找到墨水。超过1,000个团队参加了比赛,每天都有数百人在比赛的Discord频道上讨论进度。
最终在2024年2月,计算机专业的学生Youssef Nader、Luke Farritor和Julian Schilliger 获得了700,000美元的大奖。
获胜团队使用了TimeSformer,是Transformer的一种变体,通常用于在视频数据中分别处理空间和时间维度。
对于散落在那不勒斯、巴黎、伦敦和牛津的这些「上古卷轴」,这个时代的AI将有望令其重见光明。
参考资料:
https://www.nature.com/articles/d41586-024-04161-z

相关推荐

土豪农村建个别墅不新鲜 建个车库都用框架结构?

农村建房子过去都是没车库,也没有那么多豪车,一般直接停在路边或者院子里。现在很多人都会在建房子的时候留一个车库,通过车库可以直接进入客厅,省得雨雪天气折腾。农村土豪都是有钱任性,建房子跟我们普通人不一...

自建框架结构出现裂缝怎么回事?

三层自建房梁底与墙体连接处裂缝是结构问题吗?去前帮我姑画了一份三层自建房的图纸,前天他们全部装修好了。我姑丈突然打电话给我说他发现二层的梁底与墙分离了,有裂缝。也就是图纸中前面8.3米那跨梁与墙体衔接...

钢结构三维图集-框架结构(钢柱对接)

1、实腹式钢柱对接说明1:1.上节钢柱的安装吊点设置在钢柱的上部,利用四个吊点进行吊装;2.吊装前,下节钢柱顶面和本节钢柱底面的渣土和浮锈要清除干净,保证上下节钢柱对接面接触顶紧;3.钢柱吊装到位后...

三层框架结构主体自建房设计案例!布局13*12米占地面积156平米!

绘创意设计乡村好房子设计小编今日头条带来分享一款:三层框架结构主体自建房设计案例!布局13*12米占地面积156平米!本案例设计亮点:这是一款三层新中式框架结构自建房,占地13×12米,户型占地面积...

Casemaker机箱框架结构3D图纸 STEP格式

农村自建房新宠!半框架结构凭啥这么火?内行人揭开3个扎心真相

回老家闲逛,竟发现个有意思的现象:村里盖新房,十家有八家都选了"半框架结构"。隔壁王叔家那栋刚封顶的二层小楼,外墙红砖还露着糙面没勾缝,里头的水泥柱子倒先支棱得笔直,这到底是啥讲究?蹲...

砖混结构与框架结构!究竟有何区别?千万别被坑!

农村自建房选结构,砖混省钱但出事真能保命吗?7月建材价格波动期,多地建房户因安全焦虑陷入选择困境——框架结构虽贵30%,却是地震区保命的关键。框架柱和梁组成的承重体系,受力分散得像一张网。砖混靠墙硬扛...

砖混结构与框架结构,究竟有何区别?千万别被坑!

农村建房选砖混结构还是框架结构?这个问题算是近期留言板里问得最多的问题了。今天咱们说说二者的区别,帮您选个合适的。01成本区别假如盖一栋砖混结构的房子需要30万,那么换成框架结构,一般要多掏30%的费...

6个小众却逆天的App神器,个个都是黑科技的代表

你的手机上有哪些好用的软件?今天我就给大家分享6个小众却逆天的App神器,个个都是黑科技的代表!01*Via浏览器推荐理由:体积极小的浏览器,没有任何广告。使用感受:它的体量真的很小,只有702KB,...

合肥App开发做一个app需要多少钱?制作周期有多久?

在移动互联网时代,开发一款APP已成为企业数字化转型与个人创业的重要途径。然而,APP的开发成本与制作周期受功能复杂度、技术架构、团队类型等多重因素影响,差异极大。好牛软件将从这两个维度展开分析,帮助...

详解应对App臃肿化的五大法则

编者注:本文转自腾讯ISUX。先来看一张图:图上看到,所有平台上用户花费时间都在减少,除了移动端。观察身边也是如此,回家不开电脑的小伙伴越来越多。手机平板加电视,下班场景全搞定。连那些以前电脑苦手的...

实战!如何从零搭建10万级 QPS 大流量、高并发优惠券系统

需求背景春节活动中,多个业务方都有发放优惠券的需求,且对发券的QPS量级有明确的需求。所有的优惠券发放、核销、查询都需要一个新系统来承载。因此,我们需要设计、开发一个能够支持十万级QPS的券系...

8种移动APP导航设计模式大对比

当我们确定了移动APP的设计需求和APP产品设计流程之后,开始着手设计APP界面UI或是APP原型图啦。这个时候我们都要面临的第一个问题就是如何将信息以最优的方式组合起来?也许我们对比和了解了其他一些...

数字资产支付 App 的技术框架

开发一款功能强大、安全可靠的数字资产支付App需要一个整合了区块链技术、后端服务、前端应用以及第三方集成的全栈技术框架。这个框架的核心在于保障数字资产的安全流通,并将其高效地桥接到传统的法币支付场...

从MyBatis到App架构:设计模式全景应用指南

从MyBatis到App架构:设计模式全景应用指南引言在企业级应用和服务端开发领域,MyBatis凭借其灵活、简洁、强大的ORM映射能力被广泛应用。而它之所以能拥有如此优秀的可扩展性和工程可维护性,正...

取消回复欢迎 发表评论: