“维苏威挑战”-百万美元悬赏AI考古革命

Sogni
·
·
IPFS
·
我家大女主是研究历史考古的,所以行业“专业”一下。。。养AI你以为你缺的只是喂AI的素材吗?😁你更缺的或者说最缺的其实是。。。。。。。。。。

事情还要从@野人 君昨天/前天的文 AI時代需要的翻譯家 说起,野人期许有人“養出一隻姑且有一半解讀‘希臘文,拉丁文,尤其是他媽的波斯文或者中古阿拉伯文’能力的AI”。这个目标其实并不是癡心妄想,而是已经有实现的案例了,只是要实现需要的是。。。。。。。。

这个实现的案例要从一组烧焦的卷轴说起。赫库兰尼姆(Herculaneum)是意大利的一座古罗马城市,因公元79年维苏威火山喷发被掩埋。与更著名的庞贝古城类似,赫库兰尼姆也被火山灰和泥浆覆盖,从而得以保存下来。

18世纪,意大利考古学家在赫库兰尼姆的考古发掘中,最著名的发现之一是称为“赫库兰尼姆卷轴”的一批古代文献。这些卷轴是从赫库兰尼姆的一座豪宅中发现的,这座豪宅被认为是属于一位罗马贵族卢克莱修(Lucius Calpurnius Piso Caesoninus)。这些卷轴是希腊和拉丁文学的重要文献,但由于火山喷发导致的高温,这些卷轴都被碳化,类似硬化的灰烬原木,非常脆弱和难以解读,目前保存在那不勒斯国家图书馆。

赫库兰尼姆卷轴

研究人员采用了各种方法来试图解读这些卷轴,包括传统的物理解卷和现代的非侵入性成像技术。例如,X射线断层扫描(X-ray tomography)和其他高级成像技术被用来读取卷轴内部的文字,而不需要将其展开。这些技术使得学者们能够识别和阅读部分内容,尽管过程非常复杂和耗时。

2019年,肯塔基大学(University of Kentucky)电脑科学家布伦特‧西尔斯(Brent Seales)提出了一种新方法,使用短红外高光谱成像技术,对这些古卷进行 3D 扫描,然后虚拟建模,在不接触古卷的情况下,就可以展开或压平每一页,从而复现上面的笔迹。但因烧毁严重,展开后上面的笔迹十分模糊,无法确定是哪一个字母,更不要说读出句子了。

软体开发平台GitHub创始人纳特‧弗里德曼(Nat Friedman)在平台被微软收购后成为一名风险投资家,他在小时候读到庞贝的历史读到卷轴的故事时留下深刻的印象。后来有一天他在Youtube上搜到并观看了 Brent Seales 于2019年在Getty Villa的报告Reading the Herculaneum Papyri: Yesterday, Today, and Tomorrow 1开始关注这个项目。

两年后的2022年,当他再次查看项目进展时,发现没有任何新消息。于是他决定邀请Brent Seales参加一个户外camp活动,见见投资人。然而,Brent似乎对此并不感兴趣,或许是将邀请视为垃圾邮件,没有理会。直到Nat的助理打电话到系里,并同意了邀请。然而加州之行并没有带来好运,Brent做了关于scroll工作的报告,听众觉得Brent的工作非常有趣,但没有人投资。

在Brent离开前邀请他与自己的合伙人Daniel Gross喝威士忌。喝着喝着,他提出了自己的想法,建议采取公开竞赛的方式,Brent略微考虑表示同意。Nat当场投入$125k,Daniel Gross跟投,他们于2023年3月15日发起“维苏威挑战”(Vesuvius Challenge scrollprize.org/)。然后Nat在twitter上发起募捐,短短几天twitter上募集到100万资金。

Vesuvius Challenge刚刚开始,Nat就展开了新卷轴的扫描工作。在他的斡旋下,Naples方面同意授权扫描他们的两卷完整的卷轴。Vesuvius Challenge Organization提前几个月预定了Oxford Diamond light光源,预计2023年9月30日完成扫描。但9月底,意大利出现了罢工,天气不好航班也可能取消。于是Vesuvius Challenge 的组织者调来了私人飞机,载着Brent和卷轴到牛津准时完成实验。这是Vesuvius Challenge 2024提供的新卷轴。

主办单位原以为,一年之内成功的可能性不到30%。但是,2023年10月,21岁的内布拉斯加大学的学生卢克·法里托(Luke Farritor)就读出了第一个单词 ΠΟΡΦΥΡΑϹ(紫色)。

后来,他与正在柏林读博士的纳德(Youssef Nader)、瑞士苏黎世理工学院的机器人专业的学生席里格(Julian Schilliger),组成了一个团队,致力于建立一个完整的 AI 模型识别这些古书。他们最终在比赛的截止日期前(2024年1月1日)成功解读了四个段落中超过 85% 的字符,总共揭示了 2,000 多个字符。2月5日,主办单位宣布,他们获得了本次比赛的第一名,获取70万美元的奖金。

他们所用的模型,已经全部开源,就放在github.com/topics/ve...。任何人都可以安装和运行,尝试改进他们的模型,获得更好的结果。

由于比赛结果令人鼓舞,主办单位扩展了自己的目标,接下来将对90%的维苏威古卷,进行扫描和识别,彻底破解两千年前的罗马人在书里写了什么。目前,该工艺的成本为每平方厘米 100 美元,这意味着实际上展开一个卷轴可能需要 100 万至 500 万美元的费用。

Vesuvius Challenge的热情💰💰💰从哪里来?

这不是一个常规的投资,而是一个公益项目。项目已经复原了伊壁鸠鲁学派的一些文章外,如果全部的卷轴扫描识别成功,将是文艺复兴以来最大的古典文献复原,很多人愿意出钱出力。Nat在Twitter上宣布Vesuvius challenge 2023年的成果后,马斯克基金宣布支持这个项目,一下子捐了2百万美元,一举成为最大的捐助者。

@野人 君,你从这个故事学到了什么呢?😄


CC BY-NC-ND 4.0

Like my work? Don't forget to support and clap, let me know that you are with me on the road of creation. Keep this enthusiasm together!

logbook icon
SogniSogni nei Bicchieri is Italian, meaning “Dreams in the glasses”|Sogni杯中夢,寫作翻譯詩歌藝術愛好者。 葡萄酒(WSET3)和瓷器鑒賞。 https://sognineibicchieri.github.io/
  • Author
  • More

你真的知道如何定义“骚扰”“侵犯”和反对“骚扰”“侵犯”吗?

《安魂曲》和第一次亲密接触

门罗的大瓜,艾诺的演讲,我最喜欢的女作家?