参考封面|人工智能如何破解最古老文字之谜?

参考消息网8月14日报道英国《新科学家》周刊8月6日刊登题为《人工智能如何揭示古代楔形文字的秘密》的文章,作者是艾莉森·乔治。全文摘编如下:

在英国伦敦不列颠博物馆一扇锁着的房门背后,有一个漂亮的图书馆。在这个秘密房间里,欧文·芬克尔打开一个抽屉,拿出一块泥板。这块破裂并被火烧过的泥板上,刻着世界最古老文字的小小符号。另一个抽屉放着另一块泥板。芬克尔是这家博物馆里古代美索不达米亚文字、语言和文化的助理保管员,也是世界上能够流利阅读这种早已消亡的文字——楔形文字的少数人之一。

在我们身后,一名摄影师正在仔细地拍摄这些文字的照片,有光专门打在这些蚀刻符号上。这项工作是一场革命的组成部分,这场革命正利用今天的计算能力,试图复活这些有着5000年历史的文字记录,并揭开世界最早文明的新秘密。

尽管这一书写体系在165年前就被破译了,但使用该体系的文本大多从未被翻译成现代语言。这是一项极其复杂的任务,依赖芬克尔这样的专家。现在,由于人工智能的发展,计算机正在接受一些训练,以阅读和翻译楔形文字,将碎裂的泥板重新拼凑起来以重建古代图书馆,甚至预测缺失的文本。

记录人类历史

楔形文字的故事始于约6000年前的美索不达米亚,那是底格里斯河和幼发拉底河之间的肥沃土地,现在是伊拉克。在那里,苏美尔人建立了最早的一些城邦。

虽然这些人讲的语言(苏美尔语)与我们所知道的任何语言都截然不同,并且早已消亡,但我们拥有关于他们生活的了不起的记录,因为据我们所知,那里就是文字的起源地。他们把芦苇端部压在湿润黏土上,做成一些楔形形状,这使得这种文字有了它的现代名字:楔形文字。

楔形文字本身不是一种语言,而是一套书写系统,就好比用来书写英语的字母也可以用于法语或德语。苏美尔语最终消亡了。然而,楔形文字继续存在,并成为许多其他语言的书写形式,比如阿卡德语、赫梯语和古波斯语。楔形文字在消亡前为人们所使用了3000年,记录了古老王国的诞生和灭亡。

我们对这方面的了解归功于用来刻楔形文字的黏土:它是一种便宜、容易获得且耐用的材料。芬克尔说:“这对我们来说非常幸运,因为任何曾被书写过的泥板都能保存下来,除非它被扔进河里或被彻底砸碎。”

如今,有成千上万块这样的泥板构成世界文化遗产的重要组成部分。它们记录了我们这个星球上的第一批伟大帝国,还有赞美诗、信件、购物清单,甚至还有顾客投诉。德国慕尼黑路德维希—马克西米利安大学的恩里克·希门尼斯说:“人们说,人类历史的前半部分都被记录在这些楔形文字泥板中。”

找回缺失过去

人们不断从泥板上破译出新秘密。2017年,一块有着3700年历史的、编号为“普林顿322”的小泥板,作为世界上最古老的三角函数表为人们所知。它显示,最早研究三角的是巴比伦人,而不是希腊人。然而,由于只有大约75人能流利阅读楔形文字,所以大多数泥板未能得到解读,放在博物馆库房里积灰。

一个问题是楔形文字非常复杂。希门尼斯说:“这种文字很不明确。一个词的书写方式并不是单一的。”此外,大部分泥板并不完整,多数是破损或者破碎的。边缘通常已经碎裂,留下一些没有开头或结尾或者叙事有缺失的故事。

希门尼斯说,把这些碎片拼凑起来就像是拼很多很多块复杂拼图,这些拼图杂乱无序,盒子上也没有图片告诉你最终要拼成什么样子。此外,同一块泥板的碎片还可能散落在世界各地。把这些拼图重新拼凑起来是一个依靠运气和记忆的艰苦过程。但现在有了计算机的参与,情况正在发生变化。

作为电子巴比伦文学项目的组成部分,希门尼斯在2018年设立了一个语料库,通过判断出哪些碎片是一起的,这个语料库正利用人工智能重组以楔形文字书写的伟大馆藏。为做到这一点,希门尼斯正在利用为比较不同基因序列变体而开发出的算法,这依据的是同一篇文本往往有多个差别很小的书写版本。人工智能可以接受对这些文本进行音译的训练,楔形文字符号可以根据其发音方式以拉丁字母形式书写出来(像汉字可以以拼音形式书写那样)。然后,人工智能可以预测哪些楔形符号可能出现在缺失的部分。它还可以在一个巨大的碎片数据库中搜索特定的楔形文字符号。

2019年,这种方法帮助找到了《吉尔伽美什史诗》中的若干缺失部分,并揭示了一种古代文学的新体裁:一种由荒诞故事组成的文本,它是学生用来学习书写的。

去年,在世界首例使用人工智能技术完全自主进行的楔形文字碎片识别中,著名的《咏正直受难者的诗》的一个缺失部分被找到。希门尼斯说:“人类原本会错过它。”

2021年,耶路撒冷希伯来大学的计算机科学家加布里埃尔·斯塔诺夫斯基和他的同事们,找到了一种方法来预测碎片缺失部分上的文字,这种方式类似于手机上词语的自动预测。他们使用了一款深度学习人工智能技术,“投喂”给它来自1万块以阿卡德语书写的楔形文字泥板的音译文本。他们发现,人工智能能够以89%的准确率来提出符合上下文的字词建议,以填补缺失部分。

连接现代语言

人工智能的另一个潜在应用是确定来源不明泥板的年代。斯塔诺夫斯基说:“如果我们知道某些文件的年代,我们就可以对算法进行训练,以预测其他文件缺失的年代。”

通过音译破译楔形文字是一回事,阅读楔形文字符号则完全是另一回事。楔形文字的字母系统随时间推移发生了演变,而且拼写也有很大差异。此外,这套字母系统在不同时期用于不同的语言。

尽管如此,计算机开始在利用用于文本识别的计算机视觉系统阅读楔形文字符号方面取得进展。

人们希望最终将符号识别系统与现代语言翻译系统联系起来。这将意味着我们可以在博物馆里用手机拍下一块泥板的照片,然后泥板上的内容就能立即得到解读。

如果没有庞大的文本数字数据库提供尽可能多的数据来对算法进行训练,这些努力就都不可能实现。然而,在全世界博物馆收藏的50万份楔形文字文本中,只有一半得到了音译或翻译,只有约10万份以数字方式可用。目前,楔形文字数字图书馆倡议和电子巴比伦文学项目等努力正在取得重大进展,以增加这些数字档案。

这一过程始于一项艰苦工作,那就是为全世界博物馆和私人收藏的所有泥板拍摄高质量图像。这正是不列颠博物馆里在我背后正在进行的事情。

在我结束对不列颠博物馆那个拱形图书馆的参观,随人群一同涌向各个展览的时候,我一直在回味刚刚的体验——穿越时空回到过去,见证数千年前人们写下来的想法,然后又回到未来,看看这些破碎的古代文字记录,它们正处于重新拼凑和解码的过程中——这次是在数字领域。

图说:英国《新科学家》周刊8月6日一期封面

来源:参考消息网

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章