炼数成金 门户 商业智能 查看内容

现实版《降临》背后故事:机器破译古文能否找回逝去的人类文明?

2017-2-3 10:55| 发布者: 炼数成金_小数| 查看: 10859| 评论: 0|原作者: Mallory Locklear|来自: 机器之心

摘要: 在历经一个世纪的失败之后,语言学家们开始向机器(计算机)求助以破解一段远古文字。1872年,一位名叫 Alexander Cunningham 的英国将军在挖掘北印度地区(该地区随后被英国控制)的某区域时,偶然发现了某些奇怪的 ...

管理 工具 模型 数学 统计学

在历经一个世纪的失败之后,语言学家们开始向机器(计算机)求助以破解一段远古文字。

1872年,一位名叫 Alexander Cunningham 的英国将军在挖掘北印度地区(该地区随后被英国控制)的某区域时,偶然发现了某些奇怪的东西。从残骸之中,他发掘出了一个一英寸见方的石头,它呈黑色、表面光滑、未被抛光,在表面上刻有奇诡的符号——由线条、相互交错的椭圆、像是鱼形的符号构成,在旁边还刻着一个像牛一样的东西。这位将军并不认识这些符号,但他认为刻着的这头「牛」并不像其他的印度动物,所以他欣喜地认为,这个石器并非是印度人的产物,而是来自于其他外来文明的某种图腾。这块石头和在随后几年发现的相似的石头一起,最后都被带到了大英博物馆。在1920年代,这些石器(后来人们发现它们其实是印章)为人们发现一段有4000年历史的文明——即如今被大家所知的印度河流域文明,是已知的最古老的印度文明——提供了线索。

在那之后,数以千计的类似的小印章被发现。大部分的印章都有着这样的特征:在上方刻着一行符号,在下方则刻出了一幅图像,它们通常是动物的图像。图中出现的动物包括公牛、犀牛、大象甚至是独角兽。它们的发现地区不仅涵盖了今印度及巴基斯坦,还延伸到周围的商路上(在现伊拉克地区也发现了印章)。这些符号囊括了从几何图形到代表了鱼和罐的图标,也被在公告栏、牌匾、铜碟、工具和陶器上被发现。

尽管我们现在有数以千计的这些符号,但我们并不清楚他们有什么含义。在 Cunningham 发现它们一个世纪之后,我们仍不能读懂这些印章上蕴含的信息。它们是否是某一远古语言的字母,又或它们只是某种宗教性的、家族性的乃至政治性的符号?这些激烈竞争的问题不仅引起了学者之间的争端,还加剧了文化之间的竞争(争夺将它们作为自己文化遗产的权利)。但研究人员在使用了包括复杂算法机器学习乃至认知科学的方法后得到的新成果,正逐步帮助我们一步步破解这段古印度文字。
带有驼背牛的滑石印章,印度河流域,Mohenjo-Daro,公元前2500年~2000年    

从公元前2600年到公元前1900年,印度河流域文明的规模超过埃及文明及美索不达米亚文明。它横跨包括如今印度及巴基斯坦在内的超过100万平方千米的地区。他有着复杂的基础设施,包括先进的水管理及排水系统、经过街道规划的有组织的城市(系统)及第一个已知的厕所。

除此之外,这些古印度人还管理着一个巨大的商贸网络,它最远触及波斯湾。事实上,印度人最初的行迹在十九世纪被重新发现——当时在现巴基斯坦地区,执行连接两个城市任务的建筑工人在一些老旧废墟旁偶然遇到了大量的砖块。工人们使用它们建造了约100英里的铁轨。在一段时间吼,考过学家才意识到,这些砖块原来是来自印度河流域文明。

考古学家的发掘只带来了极少的信息:(在该文明中)没有强力领袖或是宗教符号的迹象,这非常奇怪,与同期青铜时代文明的特征不一致。我们还未在该文明中,发现任何像是美索不达米亚文明的金字形神塔、埃及文明的金字塔一样的宫殿或者巨大塑像。同时除了一些被挖掘出的矛和箭之外,我们并未发现很多战争的迹象。

事实上,我们几乎什么也不知道。「如果你问一个考古学家印度河流域文明从哪里来、怎么结束的、他们存在的时候在干什么,它们无法给你确切的答案。」金石学家 Bryan Wells 如是说。对我们而言,印度河流域文明就如同它使用的符号一样神秘莫测。
源自于印度河流域文明的印章先存在新德里博物馆。

这些古印度符号是正逐步减少的未破解古文字名单的一部分。学者们正在研究世界各地的许多数学系统,包括 Linear A、克里特象形文字(它们是来自古希腊的两种文字)、原始埃兰语(已知最古老伊朗文明的书写)、一些中美洲文字及复活节岛上的 Rongorongo 文字。一些新石器时期的语言符号,因为没有后来的衍生语言,可能永远都不会被解密。另一些古代语言,如作为希腊语前身 Linear B 语言,最终通过标记符号的方式,弄清了语言如何标记一个短语的开始与结束、不同的音节如何改变单词的意思、句子中的元音和辅音如何构建等。这与科幻影片《降临》所表现的内容并无二致——查找语言中的模式、测试总结的规律以及不断地测试和错误。不过和电影中的语言学家相比,古印度语学者的压力不如那么大——因为人类不如像在乎即将入侵的外星文明一样那样在乎古代文明。

在过去,大部分相关工作都是手工完成的。对于 Linear B 而言,细心构建的语音图最终带来了语言的解密。类似的方法也在古印度语上被尝试过。在20世纪30年代,学者 G.R. Hunter 发明了符号集群使他能够发掘隐藏在语句中的一些结构。但他也没能弄清语言的含义。

印度孟买她他基础科学研究所天文和天体物理部的研究员 Nisha Yadav 表示:「很多原因导致这个语言非常难被破译。首先,文章的句子很短。平均来说,一个印章上总共只有五个符号,被发掘出最长的也只有17个。这么短的文字使得解读文字结构变得十分困难。」

「这个问题的复杂之处在于,我们不清楚它底层的语言是什么。」美国国家科学基金会感觉运动神经工程中心主任、华盛顿大学计算机科学与工程系教授Rajesh Rao说。

「我们甚至不知道当时在那个地区,人们所说语言的语言家族。」一旦一个文明消亡,它的文化及书写系统也会逐步消失。「我们没有任何连续的文化传统,」Yadav 说。考古学家还未(在古印度语中)找到某种像 Rosetta 石——破译埃及象形文字的关键所在——一样的多语言文本。

尽管我们对古印度知之甚少,但这绝不是因为缺乏尝试。「它通常被叫做最难解读的语言因为它有靠近100种解读方式。」威尔斯说,「不过当然,没有人喜欢其中的任何一个。」许多人声称已经破解了语言,它们通常认为该语言是后来语言的某种前身,但没有一个解读方式是成立的。「我觉得最古怪的一种解读,来自于一位佛教大师,他声称通过冥想接触到了创造语言的超自然存在,被告知这些语句代表着什么。」威尔斯补充道。
带有驼背牛的滑石印章,印度河流域,Mohenjo-Daro,公元前2500年~2000年。

为破译古印度的语言,最重要的是确定我们看的究竟是什么东西——或是代表语言的某种符号,或是只是代表家族名或神祇名的某些图腾或是会长。「基于我们现有的信息,我们并不能对文字代表的内容作出确切的评断。」Yadav 说。「我认为我们所做的仅仅是尝试拼凑我们现有的一些线索,来看看它们能否印象我们猜测的内容。」Rao 说道,「同时,至少从我们已做的工作来看,我认为它似乎更倾向于靠近我们关于语言的假设。」大多数学者都倾向于同意这一观点。

2009年,Rao 发表了一篇文论,它研究了古印度文的顺序结构,即特定符号跟在其他符号之前或之前的可能情况。在大多数语言系统中,词或符号以半可预测的方式彼此连接。它们有一定的陈述句结构,但也有相当大的灵活性。研究人员将这种半可预测性称为「条件熵」(conditional entropy)。Rao 和他的同事计算了一个符号按照特定顺序跟随另一个符号的可能性。 「我们感兴趣的是,如果我们可以推测出一些统计规律或结构,」Rao 说,「他能基本上排除这些符号只是简单并置、而有一些规则或模式的可能性。」

他们将古印度语的条件熵与已知的语言系统(如吠陀梵语)及已知的非语言系统(如人类 DNA 序列)进行了比较,发现古印度语与语言系统非常相似。 「所以,尽管它不能证明这些符号编码了一种语言,但它能提供额外的证据证明这些符号不是任意符号的随机并置。」Rao 说,「他们遵循的模式与在能构成语言的符号中能找到的模式是一致的。」

在随后的一篇论文中,Rao 和他的同事对所有的已知的古印度符号进行了研究,观察他们在他们被发现的铭文中的位置。这种被称为马尔可夫模型的统计技术,能够找出具体的信息——如哪些符号是最可能开始一个文本、哪些最可能结束一个文本、哪些符号可能重复,哪些符号经常配对在一起及哪些符号倾向于在特定符号之前或之后等。在处理不完整的铭文时,马尔可夫模型也是很有用。许多文物被发现时已经损坏,部分铭文缺失或不可读,但马尔科夫模型可以帮助填补这些空缺部分。「你可以基于其他完整序列上的统计学信息,来试图填补这些缺失的符号。」Rao 解释道。

Yadav 做了一种类似的分析,采用一种被称为 n-gram 分析的不同类型的马尔可夫模型。一个现有的 n-gram 分析的例子就是谷歌搜索栏。当你输入查询事项时,搜索栏会基于你已经输入的内容填充搜索建议,随着输入字数的增加,搜索建议也会相应改变以使之与输入文本相匹配。Yadav 及其同事关注两种分析方法,一个是基于某一符号其下一个符号出现的概率——二元文法,另一个是基于前两个符号下一个符号出现的概率—— 三元文法。得到的结果模式显示印章上所刻的字迹存在语法,这也就为所刻字迹是语言这一观点提供了支持。同时像马尔可夫模型一样,该分析也能在所刻字迹部分文本缺失时填充上可能的符号。

这两种技术也揭示了一些意料之外的事情:在不同区域发现的遗迹描述的是截然不同的符号序列。所以在现在伊拉克境内发现的印章所具有的符号序列往往与在印度及巴基斯坦境内发现的其他印章的符号序列不同。Rao 说,这暗示着,也许人们使用相同的符号去编码当地语言。「好像他们在用不同的字迹做实验,」Yadav 说,「或许他们在用同样的字迹书写不同的语言或不同的内容。」

对现有遗迹引入其在人类学及考古学上的背景知识,也有助于我们进一步理解古文字。 剑桥大学数字知识研究中心助理研究员Gabriel Recchia 仅就以此为目的发表了篇论文。Gabriel Recchia 及其同事在之前的认知科学研究中指出,可以通过在书面中同时提到不同城市的频率来估算城市间的距离。这一观点是真实可行的,对于美国城市,依据的是两城市在全国性报纸上同时出现的频率,对于中东和中国的城市,依据的是相应的阿拉伯语和汉语文本,甚至对《指环王》中的城市也适用。Recchia 将该观点适用于印度河谷字迹,将已知起源遗迹的符号提取出来,用以预测带有相似符号的未知起源遗迹的出处。 Recchia 解释道,若这种方法将更多详尽的信息考虑在内将大有裨益。「在同一遗址的不同分位置挖掘出的遗迹存在显著差异,它们在遗迹中的位置往往是不知道的,在许多情况下,这能提供更多有用的信息,」Recchia 说。「这些是在垃圾堆里和一大堆其它印章一起发现的还是从其它地方运来的?」

与此同时,Ronojoy Adhikari,一名印度金奈数学科学院的物理教授和他的研究助手 Satish Palaniappan 正在做一项能够从一张印度手工艺品的照片上较精确提取符号的研究工作。「如果一个考古学家来到印度某处发现了新的印章,如果纯手工的把它们影印后再加到数据库里会非常耗时,」 Satish Palaniappan 说。「我们项目的终极目标是仅仅通过对该文物的一张照片就能自动提取出其中的文字部分。」他和 Adhikari 正忙于做一个 app,该款 app 能够使考古学家们仅通过手机在现场就可以立即提取新的铭文。
未指明的近似1988:印度艺术-公元前2500年-印度河谷的石印。

但不是每个人都认为手迹是一种语言。2004年,一篇由文化神经生物学家和比较历史学家 Steve Farmer、计算理论学家 Richard Sproat、以及文献学家 Michael Witzel 联合发表的文章里就认为印度手迹不是一门语言。作者们甚至至今愿意为能找到较长的印度铭文的发现者提供10000美元。「并不是所有在印度高度政治化的社会之外的人都把印度符号作为‘未破译的文稿’中的一部分,」Farmer 在邮件里说。在他们针对文稿的立场发表后,Sproat 写了两篇文章分析 Rao 和他的同事们所用的条件熵技术,以及另外一个小组所采用的类似技术以分析 Pictish 符号,另一种古文体。在这两篇文章中,Sproat 概括性的认为条件熵测量技术并不是那么管用。「它告诉你什么?它告诉你这不是完全严格。它告诉你这不是完全随机。我们已经知道这些了,这没什么信息量。」 Sproat 说。「它没有告诉你任何事。」

Farmer 说:「仅在一堆符号中发现结构,并不当然意味着已经发现符号编码语言的证据。甚至传令符、星座或者童子军队列自身都存在结构。」为回应 Sproat 的论文,Sproat 所质疑的 Rao 及其同事和皮克特符号研究中心的作者们 都写文强调他们的关注点。Sproat 又反过来就他们的回应写文章回应。

「你从清洁工那里获得医学建议都比从 Steve Farmer 那里听到的关于印度河字迹的观点要靠谱得多,」Wells 说。「这三个作者都没有考古学,刻字学或任何与古文字相关方面的学位,他们根本的立论依据是'我们这么聪明都无法破译它,所以它不可能是文字',这种观点简直荒谬。」Wells 将求证 Farmer 的观点比作求证特朗普的话一样。「你不得不核实他所说的每一件事,因为他所说的绝大部分都是错的。」

而且 Wells 对 Witzel 观点的批判一直向前追溯到其有关印度河字迹的博士论文,据 Wells 说,Witzel 曾试图反驳过该观点。之后,在与 Witzel 一同到印度时,Wells 甚至还在出租车后座上,向 Witzel 展示了一个 ppt,名字就叫《你不了解你所说问题的十大原因》。

有一件事 Rao 和 Sproat 确实表示认同,即如果印度河手迹被证实编码的不是语言,那么可能结果会更加有意思。「我们非常了解有文字的古代文明,但对缺乏文字的文明知之甚少, Sproat 说。「如果这是一种整体上的无语言系统,那么从某种意义上说,会比是某种字迹更有意思。」

Rao 也认为,其陷入论战中的作品存在细微差异。「这是一场有趣的脑力论战,希望现在已经休战了,」Rao 笑着说:「希望这不会是一个将持续一生的论战,但我认为目前每一方都尽了较大的努力。我是个十足的乐观主义者,我认为我们会对印度河手迹有更好的理解,无论是这样的方式还是其它的方式,语言性的也好,非语言性的也罢。」

在这场论战之外,解读的过程也受到了当代政策的威胁。在印度国内,不同的派系正在为哪方的语言和文化是印度河谷文明的继承者争得不可开交。北边的梵语区、南边的德拉威语区、以及那些中部讲部落语言的地区。「他们争论的是无论是谁传承自印度河谷文明都是印度的继承者,」 Wells 说。「所以说,他们是从当代政治的角度来争论这件事。我知道有的人就因为说梵语不是或者德拉威语不是而收到死亡威胁。」并且因为印度河谷文明跨域当今的印度和巴基斯坦,当前两国的紧张局势也影响到了研究领域。印度河谷文明出土的古器具的图册也被分为两个不同的卷出版-一个是在印度发现的古器具,另一个是在巴基斯坦发现的。

破译手迹的另一个困难挑战也是一个老生常谈的问题:钱。Wells 认为,除非学校和资金赞助机构共同努力促进印度河手迹的研究,否则很难有进步。「必须共同合作,必须有资金支持,并且必须有研究基地,」Wells 说。在促进共同努力过程中,就他个人而言,Wells 正筹办第二次印度河手迹年度会议,会议将于今年3月在不列颠哥伦比亚省召开。并且,如无例外,只要 Farmer 到会,还会有10000美元奖金。

我们还不能破译这些古文,不过 Rao 坚信除非我们找到更长的标本或者一种多语言的文本,否则这些统计学的方法已经是我们较好的尝试。并且 Wells 说进展的程度与合作息息相关。「我认为所有需要破译的文稿都在那,」他说,「团队合作-跨学科、或者可能多辈分-我们做的工作越多我们取得的进展越大。」Wells 和他的同事已经取得了一些进展并且计划这个三月份的会议上发表。他们的发现和其它发表在会议上的工作可以在四月份的 the Proceedings of the Second International Meeting on Indus Epigraphy 上公开查阅。与此同时,任何想要为破译古文做贡献的人可以登陆 Wells 的协作网站(collaborative website),该网站提供了所有目前已知的符号和各种分析工具。

当被问及电影《降临》以及是否能破译手迹以在某一天拯救世界时,Rao 笑了笑,「好吧」他说,「这还得看具体情况。」

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

热门文章

     

    GMT+8, 2018-10-23 11:19 , Processed in 1.279577 second(s), 24 queries .