语言学和遗传学结合,给中华文明探源打开新
(采访/观察者网武守哲)
观察者网:潘悟云教授您好,很高兴有这样一个机会就汉藏语系起源和华夏文明探源问题对您做一个采访。一直以来,对汉藏语系分化时间以及起源地点存在两种假说。“北方起源假说”认为它起源于大约年-年前中国北方的黄河流域,而“西南起源假说”则认为它起源于至少年前的东亚西南部某地。这篇论文出来之后,可不可以说支持“北方起源假说”的一派在学术界将有压倒性的优势?
潘悟云:有关汉藏语系起源的假说就像你提到的那样,主要就是两种,之前的主流意见也是“北方说”。像美国的马提索夫,包括国内的许多学者,认为黄河中上游,也就是陕西甘肃宁夏一带是起源地;另外一种以欧洲的vanDream教授为代表,提出中国西南到印度东北这一带地方是起源地。
这两大派有关起源地点的论述,其实本质上还是一种猜想,用的是传统的那种语言历史比较法。其缺陷是不能解决时间和地点的互动问题,两派争来争去,结论却大相径庭。
潘悟云教授在上海高校比较语言学E-研究院接受了观察者网的采访
语言就像一棵树,枝干上有树杈,一支又一支生出来,可以表示语言之间的关系,但发源在什么地方,什么时间,没办法搞定。一直到20世纪,美国的斯瓦迪士提出一个新的方法——语言年代学,才开始确定语言的发生年代。
地质学用碳14测定年代。碳14是放射性物质。活生物体内的碳14和空气进行交换,含量是固定的,死了之后碳14的含量会越来越少,碳14衰减的速度是恒定的,根据碳14的现存含量与衰减速率,就能算出该生物的死亡时间。
同源的两种语言,原来的词汇是一样的。分开来以后,词汇就会发生变化,如上古汉语中的“首”变成了“头”,“口”变成了“嘴”,“目”变成了“眼”。如果语言的变化速度也像碳14那样是恒定的话,根据两种语言中现存同源词的多少,就可以知道其分化的时间。
斯瓦迪士根据很多语言的统计,认为语言核心词的变化速度是一样的。统计两种语言中现在的同源词数与变化速率,就可以算出这两种语言到底在什么年代开始出现分化的,这就是语言年代学的基本原理。
按照这个理论框架,有人也计算过汉语和藏语分开的时间,但是引发学界不少人的批评。批评者认为,语言演变的速度并不是恒定的,战争频仍、移民复杂的年代,比如魏晋和唐宋时期,都会导致语言变化的加快。核心词汇的变化也有快慢的不同,自然现象、身体部位名称变得慢一点,数词、代词的变化相对较快。这就给语言年代学提出了挑战。
我们现在采用的是更先进的贝叶斯系统发生学的方法。这个方法原来用在生物学上面,认为物种的演进也有快有慢,这也影响了语言学。
汉藏语系中种语言的谱系树
前几年,在《Science》和《Nature》上发了好几篇用这个方法解释印欧语、南岛语分化的文章。我们看了以后,认为汉藏语的研究也可以借鉴这个方法。汉藏语“北方起源说”还是一种猜想,我们的目的是要把它定下来,也就是从猜想到实证,要用科学的数学方法把它计算出来。
结果出来后,主流派非常高兴,因为我们的研究结果支持了他们的猜想——汉语分化出来的时间大约就在年前,地点是黄河中上游,能和仰韶文化和马家窑文化对接起来。
中国有中华文明五千年之说,但国外并不承认。甲骨文至今也只有多年,再往上就没有记录了,夏文化以及黄帝、炎帝等等在西方人看来是一种传说,国际上无法认定为“史”。中华文明五千年根据在哪里?“中华文明探源工程”主要根据考古发掘。全国各地有许多挖的出来的文化遗址,如仰韶文化、良渚文化,马桥文化等等。良渚文化尤其值得一提,它已经有城市的形态了,是一个较高文明的象征。
仰韶文化与马家窑文化
通过考古挖掘和对各种遗址的断定,“中华文明探源工程”认为中华文明大约有年,我们计算的结果是汉语出现在年,和考古的考证基本差不多。我们没有直接参用考古的材料,仅通过语言分析,得出相近的结果。这个工作的意义很大,可以说,我们是对“中华文明探源工程”的细化。
观察者网:您现在的这个领域跨了多个学科——生物学,遗传学和语言学。在国内,这几个学科越来越紧密地走到一起,大约是在什么时候?
潘悟云:90年代。复旦大学的金力院士采集了大量的东亚人基因10万例,得出结论:整个东亚地区的各个人种都是从非洲来的。这就完全推翻了中国人来自“北京猿人”的假说,金力院士研究发现北京猿人的后代都死光了,而东亚族群都来自非洲,这个结论很有震撼性,而且在世界上也得到了广泛承认。
现在学术界的主流看法是,万年前人类的祖先从非洲开始了第一批扩散,之后出现了北京猿人,尼安德特人、爪哇人等等。这些古人类都没有传下来,比如北京猿人经受不起冰川期的变化,尼安德特人在3万年前还有,但最终也没有留下来。后来,在非洲东部进化出现代人,并在十万年前向全世界各地扩散。现在看起来外表很不一样的现代人种其基因大部分都是一样的,是现代人走出非洲以后繁衍的后代。金力教授通过他的研究,发现东亚人群来自非洲。北美的印第安人大约是1万多年前通过白令海峡从东亚迁过去的,绝大多数的生物学家和遗传学家都认可这个观点,尽管还有极少数人反对。
周口店遗址博物馆门口的“北京猿人”雕像
但是迁徙到中国的这一批非洲人走的路线,以及到底是怎么变化的,要通过基因上一个个位点的比对来判定。由基因关系画出的树状图,我们会发现汉族和藏族是最接近的,相对来说,汉族和苗族、瑶族、侗族要远一些。
刚才我们讲到“同源词”这个概念,和生物学上的基因测定非常类似。如果两种语言的同源词越多,就说明这两个语言非常接近。越少,则它们的关系就越疏远。由此可以画出它们的谱系图,还可能进一步说明它们分化的时间和路线。
所以我们需要反思一下“人”这个概念,他区别于动物的一个显著的标志就是语言,有了语言,才有文字,有了文字,才有文献,这样人类的智慧才能一代代的传下去。动物靠进化,人类靠文化。
年金力教授写了一篇关于东亚人来自非洲的文章登在《文汇报》上,我看了之后非常感兴趣。
之前我们认为亚洲大陆有好几个语系:阿尔泰语系、汉藏语系、南亚语系和南岛语系,曾认为这些语系是毫无关系的。之前所以这么认为,是认为说这些语言的人种没有什么发生学上的联系。比如爪哇猿人和北京猿人没什么关联,完全是两个人种,所以他们后裔的语言也应该是两种不同的语言。但是后来我们发现南岛语系和汉语其实是有关系的,尤其是一些核心词。比如说,女性生殖器很重要,涉及到人类的繁衍。女性生殖器国内讲的最多的发音就是pi,现在的南岛语也说pi;女性的乳房也很重要,因为这和哺育后代息息相关,上古汉语的发音是nio,南岛语是nu,是很接近的。
汉语中大量的核心词和南岛语系的相似,会给人一个猜想,这两种语言是不是有同一个祖先?我当时百思不得解的是,如果汉藏与南岛人种没有发生学上的关系,大量的核心词为何如此相似呢?看到金力教授的文章以后,就恍然大悟,原来他们都是从同一祖先演化来的。我们很快见面了,并且开始了合作,通过语言学和遗传学共同探讨东亚人群、语言、文明的产生和演化。
在那个时候,国家有一个“三代断代工程”,也是想解决中华文明的起源问题。
观察者网:这个工程在学术圈后来争议性比较大。
潘悟云:所以我们和金力院士商量,能不能走另外一条路,从生物遗传学与语言学角度去观察中华的文明,也许有更可靠的一面。
后来,金力教授主持了复旦大学的现代人类学的重点实验室,这个实验室是跨学科的,包括生物、考古、语言、历史等多个方面,我也一直担任他们的语言学顾问。发表在《自然》杂志上的这篇文章是我们多年合作的一个成果。
观察者网:您刚才提到,生物遗传学和语言学的研究结果,如果比较吻合,那么结论就更加可靠了。有没有这样一种可能,就是两种方法最终的结果没有走到一起,发生了比较大的分歧,那么这个状况会怎么处理?
潘悟云:这种情况当然是可能会有的,因为双方都有自己的方法与材料,都会做出自己的“树形图”,结果可能会有偏差。
语言学的“树形图”是根据同源词画的。例如,太阳这个词,汉语最早是“日”,上古读njit。藏语的太阳是nima,ma是后缀,ni是词根。上古汉语的nit,与藏语的ni非常接近,一眼就能看出它们之间的同源关系。
但是“七”在各种语言中的同源关系就很难看出,普通话读thi,羌族读in,景颇语读anit,彝语读s,它们之间的同源关系就不是一眼能看出,需要语言学家作系统的比较、分析,才能得出同源结论。如果不经分析就否定它们之间的同源关系,这样的例子多了自然就会影响到谱系树的正确性。
遗传学上也会有这种情况,基因测定也会受到其它因素的干扰。但是,至今我们看到遗传与语言算出来的结果大部分是一致的。
观察者网:说到到概率和统计学的话,必然涉及到样本的问题,也就是核心词群的大小,这个样本的广度会不会影响对结果的判定?
潘悟云:当然是样本越多,统计越精确,但工作量也相应地就非常大了,所以我们这篇论文只选取了98个核心语义,在美国马提索夫的STEDT数据库中选取了种语言,不算前期的材料处理,光是最后的运算,在4核8线程的电脑上就连续运行了4天。我们今后会打算扩大统计样本,以求得更精确的结果。
观察者网:现在有个通行的说法,认为秦汉以后汉语的分支变少了,是和“书同文”有关。相比之下,欧洲始终未能形成统一的语言,比如欧盟各国有20多种语言,怎么看待这现象,是个政治历史相关吗?
潘悟云:这涉及到对语言的理解。我们认为上海话和广东话是一种语言,只不过是汉语的两个方言,而一些西方学者则会认为它们是两个不同的语言。
今天的欧盟有23种官方语言
有一次我问挪威一位科学院的院士,挪威和丹麦语之间的距离,有没有北京话和天津话那么大?他说没有,挪威语和丹麦语的距离大概是北京西城和东城的差距差不多。但大家都认为它们是两种语言。
观察者网:最后一个问题,能否透露一下,您和金力教授这个团队在未来进一步研究的具体方向是什么?
潘悟云:终极的方向,是各个学科通力合作,搞清楚整个东亚人群、文明的演化面貌。现在我们研究历史,往往都在研究“史后史”,也就是有文字以后的历史。
文明史或者信史有文献作为根据,但是这个历史对我们来讲还是太“近”了,只有多年。其他民族的文献出现更晚,藏文出现是7到9世纪,缅甸11世纪,泰国是13世纪。还有其他好多民族是没有文字的,那么研究他们的信史就更困难。
金力团队合照,左起:严实博士、金力院士、潘悟云教授、张梦翰博士
人类的祖先走出非洲,到了东亚已经几万年了,这几万年的历史都是我们研究的对象。当然,在没有文献的情况下还可以依靠考古。但是考古发现有空间的限制,不可能在任何地方挖下去就一定能挖出个遗址来。但是,人类的智慧还可以想出其他的方法。人类的身上都有基因与语言,这是我们每个人身上的历史记录。
现代人的基因是古代人基因演化的结果,现代人的语言也是古代语言演化的结果,依靠遗传学与语言学的知识,我们可以从现代人的基因与语言推测古代人的基因与语言,画出演化谱系树。最后我们能推动人类学的发展。人类学分为分子人类学、语言人类学、文化人类学、体质人类学等等,我们可以从好几个窗口来观察有文字以前的东亚史的文明起源和发展。
当然,语言学和生物学还有自己的目的。通过上述的研究还有可能使历史语言学更新换代,这是我们在语言学领域的目标。
观察者网:在未来,日本韩国的学者也会加入进来研究整个东亚的文明探源项目吗?
潘悟云:汉语与和日语、韩语的关系非常密切,有人统计韩语中70%借自汉语,日语汉借词占到50%。明治维新之后,日本接触西方文化,利用汉字造出了很多新词,又反过来传到中国。
如果从东亚人群共源的角度看,我们会看到日、韩与大陆各语言之间更久远的渊源关系。土地这个词,东亚各语言几乎都有共同的来源。汉语的“野”,上古发音为la。“土”上古读khla,现在某些北方方言,把土还叫做土坷垃,坷垃就是“土”的上古读音的遗留。
朝鲜的新罗,sai-la,sai就是新,la就是土地的意思,翻译成英语就是newland。日语的训读字“原”,原野的意思,日语读作ha-la,ha在日语中是古日语的pa来的,ha-la就是pa-la,就是土地的意思。中国东北古代叫夫馀,上古读音bala,也是土地的意思。突厥语中的dala(野外),南岛语bala,苗瑶语的la,都是土地的同源词。这些材料说明,从非洲来到亚洲大陆的这批人,一开始是同一批人。土地对人类来说太重要了,人类逐水土而居,离不开土地,所以说土地是核心词中的核心词,最不容易丢失基因,永远刻在人类的内心中。
中、日、韩的语言关系源深流长,当然会引起三地学者的共同兴趣。
观察者网:听了您的讲述,受益匪浅,感谢您抽出宝贵时间接受我们的采访。
本文系观察者网独家稿件,未经授权,不得转载。
转载请注明:http://www.abuoumao.com/hykh/5503.html