【体育与语言】系列文章:
2018年6月5日,万众瞩目的2018年世界杯全部32支球队的大名单终于尘埃落定,接下来的一个月,我们除了欣赏四年一度的足球盛宴,还得面临另一个艰巨的任务——每隔四年,一下子冒出的几百个陌生的外国人名字,如何科学地来“解读”?
“体育与语言”系列的宗旨,就是从体育这个丰富的语言样本库里,挖掘出有意思的语言素材。上一篇系列文章里,我们探讨了一个问题——外语如何用汉语和汉字进行表达,而本文所讨论的将是另一个问题——全世界的语言如何用拉丁字母来表达,以及我们能否仅仅通过一个人写成字母的名字,直接推测出他的语言,或者进一步判断他的国籍?
本文以世界杯为引子,世界杯32个国家一共有大约20种语言,但本文的目的还是把这个语言游戏扩展到全世界的语言。读过本文后,你应该可以尝试挑战:给出一份球员名单(皆以拉丁字母表示),从中判断出该队伍的语言,在进一步信息允许的情况下判断出其国家。
引言——世界文字与拉丁转写
本文开始,我们还是需要先了解一些背景知识。在任何一项国际性的体育赛事里,我们所看到的人员名单,都是他们名字的“拉丁字母表示形式”。绝大多数人从小接触的外语都是英语,人们容易把字母ABCD理解成“英文字母”,但这是完全错误的!世界上使用拉丁字母的语言不下数百种,它们使用的都是与英文相同的字母书写系统,只是在个别的符号上存在差异。
按学术上的说法,世界上存在四大书写系统——alphabet、abjad、abugidad、logographic。这四者都不好翻译,我也不打算在这一块做文章。我们不妨从另一个角度来理解:
东亚的书写系统,无论中日韩,一个书写单元都表示一个“音节”,即(辅音)元音(辅音)这样的语音结构,这个系统叫“完全音节”文字。
以阿拉伯文和印度天城文为代表的文字(上图绿、黄部分),它们不再以音节为基本书写单元,但共同特点是元音的表示不独立,阿拉伯文一般不标注元音只书写辅音,天城文的辅音字母默认带有一个元音,其他元音则通过在该字母上书写附加符号表示,这样的系统叫“半音节”或“不完整元音表示”文字。
俄罗斯的西里尔字母,以及亚美尼亚、格鲁吉亚两国文字,它们都有了完全独立的元音符号,但它们的书写限定为一个符号只表达一个标准读音(口语中可能会有变体),这样的系统叫做“音素字母”文字。
最后,今天世界范围内使用的拉丁字母,则彻底解除了一切限制,可以用两个字母表示一个音,如sh、th,也可以用一个字母表示两个音,如q、x,甚至可以用元音字母表示辅音或反之。这个阶段的文字已经成为了“自由字母”文字。拉丁字母及其前身希腊字母出现时仍属于偏向“音素字母”的文字,但随着罗马灭亡后欧洲各语言的改造,拉丁字母逐渐演化成了今天的形态。
从文字的演变时可以看到,拉丁字母在如今的世界文字体系中占据主体地位,得益于它彻底解除了字母和读音的绑定,世界上任何一门语言,都可以利用拉丁字母来表达出自己的读音,而不必局限于任何一门既有语言的约束。只要不明显违背世界范围内的使用习惯(拿t来表示k,拿a来表示u之类的),利用拉丁字母和适当的附加符号,可以表达出人类语言的任何语音。
所以,拉丁字母之前的所有文字,目前都存在有一套“罗马化”或“拉丁转写”方案,也就是对全世界每一个有名字的人类个体而言,他们的名字都可以表达成最便于全世界理解的形式。但请注意,拉丁化转写,只代表他们的名字能够被语言不通的其他人比较方便地写出来,并不代表也能被准确地读出来。实际上拉丁字母走上与音素脱钩的道路后,字母跟读音也就基本没什么必然联系了。
下文的具体案例,我们所分析的也就正是——世界各国语言是如何被转写成拉丁字母的?转写的过程,是否有一些明显的标志性线索?同时,本文的出发点是解读人名,世界语言中对人名的标志性表达,也可以成为我们的另一个突破口。
突破口一:音节式名字
作为第一个突破口,这是一个最为显著的识别特征:人名中有明显的按音节分隔的表示方式——空格或分隔符(-)。不过要注意,音节文字不一定是音节式名字,比如日本人的名字就通常是不分隔的多音节,但日本假名是音节文字;音节式名字的原文也不一定是用音节文字表示,比如缅甸人的名字按音节分隔,但缅甸文是“abugida”,有单独的元音符号。
音节式名字只存在于东亚、东南亚的范围,我们基本可以做到由单一名字判断出其代表队,下面是一些基本准则:
*单音节姓(少数复姓),1~2音节名,两个连续音节间不做分隔——中国大陆、柬埔寨。
辅助判断:中国大陆人名不会出现p、t、k、s类的辅音音节尾,音节开头有大量j、q、x字母出现,例:Zhao Xuri、Wang Shenchao、Zhang Yuning。反之为柬埔寨人名,例:Khoun Laboravy、Ouk Sovann。
*单音节姓,1~2音节名,两个连续音节间加连字符“-”——中国台北、朝鲜、韩国。
辅助判断:中国台北人名也不会出现p、t、k类的辅音音节尾,由于普遍采用旧式威妥玛转写而没有b、d、g音节开头,例:Chen Wen-chieh、Hung Tzu-kuei、Wei Mao-ting。不使用双元音组合表示单元音、李姓写成“Ri”、朴姓写成“Pak”的是朝鲜人名,例:Pak Song-chol、Ri Myong-guk。反之为韩国人名,韩国的李姓一般为“Lee”,朴姓为“Park”,例:Kim Seung-dae、Jung Seung-hyun、Lee Jae-sung。
*无论姓、名,连续音节间都用空格分隔——香港、澳门、越南、缅甸。
-辅助判断:人名中出现声调标号则必为越南,并且越南语有衍生字母“Đ”,当然看到标志性的阮姓“Nguyễn”也就必定是越南人了,例:Trần Đình Trọng、Nguyễn Công Phượng。出现辅音+y、辅音ht、元音组合aw、oo的为缅甸人名,有不分隔的音节的也必为缅甸人,例:Aung Kyaw Myo、Kyaw Zin Htet、Tluanghup Thang。其余为粤语转写的香港、澳门人名,当然港澳的代表队都有大量归化西方球员,从名字上一眼就能认出。
突破口二:开音节
连串的开音节(CVCVCV)也是一个重要的突破口,很多人可能会把连续不分隔的开音节当做日本人名的特征,但实际上连续开音节、缺少复辅音是太平洋上的南岛语系,以及非洲的尼日尔—刚果—班图普遍现象。从识别特征来看,CVCVCV这样的形式自然是最标准的,比如Yuto Nagatomo(日本)、Filipe Baravilala(斐济)。通常中间的辅音位置可以插入一个鼻音n,菲律宾、印尼等语言也可能在末位以一个辅音收尾。
不过具体到各国的人名,由于非洲、东南亚、大洋洲岛国都深受殖民影响,人名普遍存在西化现象,加上很多民族实际上没有家族传续姓氏,这导致受到殖民影响的人名会显得更西洋化,也就没有太多开音节的特征了。所以在这一部分我们只能简单处理一些识别度较高的语言,并主要通过拉丁转写的正写法区别。
*人名以一个鼻音字母m或n开头,则基本是非洲人名,这是撒哈拉以南非洲诸语言的一个标志性特征。例:Simeon Nwankwo(尼日利亚)、Siphesihle Ndlovu(南非)。法国队的Kylian Mbappé、N’Golo Kanté、Mike Nzonzi这些球员能明显看出是非洲移民的后裔。
*完全不使用字母l的必为日本人名,日语的拉丁转写和实际音系里都没有真正意义上的/l/这个辅音,这也是日语的标志性特征。其他辅助判断:日语人名没有字母v、极少有字母p,f只以fu出现,w只以wa出现。例:Shunsuke Nakamura、Naohiro Takahara。
突破口三:特殊字母
音节特征这条路现在已经不大好走了,我们需要换一个思路。拉丁字母解除了字母与读音的绑定,一部分字母,如k、t、s、m、n、l等,它们自古以来的发音就比较确定,但还有一些字母,如q、x、c、j等,它们在历史演变过程中逐渐失去了与读音的联系,在拉丁转写体系里,这也就意味着它们能用来表达任何读音,比如我国的汉语拼音方案就把j、q、x、c四个模糊字母一口气全用上了,而现在很多人甚至把唯一不使用的字母v拿出来表示拼音ü,这可谓全方位地“物尽其用”。这一章我们主要关注q和x两个最为独特的字母单独使用时给我们的突破口。
*字母q:如果人名中出现字母q与u之外的元音的组合,或字母组合qu单独出现,除去中国大陆拼音,基本可以判定为中亚、中东至东欧伊斯兰国家一带的人名,包括中亚五国、波斯语(伊朗)、阿拉伯语、阿塞拜疆语、阿尔巴尼亚语、马耳他语等。不过q这个字母在这些语言里并不常见,人名中出现的几率不大。例:Tareq Ahmed(阿联酋)、Kamer Qaka(阿尔巴尼亚)、Mirjalol Qosimov(乌兹别克斯坦)。
*字母x:字母x在词中通常用作辅音组合ks的合体,但基本不会出现在词首。人名的词首出现的x有两种常见对应。第一是伊比利亚半岛的加泰罗尼亚语和巴斯克语,它们使用字母x表示ch或sh的音,通常以Xavi或Xavier的形式出现(对应西班牙语Javier),这里给一些其他例子:Ager Aketxe、Beñat Etxebarria(巴斯克人名),Maria Teixidor、Jordi Moix(加泰罗尼亚人名)。第二是在中亚的乌兹别克、阿塞拜疆和欧洲阿尔巴尼亚、马耳他,前两者用来表示所谓“清软颚擦音”,但在转写方案里这个音通常被写成kh,所以字母x可能不常见)。阿尔巴尼亚语有一个标志性的组合“xh”,表示类似英语j的/dʒ/音,这是一个比较常见的标志。例:Xherdan Shaqiri、Granit Xhaka(两者都是瑞士国脚,但明显是阿尔巴尼亚人名)。
*字母j:字母j本为写在词头位置的元音字母i的变体,它的来源决定了它不容易出现在本身使用拉丁字母的语言的词尾。如果字母j单独出现在词尾,它很有可能来自阿拉伯文、天城文等文字系统的转写,包括一些过去使用阿拉伯文、后来改用拉丁字母的语言,如阿塞拜疆语、阿尔巴尼亚语等。也可能来自东斯拉夫国家(波兰、捷克、斯洛伐克),这些国家语言里/j/是一个比较独立的音位。另外荷兰语有非常独特组合ij,实际是双元音/ɛi/。例:Salman Al-Faraj(沙特阿拉伯)、Adnan Januzaj(比利时国脚,实际是阿尔巴尼亚人名),Stefan de Vrij(荷兰)。
突破口四:字母组合
拉丁字母不仅允许一个字母表达不同的读音,它更重要的突破是允许使用多个字母组合来表示一个读音,这使得拉丁字母的表示能力更为自由。26个拉丁字母中,最重要的组合字母莫过于h,除了我们在英语中接触到的ch、sh、th,世界语言的拉丁转写系统里h这个字母几乎无处不在,一些罕有的搭配,如gh、dh、nh等是非常有用的突破口。在h之外,z和j也时常用于双辅音组合中。我们先从h的不同功能入手,看一下通过h确定规律的方法。
*h表示送气:如果一系列人名中大量出现bh、dh、jh、gh等浊音字母+h组合,必为印地语、孟加拉语、乌尔都语等南亚语言人名。这里的h就是“送气”的符号,而浊辅音送气也是南亚语言的一大标志。当然清辅音加h同样能构成送气,所以ph、th、kh、ch等组合同样存在。东南亚的泰语、老挝语、缅甸语、高棉语同样用h表示送气,但它们通常没有浊的送气音。例:Gurpreet Singh Sandhu、Dhanpal Ganesh(印度),Kawin Thamsatchanan、Siroch Chatthong(泰国)。
注意,单从dh、gh并不能断定为南亚语言,dh在阿拉伯、希伯来语中表示英语里有的浊唇齿擦音/ð/,gh在很多世界语言中表示与拼音h相对的浊软腭擦音/ɣ/。
*h表示颚化:h出现在n、h等发音较稳定的次浊字母后,表示将发音“软化”,类似ny、ly这样的组合。nh和lh是葡萄牙语的标志性用法,尤其如果有lh则基本能断定为葡萄牙语。越南语、高棉语也存在nh,不过这两者在前面已经介绍了各自的判断方法。例:Marquinhos、William Carvalho。
*h的其他组合:如果人名中出现三辅音字母组合sch,并且sch之后还有辅音,这基本是德语人名(注意是德语而非德国,奥地利、瑞士都有德语人口)。德语将sch这三个字母定为一个读音/ʃ/,而且不使用英语的sh(所以德国前国脚Shkodran Mustafi这样的名字显然不是德裔,而丹麦守门员Schmeichel则明显是德裔的名字)。另外如果人名中在元音后、下一个辅音之前出现一个单独的h,表示长元音,这也多半是德语人名(阿拉伯人名的h一般做词尾)。例:Bastian Schweinsteiger、Bernd Schneider,Andreas Brehme、Jürgen Kohler。
*字母j的组合:如果人名中出现“辅音字母+j”这样的组合,这大体为北欧的冰岛、挪威、瑞典、丹麦、法罗群岛五国的人名,但注意芬兰不在此列。另外东欧的克罗地亚、波黑、塞尔维亚也有nj、lj这样的组合,功能类似葡萄牙语。北欧的日耳曼语族语言通常将j等同于英语的h,表示sh、ch这样的舌叶音或类似拼音j、q的颚化音。例:Simon Kjær(丹麦)、Bjørn Johnsen(挪威)、Šime Vrsaljko(克罗地亚)。北欧和东欧的区分应该没什么难度,至于北欧各国的人名如何区分,后面还会提到。
*字母z的组合:如果人名中大量出现“辅音字母+z”这样的组合,这基本能确定为东欧斯拉夫民族的人名,其中尤以波兰和匈牙利两国为甚,而其他斯拉夫国家通常只使用dz这一个组合。匈牙利还有一个相当标志性的组合“zs”,表示sh的浊音/ʒ/。例:Artur Jędrzejczyk、Łukasz Piszczek(波兰),Krisztián Vadócz、Szilveszter Hangya(匈牙利)。东欧各国人名的内部辨识我们后面也还会有涉及。
突破口五:变体字母
来到这一步,我们还有一项保留的武器,这一招有识别出精确到一个国家,诸如区分丹麦/挪威、捷克/斯洛伐克这级别的精确度。我们在前面已经看到了Š、ó、æ这样的奇怪符号,这些其实都是拉丁字母,只是它们都属于改造后的字母。拉丁字母本身的表音能力其实很弱,元音字母只有aeiou五个,辅音也比较有限,虽然人们发展了多字母表单音的模式,但很多语言并不接受这种书写和口语音素脱节的文字。于是很多语言发展了另一条路线:在原有的字母上加附加符号,或者干脆把两个字母连写成一个。比如/s/和/ʃ/两个音,如果把后者写成sh,难免会跟本来做辅音的字母h混淆,让人理解成s+h两个音,所以一些语言把后者写成了Š,这个符号表示它只发一个音,这可以让整套字母更贴近“音素字母”的形式。
字母附加符号系统本身是一套比较科学的方案,但最大问题在于效率不足,尤其在如今的计算机时代,很多附加符号受到键盘输入、网站编码等问题限制,很可能表达不出来,最后人们只能写成其原本的形式。比如我国的拼音方案本来规定了ü这个基于字母u的变体元音,但由于人们难以找到合适的方式表达,这个字母反倒成了形存实无的尴尬状态,乃至很多人只能拼音不用的辅音字母v强行安到了这个元音上。
所以对于本来不是拉丁字母的语言,拉丁转写方案是遵从效率准则(只用既有字母但使用多字母组合)还是严格对应准则(使用附加符号且一字一音),这在世界范围内分歧很大。但目前世界国家大体上还是倾向于只用既有26个字母,尤其受只用基本字母的英语影响。而原本是拉丁字母的欧洲大陆国家,倾向于带变体字母的更严谨的正写法,于是附加符号的使用,给了我们很好的识别语言和国籍的突破口。下面我们试着按照不同类别的变体字母来寻找鉴别语言的要点。
变体辅音
*有字母ß的必为德语人名,这个字母表示两个s连写,不兼容环境会写成ss。近年德国国家队名单里出现过这个字母的有Kevin Großkreutz、Stefan Kießling。
*有字母Ð/ð的必为冰岛或法罗群岛人名,这个字母即国际音标里的/ð/,在英语里是浊音的th,不兼容环境会写成D/d。这也是识别冰岛与北欧其他国家的显著标志。本届世界杯冰岛队就有非常多的球员带有这个字母,如Samúel Friðjónsson、Albert Guðmundsson。
*有字母Ł/ł的必为波兰人名,这个字母在波兰语正字法里表示的是通常做半元音/w/,是波兰语里非常诡异的一个符号。不兼容环境下会直接写成L/l,导致这个音和差别很大的舌边音/l/相混。本届世界杯波兰队也有很多带这个字母的球员,如Jakub Błaszczykowski、Łukasz Fabiański。
变体元音
*有连字Æ/æ的必为北欧日耳曼语族人名,但是只有冰岛、法罗群岛、丹麦、挪威使用,瑞典并不用。本届世界杯有冰岛队的Birkir Sævarsson,丹麦队的Simon Kjær。
*有字母Ø/ø的也必为北欧日耳曼语族人名,但只有法罗群岛、丹麦、挪威使用,冰岛、瑞典不使用,而是用Ö。本届世界杯丹麦队有Frederik Rønnow、Mathias Jørgensen。
附加符号辅音
*有字母Ñ的基本是西班牙语人名(也可能是巴斯克语),这个符号表示颚化的n,这个辅音在法语和意大利语里写成gn,在葡萄牙语里写成nh,这也是西班牙语的一个识别标志。不过在西语里这个字母并不常见,一届世界杯往往有七八支西语球队,但带这个字母的人名加起来可能也就两三个。例:Marcos Acuña、Ramón Núñez。
*在C、S、Z等辅音字母上加一个弯钩“ˇ”的必为东欧斯拉夫国家人名,但不是波兰。这个符号的功能类似于英语的s~sh区别,通常字母上加弯钩的“Š”表示和英语sh一样的/ʃ/音,字母上加上提的“Ś”表示和拼音x一样的颚化音/ɕ/,一些东欧语言有两组对立,比如捷克、斯洛伐克是s和ʃ,波兰是s和ɕ,而塞尔维亚语有三组完整的对立(相当于汉语的sh/s/x)。匈牙利语则非常独特,完全不使用附加符号的辅音,将s/ʃ对立表示成sz/s。
另外,捷克、斯洛伐克还有Ď、Ť、Ň三个特有字母,捷克有Ř,斯洛伐克则是Ŕ。
例:Nenad Krstičić(塞尔维亚)、Mario Mandžukić(克罗地亚)——两个符号同时出现是南斯拉夫诸国(塞尔维亚、克罗地亚、波黑、黑山)的典型特征。例:Tomáš Hořava(捷克)、Róbert Mazáň(斯洛伐克)
*在字母G上加弯钩的“Ğ”的必为突厥系国家(土耳其、阿塞拜疆)人名,这个符号也表示颚化,但土耳其语里有这个独特的软化g音。另外,突厥系语言表示s/sh对立使用的符号是下加钩的Ş和Ç,这也是突厥系的一个标志特征。Ç和Ş都有必为突厥语,只有Ç可能是法语、葡萄牙语、加泰罗尼亚语和阿尔巴尼亚语,只有Ş可能是罗马尼亚语。
例:Oğuzhan Özyakup、Çağlar Söyüncü。
附加符号元音
由于拉丁字母只带有五个原生元音字母AEIOU(当然理论上Y也是个元音字母),但语音学上的元音远比字母复杂,所以世界语言使用的元音附加符号也比辅音复杂得多。这里我们只选择一些识别特征明显的元音附加符号元音介绍。
*有字母Å的必为北欧国家人名,丹麦、挪威、瑞典、芬兰使用,但冰岛不用,这个字母表示比标准元音o开口稍大的/ɔ/,芬兰语里也可能表示长元音/o:/。例:Pål André Helland(挪威)、Gunnar Åström(芬兰)。
*有字母Ă的基本是罗马尼亚人名,罗马尼亚还有反过来的弯钩“”。另一个罗马尼亚语的独有符号是T下加一撇的Ț,表示/ts/。例:Alexandru Cicâldău、Florin Niță。
*有字母上带两撇的Ő或Ű的必为匈牙利人名,这个符号是上加两点的Ö、Ü 的变体,表示长元音。例:Gergő Lovrencsics、János Hegedűs。
*有带下降的点号“`”的字母À和È的基本是法语或意大利语(也可能是加泰罗尼亚语),这个符号的本意是标示重音,但放在e和o上用于区分音量不同的è[ɛ]和e[ə],意大利语有ò而法语没有。不过在意大利语人名不经常标这个音,而法语还可以见到。例:Anthony Réveillère(法国)、Nicolò Barella(意大利)。
*有波浪号字母Ã或Õ的必为葡萄牙语人名,这个符号表示鼻元音,识别特征非常明显。例:João Moutinho、Luisão。葡萄牙语系人名的另一个识别特征是登记的名字往往只是一个简单的昵称,如Ronaldo、Kaká、Deco,而不是西方人通常First name+last name的格式,这在看大名单时尤为明显。
突破口六:人名词缀
本文最后,我们来看一个比较轻松的识别特征——后缀识别。这个方式简单粗暴,比如我们常见的北欧的son、东欧的ski、ić、v、enko、希腊的s等,像希腊那样所有人名字都以s结尾的,自然是再爽快不过了。这里我们简单关注一些有鲜明的民族色彩的人名后缀。
*人名都以s结尾:希腊、立陶宛、拉脱维亚人名,s作为标示男性人名的后缀。希腊和立陶宛人名一般是元音+s,而拉脱维亚人名更多是辅音+s,另外希腊语用的是希腊字母,转写的罗马字基本不用附加符号,而波罗的海国家文字有大量附属符。希腊人名不以s结尾的话一般会是o或ou,立陶则是kij。例:Kyriakos Papadopoulos、Dimitrios Kolovetsios、Marios Oikonomou(希腊),Arūnas Klimavičius、Daniel Romanovskij(立陶宛),Vladimirs Kamešs、Artūrs Karašausks(拉脱维亚)。
*人名都以v结尾:保加利亚以及乌兹别克斯坦、塔吉克斯坦、吉尔吉斯斯坦等中亚国人名。保加利亚人名基本只以v结尾,而中亚国家也可能存在其他后缀。
*人名都以yan结尾:亚美尼亚人名,同样是表示男性的后缀。亚美尼亚人名也可能出现类似非洲人名的一个鼻音m开头的拼写,如Henrikh Mkhitaryan,但这个m要发成一个整音节,而不是非洲语言里的鼻音化辅音。
*人名以shvili或dze结尾:格鲁吉亚人名,这两者都类似北欧人名常见的“son”,表示“XX之子”,比如从政的著名球员Kakhaber Kaladze。其他例子:Zurab Khizanishvili、Georgi Nemsadze。
*人名带有冠词前缀Al:阿拉伯国家人名,Al是阿拉伯语的冠词,在人名中使用,表示尊贵的身份或家庭出身,类似西方的van或von。连字的Al-常见于阿拉伯半岛上的沙特、卡塔尔、阿联酋、阿曼等君主国,而在伊拉克、黎巴嫩和北非国家很少见,埃及人名可能会写成El。例:Mohammad Al-Sahlawi、Ali Hadi Al-Bulaihi(沙特),Mohamed El Shenawy(埃及)。
实战挑战
最后,我们来看一些实际的例子,每一份名单都截图自维基百科上世界杯的国家队阵容页面,维基百科上尽可能保持了人名的原始形式,使用变体字母、附加符号等都没有处理。读者可以尽量推测出大致的范围或推测出基本的语言归属,当然具体的国家也不算很难。
挑战1:
挑战2:
挑战3:
挑战4:(提示:一支参加过最近四届世界杯之一的球队)
挑战5:(提示:球员可能来自不止一门语言的出身)
答案:1. 瑞典(1970年世界杯)2. 捷克斯洛伐克(1970年世界杯)3. 土耳其(1954年世界杯) 4. 安哥拉(2006年世界杯)5. 瑞士(1966年世界杯)
来源:知乎 www.zhihu.com
作者:宋宁世
【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载