分子人類學、語言學及各種其它 molecular anthropology, linguistics, etc.

0%

最近對rap(說唱)的雙押有些興趣,就自己總結整理了一下ㄦ北京話的。中國的方言rap很發達,尤其西南地區的,這裏只敢對自己的母語作總結。其它方言區的rap作者和愛好者可以根據本地的習慣自己總結。不過很多方言和地方普通話的特點也是有很大共性的,方言作者可以參攷。

(注:本文中,單成音節的“兒”用普通漢字,不成音節的兒化用注音符号ㄦ“ㄦ”表示。但不保證行文中的所有兒化都會把“ㄦ”寫出來。)

雙押是rap押韻的一種常用的形式,最嚴格的雙押要求每小句的最後兩個字分別韻母和聲調都一致。比如“物理,故里,物體,數理,墳墓裏,附體,不已,杜比,助理,護理,告訴你,對不起,大福蔭護助裏”。

爲了快速想到韻腳,我想到可以編一個類似《切韻》的韻書,只不過爲了雙押做成二維的表格,用excel就可以做。北京話的韻我從嚴不從寬,整理出34個韻類,乘以4個聲調ㄦ是136個韻,另外還有輕聲(如下表。國際音標是我目前的描述,以後還可能變化)。和其他人的區別除了分了聲調(開始的目的是爲了rap做韻書,而rap押的時候要分調ㄦ)及加了兒化,主要區別是分了ie üe(後者我覺得圓脣元音聽感還是有區別,雖然不如i ü明顯),分了en un(後者至少在我的口音裏u就是主元音)。而在兒化方面,我不是特別細,比如ar air anr我是全合的,ier和ir, inr我也不分(小街ㄦ=小雞ㄦ)。

以我目前的語感總結出來的北京話韻表ㄦ

對於雙押來說,我提幾個北京話的特點。

一、兒化發達。很多時候,音系有空位時,有自動塡滿的傾向。比如“麻、馬、罵; 苗、秒、廟”是中古音演化下來就有的,但中古音的m聲母自然演化不會有陰平調ㄦ,但就塡出了“媽、喵”這樣的音。而北京話爲了“兒、耳、二”三個音節塡出了一大套兒化韻母。北京話的兒化相對不自由,該兒化的要兒化,不該兒化的不能兒化,兩可的情況比較少,有和沒有兒化的字一起押韻會很彆扭。比如“草稿ㄦ、小煼ㄦ、小寶ㄦ”和“淘寶、老鴇、小腦”互相押就難受,前者硬要去掉兒化也不自然。(順便,連上變調ㄦ和陽平-上組合是幾乎一樣的,所以“淘寶”和“小腦”就可以一起押。)

北京話的兒化也不一定都是最後一個字,也有的是倒數第二個字。比如“二〇二三”(看韻表,“二”和“而、耳”的韻母元音不同,至少我的語感如此,我知道趙元任時候以至編漢語拼音的時候這三個應該是同韻,都是er,而現在一些新派口音會把“而”、“耳”也發成ar)可以和“片ㄦ川”押,而“片ㄦ警”可以押“餡ㄦ餅”。

二、輕聲和重讀不互押,輕讀一些情況下可以和輕聲互押,也可以和重讀互押。什麼意思呢?雙字詞的輕重可以分三檔,重讀輕讀輕聲輕聲指的是一個字ㄦ完全失掉原有的聲調ㄦ,中和了,形成了一個新的調類。而輕讀指雖然不是重音,但仍然保持本身的聲調性質,且能影響前字的聲調。舉個例子:找死、老死(指人老到自然死亡)、餃子。前一個“找死”的“死”是重讀,zhǎo sǐ [tʂɑʊ̯³⁵ sɿ²¹³],“找”爲連上變調ㄦ(升調ㄦ,約等同陽平)。第二個“老”是重讀,“死”是輕讀,[lɑʊ̯³⁵ sɿ²²],“死”雖然沒有把聲調讀滿,但仍然是上聲的地位,還是能把前面的“老”字帶成連上變調ㄦ。而第三個“餃子” [tɕi̯ɑʊ̯²¹ ʦɨ⁴],“子”是輕聲調ㄦ,失去了上聲的特性,而前面的“餃”就成了和陰平、陽平、去聲之前一樣的半上變調ㄦ(低調ㄦ),“子”字隨之聲調擡高。這種情況下,我的語感是重讀“找死”和輕讀“老死”可以通押,而和輕聲“餃子”完全不能互押。

但另外一些情況下,輕讀和重讀押到一起比較難受,但輕讀和輕聲可以。比如“祕書 mì shu、屁股 pì gu、技術 jì shu”的後字是輕聲,完全可以押在一起,和“義烏 yì wū”、“辟穀 pì gǔ”、“庇護 bì hù”(三詞均爲後字重讀)就都押不到一起。而輕讀的去聲,比如“密度 mì dù”、“義務 yì wù”、“益處 chù”之類後字輕讀的,和前面列的輕聲可以押,但和重讀的“庇護、記錄、剃度”之類一起押略顯難受(雖然不是完全不行)(“計數ㄦ”後字是重讀的兒化,和“記錄”也不太押)。

三、北京話在讀英語時有自己一套口音(本段ㄦ爲自黑)。說唱經常能看到漢語詞ㄦ不夠了,就找英語來押韻。如果要湊成合理的雙押,也要滿足一定的關係,保證聽感差不多。

  1. 聲調ㄦ上,雙押的兩個音節一般至少有一個重音,因此英語裏能跟漢語押的,一般有重讀在倒數第一音節和倒數第二音節兩種。因爲北京話和普通話不接受鼻音尾n ng以外的閉音節,也不接受雙韻尾的音節(比如main /meɪ̯n/、down /daʊ̯n/),英語的韻尾在北京人的語感裏會要麼省略、要麼拆出輕聲調的音節(但不改變重讀音節被識別爲降調即去聲)。

1.1. 如果是英語重讀開音節在末尾,一般當作去聲,也要是重讀,之前的輕讀音節當作上聲。比如away可以押“馬背 mǎ bèi”。

1.2. 如果是英語重讀閉音節在末尾,韻尾析出爲單獨的輕聲音節,前字爲去聲。比如house押“帽子 mào zi”。

1.3. 如果是英語倒數第二音節爲重音,且最後一輕讀音節能直接轉爲漢語類似的音節,則倒數第二音節爲高平調即陰平,而最後一音節爲輕聲或輕讀。比如hater押“催巴ㄦ cuī ber”(我也不知道這個詞正字該怎麼寫,北京話裏指“伺候人的人、跑腿ㄦ的、打雜ㄦ的”)。

  1. 元音上,英語主元音應該和漢語一致或者差不太多,以免顯得太土。

2.1. 英語的/iː/和漢語拼音i,英語的/eɪ̯/和漢語拼音的ei,英語的/ɑː/(雖然美式英語裏這個元音很少)和漢語拼音的a,美式英語的/ɑ˞ː/和北京話的ar,美式英語的/ə˞/和北京話的er基本是一樣的。英語的/əʊ̯/或/oʊ̯/不同口音變化很大,北京話ou[ɤʊ̯]在其變化範圍內,也可以直接押。所以peace押“意思”、father押“痂巴ㄦ gā ber”(更不知道正字該怎麼寫了,北京話指粘液沾在物體上乾燥後形成的硬殼ㄦ)、mate押“這個 zhèi ge”,guitar押“幾瓣ㄦ”都挺順的。

2.2. 英語的[ɑɪ̯]和漢語的ai [aɪ̯]有元音前後的區別、英語的[aʊ̯]和漢語ao [ɑʊ̯]區別更大(前者更像廣州人的aau)、英語[u̘ː]明顯比漢語u [u]偏前,這幾組湊合能押,但一聽就像北京人念出來的。還有短[ɪ]短/ʊ/(其實快到[ɵ]了)和漢語的i和u就更遠了,但也湊和。比如mice押“麥子”,mouse押“罩子”,food押“吐了”,一股濃濃的北京味ㄦ。

2.3. 北京話是缺簡單的中單元音的,就是說/e ɛ o ɔ ʌ/之類都不能單獨出現,要麼是雙元音,要麼跟個鼻音韻尾之類,所以英文的/e æ/之類元音在很多北京人都實現爲雙元音ai。例如bet /bet/, bat /bæt/和bite/bɑɪ̯t/都讀成bài te [paɪ̯⁵² tʰə²]。我個人建議碰上英語這些中單元音的詞就別隨便跟漢語押韻了,傳出去有點ㄦ丟人。

2.4. 輔音韻尾析出的音節會根據聲母的發音位置自動析出一個元音。脣音/b p m f v/是u,/t d k g/是弱讀[ə],/s ts z dz θ ð/是/ɿ/,/tʃ dʒ ʃ ʒ/按北京口音是/ʅ/(這個會顯得很北京,因爲英語這些是舌葉音不是捲舌音)。n l(dark l讀成[ɫ],音色接近一個後元音)會比較複雜。比如time讀tài mu押“大夫”,wake 讀wèi ke押“醉了”,rose押“柚子”。file會讀成fài ou押“蓋頭”。

  1. 英文字母在北京有一套傳統的獨特的念法、固定的聲調ㄦ,與一般單詞規則不同(這是把北京話黑得最慘的一段ㄦ)。比如A ēi、B bì、C sēi、D dì、E yì、F ái fu、G jì。這樣 M 讀 ái mu 押“排骨 pái gu”,L 讀 ái lou 押“牌樓 pái lou”,“阿Q”讀 ā kiùr [ʔᴀ⁵⁵ kʰi̯ɤʯ̯⁵²]押“壓軸ㄦ yā zhòur”,PCR(聚合酶鏈式反應,生物狗常做的一種實驗)讀 pì sēi ʼár 押“黑牌ㄦ”。

最後給出一個我的雙押習作(眞沒有內涵誰,純爲押韻,別對号ㄦ入座ㄦ):

從前我有一個妹夫
起個英文名叫Dave
雖然已經不小歲數
每天活得像個廢物
不洗臉也不疊被乎
除了睡覺就是game
喫飯也是隨便對付
他說想要當個稅務
這也行我實在佩服
攷不上就拿錢賄賂
也要混進幹部隊伍

​​​​(節奏型都用 6/8拍, 0. x x_ | x x_ x x_ | x x_ 0. :|| 這樣)

我做了一個埃及象形文字聖書體的輸入法,字符基於 Unicode 編碼。輸入法編碼有幾部分,每個基本符号都有一個 Gardiner code 的輸入方法,A-Z 爲大分類,每一個符号再接以數字,如 A、B、C、D 各代表男人、女人、人格化的神、人體部分。比如 𓀀 是 A1,𓏠 是 Y5 等等。

然後從1980年代起有一個埃及學家制訂的用 ASCII 碼轉寫聖書體的規則,稱作 Manuel de Codage ,簡稱 MdC 。在以上的分類形碼以外,還有音碼,每個音素用一個大寫或小寫字母表示。對於已知發音的符号(可以理解爲偏旁,包括意符、形旁和聲旁)也可以用音來表示。比如 𓏠 (Y5) 的發音是 mn 。和漢字一樣,聖書體的同音字和多音字都很多,但 MdC 爲了便於記憶及避免歧義,指定了一組單音素、二音素、多音素的基本符号,比如 i 就是 𓇋 ,而不會輸入同音的 𓀀 等字符。

因爲聖書體並非單一的從左到右線性書寫,MdC 還有組合規則,比如 ‘-’ 爲左右排列, ‘:’ 爲上下排列, ‘*’ 爲下一級的左右排列,即結合順序是先 * ,再 : ,再 - 。比如 Amenhotep 的名字如圖
𓍹𓇋𓏠𓐰𓈖𓊵𓐰𓏏𓐱𓊪𓍺
,在王名框(用 ‘< >’ 表示)內的符号從左向右、從上到下的符号讀音分別是 𓇋 i、𓏠 mn、𓈖 n、𓊵 Htp、𓏏 t、𓊪 p,則其 MdC 轉寫爲

1
<-i-mn:n-Htp:t*p->

,Unicode 輸出爲 𓍹𓇋𓏠𓐰𓈖𓊵𓐰𓏏𓐱𓊪𓍺 。

當然了,因爲 rime 系輸入法有選字的功能,我們不必拘泥於嚴格的 MdC 規則而要求無歧義,而可以加入更多的編碼。一次輸入也可以輸入一個“字”甚至多個“字”,而不必一次只輸出一個偏旁/獨體字。
我這裏定的規則爲:輸入 MdC 的音碼,若以 ‘;’ 結尾則爲 MdC 標準所無的單個符号,而以 ‘~’ 結尾則輸出一個組合字。
例如 ‘mniw’ 輸出標準的 MdC 字符 𓀦 (A33),而 ‘mniw;’ 輸出同音的字符 𓀸 (A47),而 ‘mniw~’ 輸出同音的組合字 𓀰𓅱𓀀 (A42-w-A1)。如有更多的同音字也都在接 ‘;’ 或 ‘~’ 的碼裏面選,而不耽誤 MdC 的盲打。當然現在詞表還只是一個示意,非常不全,待以後慢慢補充了。

下載和安裝說明

rime聖書體下載: https://github.com/biopolyhedron/rime-hieroglyph-mdc

安裝好 小狼毫/trime/prime/中州韻/鼠鬚管 等輸入法後,將兩個 .yaml 文件複製入 rime 系輸入法的“用戶文件夾”後,“重新部署”即可運行。若未能自動加入本輸入法,可能需要在 default.custom.yaml 文件中的 patch/schema_list: 下加入一行

1
- {schema: hieroglyph_mdc}

再部署。

聖書體普通字符(U+13000 ~ U+1342F)若未能自動支持,可在 Win10 中査找 ‘Segoe UI Historic’ 字體( ‘seguihis.ttf’ 文件),或下載 ‘Noto Sans Egyptian Hieroglyphs’ 字體。而目前尚無能夠正確顯示聖書體字符組合(需要正確解釋控制符 U+13430 ~ U+1343F )的字體,不過在可以先加上控制符輸入着,假裝能夠看見正常的顯示,等待能夠正確顯示的字體出現。

其餘說明都在 hieroglyph_mdc.schema.yaml 的文件頭裏面,及自己看 hieroglyph_mdc.dict.yaml 就好了。

另外有能用 MdC 轉寫法正確顯示聖書體的 Java 小程序,叫 JSesh,在這裏下載: https://jsesh.qenherkhopeshef.org/

在我的 github https://github.com/biopolyhedron 裏面還有中古全拼和中古三拼,西夏文四角輸入法,及各種基於拉丁轉寫及 QWERTY 鍵盤的輸入方案(比如藏文、維吾爾文、蒙古文、滿文、緬文、朝鮮文、梵文天城體、拉丁字母(含各種附加符号,可輸入國際音標)、阿拉伯字母(含各種附加符号)、基利爾字母(可輸入俄文和新蒙文)等等,其中有部分是和其他朋友合作的。

假如您覺得我的輸入法特有用,下面有“打賞”按鈕,隨便給點兒就行。

我集合了一些最近測試的Q-M242支系的全序列,包括復旦和源基因捕獲測試的Y染色體高通量數據、公開可得的一些數據(比如1000Genomes)和一些在別的機構測試上傳到源基因的bam,計算並細化了Q單倍羣的樹形。更新的樹形(含部分重要節點的共祖年代)見 源基因网站 裏面的“Y染色體樹”。
圖1 源基因Y染色體樹

樹實際上做了兩棵,一棵是帶有所有樣本的,即使測序質量稍差(read數偏少或者可以用來比對的區段偏少)的樣本也都放了進來,盡可能包括所有質量尚可的位點,做了一棵簡約樹(maximum parsimony,或者在一些輭件中稱最小演化樹,minimum evolution),這就是在上面源基因网站看到的樹。目前我們已經定義了69個支系。我們手裏擁有的Q高通量序列數多於這個支系數。而我們近年來定義一個支系的原則是,只有多於一個樣本(且不是父子、祖孫這樣非常近的關係)擁有獨特的共同的突變位點,我們纔會定義這個支系及命名相應位點,以免單個樣本發生測序錯誤,或者一些染色體結構特徵導致一些位點容易發生回復突變導致把過多不靠譜的位點加到樹上。

另一棵就是下面的算齡樹。這棵樹只保留了質量好的樣本及SNP區段,以保證每一個樣本在每一個位點都有可靠的測序結果。我們只保留了45個Q-M242的序列,時閒是用BEAST計算的(實際都有95%置信區閒,可以在源基因网站的樹上査到。)
圖2 Y染色體Q-M120的算齡樹

這棵樹上,右邊每一個端點代表一個男性的序列,橫坐標爲時閒。樹上每個支系名稱用藍字標在共祖的枝上方,比如Q-M242,Q爲支系名稱,而爲了明確,把定義的一個位點(如M242)標註在後面(因爲在不同版本的樹上,可能相同支系名稱會有不同所指)。而節點的年代用紅字標在節點的右側,單位爲千年。需要說明的是,靠近末端的支系經常算出的時閒會偏老一些(即新近的突變速率會偏快一些),但在沒有好的古DNA校正的情況下先只能按固定突變率來計算。

因爲我已經好久沒講過Y染色體了,所以回憶一下整個的Y染色體樹。如下:
圖3 Y染色體大樹

(本棵Y染色體樹已經加入了丹尼索瓦人的Y染色體。)大家可以看到,Q-M242單倍羣的“兄弟”單倍羣是R-M207,二者皆爲P-M45的下游支系,二者分開時閒約3.4万年。而Q單倍羣內部分開最早在3.1万年前。Q單倍羣在全世界的分佈是這樣:
圖4 Q單倍羣全球頻率

即主要分佈於亞洲和美洲(這個地圖指500年前土著的單倍羣,不包括哥倫布時期以後的移民)。在亞洲比例不高,比如在中國是2%左右,而在北亞一些族羣,有少數如葉尼塞語系的Ket人中比例較高。而在美洲土著中Q普遍多於90%。然而從支系角度,我們發現Q的早期分支基本都位於亞洲,包括南亞、中亞、北亞、中國等地,而美洲土著的Q大多數集中於Q1b1a1a-M3這一支。因此說明整個Q-M242應當在約3万年前發源於亞洲,直到約1.5万年前進入北美而迅速擴張(還不清楚具體位置應該在阿拉斯加還是落基山以東),因爲有始祖效應,因此能在美洲土著中占絕大多數的比例,而非比例最高的地方爲起源地。

在美洲的Q1b1a1a-M3這一支下的Q1b1a1a1-M848的下游,形成了一個超大的星形擴張(圖2中的紫框),目前來看可能至少20支直接的下游,其年代目前算出來大約爲1.5万年前。(也許應該命名爲Qβ-M848了,但我手裏美洲樣本序列太少,沒法很好給出下游命名。)很多支系分佈都很散亂,在南北美多個族羣裏都有。

而中國(尤其漢族)最主要的支系是Q1a1a-M120,尤其是在Qα-F1626下形成了一個密集擴張(圖2中的綠框),年代目前算出來是5640年(實際會比這個更晚近,可能在4000多年)。從Y-STR來看,Qα-F1626這支有一個明顯的特點,DYS391取低值,多數爲9,而Qα1a2-F4529這支普遍取值爲6,僅通過DYS391=6這一個點即能相對準確地判斷一個樣本屬於Qα1a2-F4529。
圖5 Q1a1a-M120漢族各省分佈

總體來說,Q1a1a-M120在漢族平均在2%左右,在北方部分省份能到10%左右,在其它各民族中基本也是0~10%的比例。而Q*-M242(xM120) (即整個Q-M242除掉Q1a1a-M120的部分)在全國更少,僅在維吾爾族裏比例稍高(有Q1a2-M25和Q2a1-M378)。

結合分佈(漢族各處較均勻,北方多)和擴散年代(四五千年),我們猜測Q1a1a-M120是華夏形成早期即融入的一支,但也非全部在4000多年前就融入了,約3000年前西周時期山西橫北倗國墓地和約2500年前戰國時期的寧夏彭陽遊牧人羣也都發現了這一支Y染色體。而這一支是否與青銅器、小麥等傳入中國有關,還需要進一步檢測西北地區的古DNA纔能揭曉。

如果大家想要知道自己的父系屬於Y染色體的什麼類型,可以參加源基因的測試(需要男性樣本,如果是女性對自己的父系感興趣,可以測自己的父親或兄弟)。在 源基因网站 購買一個測試即可。“父系基礎版”僅測Y-STR,用於比對兩個家族是否近支關係,而“父系尊享版”檢測Y染色體>10Mbp的區域,可以幫助我們細化這棵Y染色體譜系樹(尊享版建議在网站上聯繫客服參加團購),計算兩個人共祖的年代,也可以選擇把自己的Y染色體加到這棵樹相應的位置上(分子人類學愛好者中俗稱“上樹”)。

而如果您已經在其它機構對自己的Y染色體做過高通量測序,或者檢測過自己的全基因組(需要30×以上,需要拆分出Y染色體部分),也同樣歡迎您上傳自己的Y染色體bam文件(不支持僅包括位點的vcf等其它格式文件,在源基因网站註冊、登錄後點“數據導入”),源基因目前階段也能免費給您判斷所屬支系,計算兩個人的共祖年代(但用某些機構測出的bam,計算值可能誤差較大,最建議在源基因測),“上樹”,及使用您的序列來細化樹形。

我們對Y染色體各支系的細化是按大單倍羣一個個輪替的,已經完成一輪C、O、Q單倍羣,目前正在計算N單倍羣的樹,再下一步是D。如果您屬於D-M174單倍羣並在我或源基因之外的其它檢測機構獲得了Y染色體bam文件,歡迎盡快向源基因上傳。(其它單倍羣樹形也會輪替更新,只是時閒會稍後一些。)​​​​

(中文版本見後)

I re-rooted the whole sequence phylogenetic tree of Covid-19 (2019-nCoV; SARS-CoV-2). The phylogeny shows up that the most recent common ancestor (MRCA) might be circulating in human several months before the outbreak in Wuhan in Dec. 2019; the outbreak might be related to a non-synonymous Ser > Leu mutation in ORF8.

The auspice site collected dozens of whole genomic sequences of Covid-19, and made good visualization for the phylogeny. The webside put the node of the biggest “star cluster” as the beginning as the outbreak, which are commonly believed as the origin of the prevalence of this plague. However, this phylogenetic tree is unrooted. Since the mutation rate of a virus may not be in accordance with molecular clock assumption, the most recent common ancestor, or the “entrance of the tree” (e.g. “Y-chromosomal Adam” or “mitochondrial Eve” of modern human) should be confirmed through outgroup sequences. As the human Y chromosomal and mitochondrial trees were rooted using chimpanzee or Neanderthal sequences, naturally the closest strain to Covid-19, RaTG13, which was found in a bat in Yunnan province was applied for the re-rooting.

I discovered that the largest “star cluster” was not the MRCA of Covid-19! The root is shown in red in Fig. 1 and Fig. 2. Three mutations, C8782T (Fig. 3), T28144C (Fig. 4) and C24034T (Fig. 5) are found identical between bat coronavirus RaTG13 and those Covid-19 on the right of Fig. 2, but different to the others. So the root should be located at the position in red (although no sequence was found at this position, the closest sequence is one mutation away). A T>C muation at pos. 24034 caused a non-synonymous Ser > Leu change, which might cause the enhancement of the virulence. Also the rooting implies that Wuhan could be not the only candidate where the origin infection among human occurred; the virus circulation might have last a few weeks before December of 2019, but only known by human due to the rising of virulence in Wuhan. Future investigation of those sequences near the root might reveal hints for the origin of Covid-19.
Fig. 1
Fig. 2
Fig. 3
Fig. 4
Fig. 5


我有了個重大發現:所有本次新冠病毒的共祖可能早在12月之前的數月;在武漢的爆發也許與一個蛋白突變有關。

大概說一下:這個网站 ,收集了幾十條新冠病毒的全序。网站把武漢最大的一個星簇作爲最左,同時一般也以爲這個是時閒最早。但以我對Y染色體和線粒體的經驗,最大的擴張處未必是最早的節點。這個其實是棵無根樹。尤其因爲病毒的演化速率會不符合分子鐘假設,而無根樹最早分化的節點(如“Y染色體亞當”和“線粒體夏娃”)需要通過outgroup來定根。現代人的Y染色體和線粒體可以用黑猩猩或尼安德特人來定根,而新冠病毒我自然想到用和其最接近的雲南蝙蝠冠狀病毒RaTG13來定。

結果,我發現最大的那個餅並不是樹根!眞正的樹根其實是在圖1和圖2標紅的位置。有三個突變,C8782T(圖3),T28144C(圖4),C24034T(圖5),RaTG13都是和圖2偏右的樣本一致。說明整個新冠肺炎的始祖是在紅叉處(但截至目前並沒有測到過序列全同的樣本,最少的也是差一步)。而ORF8(某個被翻譯的蛋白)上的T>C突變造成了一個絲氨酸到亮氨酸(Ser > Leu)的殘基改變,有可能是病毒毒力增強的重要位點。同時還說明,武漢有可能不是病毒的原發地,12月之前該病毒在人閒已經傳播數月,只是在武漢因毒力增強爆發纔爲人所知。最接近樹形眞正根部的這些樣本也許能提供病毒最初來源的更多線索。

順道說一下,中南大學的黃石敎授,爲什麼說人類的共祖不在亞洲而是非洲,就是因爲你定根定錯了!
Fig. 1
Fig. 2
Fig. 3
Fig. 4
Fig. 5

完了,這回我眞看出問題了。還是序列比對,之前有個地方我沒注意,就是S蛋白(spike)中閒有一個內切位置,在病毒進入細胞後,蛋白內切酶把S蛋白切成兩個亞基,在很多冠狀病毒一般是由胰蛋白酶(trypsin)完成的,包括SARS等。

這次問題就是在這個內切位置上了。之前我比對序列的時候,沒有留意這個位置。而這個位置正好是Covid-19和其它所有毒株,包括與其最近的雲南蝙蝠冠狀病毒 RaTG13都不同的(穿山甲在這段和Covid-19更遠),而且這前後的序列相對都比較保守(圖1,第1條序列是Covid-19,第2條是雲南蝙蝠RaTG13,第6條是人SARS)。Covid-19插入了4個氨基酸殘基(PRRA,即脯氨酸-精氨酸-精氨酸-丙氨酸),而前後的序列相比RaTG13都沒有變化。4個殘基就是12個核苷酸鹼基,並不是一種很容易發生的突變。而這一突變正好造成了一個furin內切酶識別位點。
圖1

furin是一種蛋白內切酶,識別的蛋白序列爲RXXR(R是精氨酸,X是任一殘基)。PRRA加上後面緊跟着的R正好形成了furin識別位點。我覺得有問題的頭一點是在保守區引入了這樣一個插入,形成了識別位點。(之前我寫過一篇東西,說印度團隊的分析不靠譜,是因爲他們分析說有插入的地方太不保守,不同毒株什麼樣的長度都有。但這次是只有Covid-19與別的株不同。)因爲這個地方正好是切開兩個蛋白亞基,多兩個少兩個殘基一般並不很影響蛋白構象。

再看,這個位點會不會是被人有意引入的呢?結果發現,2009年眞就有人做過實驗了,發在PNAS上,就是把SARS在這個位置的RSTSQ變成了RRSRR,即引入了furin識別位點(原先是胰蛋白酶(trypsin)的識別位點)。結果發現病毒侵染效率提高了(圖2)。
圖2
圖3

所以,這個地方眞的很像人工設計的了。不過現在還沒有一個除這個位點以外其它部分都特別像Covid-19的母本病毒序列被公佈。

參攷文章:

  1. 李鑫 (2020) 武汉2019冠状病毒S蛋白可能存在Furin蛋白酶切位点
  2. Wong MC (2020) Evidence of recombination in coronaviruses implicating pangolin origins of nCoV-2019
  3. Belouzard S (2009) Activation of the SARS coronavirus spike protein via sequential proteolytic cleavage at two distinct sites

以上爲我發在新浪微雹的原文。

後面我補充的是:

  • 這個多出來的PRRA確實不像自然演化的產物,而很符合人爲設計的特徵,但我也不能完全說這就不是自然演化,碰巧了。
  • 本文我沒有指責任何人,病毒是無意或惡意放出並不知道,在武漢爆發也不說明就是中國人放出。

文章發出半天之後,我迫於一些不方便說的壓力,在微雹上隱藏了這篇文章。

這篇發出以後,我收到了微雹上另外幾位老師的回覆討論,包括 @內含子 的評論@fengfeixue0219 的評論 。兼聽則明,我也推薦我的讀者能來看一下這兩篇,我認爲這是很有價值的討論,我也能從中學習到自己不熟悉的知識。我盡管未能被他們說服,但有一些點還是可以說一下的:

  • 雖然我之前也寫過兩篇東西,說新冠病毒不像人爲製造的,那是當時我能看到的證據。一次是印度團隊提出新冠病毒的S蛋白前段的幾個插入被認爲是與HIV有關,還有一篇是James Lyons-Weiler提出新冠病毒是由不同病毒拼接而成,而且用了一個pShuttle-SN vector,我認爲這兩個東西的分析方法都有問題,見 《武漢冠狀病毒是人工改造插入了HIV片段?》和《武漢肺炎病毒爲人工製造可能性的探討》,所以他們提出的以我來看都不是有效的說明新冠病毒爲拼接而成的證據。而這次討論的PRRA的furin識別位點的證據和上面說的有所不同。
  • 突變可以是人爲設計,也可以是自然演化。區別在於,自然演化的突變一般是在基因組全序列的各處隨機、散在地分佈,隨機突變完了,哪個能活下來繁衍後代,物競天擇適者生存之後你就能觀察到哪個。而如果是人設計一個東西,按照工程學的原理,應該希望產品功能可控、可預測、成功率高,這樣人盡量通過較少的操作來實現改造。因此如果說兩個序列同樣有n個位點的差異,如果這些位點很隨機地分佈在各處,就會更像是自然演化,而如果這些位點很密集分佈在某個區域,且功能以現有的方法能預測,就更像是人爲的。
  • 兩位老師的回覆提到自然選擇也可能造成插入,這個我是同意的。所以我也只能說是像設計的,而不敢確定就是。
  • 這種奇特的插入突變如果能較大幅度增強病毒的自我繁殖能力(受到正選擇),那麼即使這種插入突變發生的機率遠小於單鹼基替換,我們也是會看到這種突變的。
  • 具體這種插入突變是小概率事件,以目前的瞭解可能很難計算其概率是多少。任何一個生物你讓它自然演化兩次,各產生幾個突變,都不會形成完全相同的序列。假如是不受到選擇的中性位點(比如外顯子的同義突變),某區域發生多少個突變的概率還可以算一下,而發生正選擇的區域會有蝴蝶效應,就沒法計算了,也就是說不能因爲是小概率事件而否認自然發生的可能。寄生生物,包括寄生蟲、致病菌、病毒等,爲了適應環境的變化,其演化速率非常不穩定,不適用分子鐘假設。
  • 這是一個削弱新冠病毒爲人爲設計的理由:爲了能盡可能瞭解和掌握人工改造病毒的功能(不論是爲了硏究還是製造生物武器),人工改造會盡量選擇已經瞭解比較全面的株作爲母本,而不應該去隨便找個功能不明的野生株作爲母本,這樣風險太大,也難以衡量人工改造的效果。假如存在一個除furin識別位點以外其它部分都特別像Covid-19的母本病毒,其序列都沒公佈過,一定不可能是一個硏究很透徹的病毒。
  • Covid-19病毒中,穿山甲病毒比雲南蝙蝠病毒RaTG-13更相似的片段爲S蛋白的RBD區域,而在插入的PRRA前後,Covid-19仍然是和RaTG-13更爲接近。下圖來自Wong MC (2020)。
    圖4

如對本文有任何疑問,歡迎通過新浪微雹、telegram等渠道與我討論。

關於說武漢冠狀病毒是非典類似的冠狀病毒加以HIV片段改造的說法,我這裏來給出我的分析。

太長不看:印度團隊的分析有問題,我並不能看出武漢病毒有人爲改造的痕跡。

緣起是印度硏究者1月31号發在bioRxiv上的這篇文章«Uncanny similarity of unique inserts in the 2019-nCoV spike protein to HIV-1 gp120 and Gag» ,他們比對了SARS和武漢病毒上的一個重要蛋白spike,發現武漢病毒相比SARS多了4個區域的插入序列,各4-6個鹼基這樣(圖1)。然後他們把這4段短序列在所有病毒的序列裏面搜索了一遍,發現這幾段序列的最近匹配都在艾滋病毒HIV上面(圖2)。於是他們猜測武漢冠狀病毒是用某種現實中自然存在的病毒裏面用生物工程辦法加入了這幾段HIV序列改造而成的。
圖1
圖2

我的分析方法也很簡單,就是看這幾段序列是否爲武漢冠狀病毒所獨有。因爲如果確實是用已有序列加上這幾段HIV序列改造而來的,那麼和武漢病毒和SARS最近的幾種冠狀病毒應該是和SARS一樣,只有武漢病毒多出這幾段。於是我從 NEJM這篇文章 裏面選了幾個全基因組序列,提出了其中的spike蛋白序列(我挑選的序列見圖3的箭頭,1是武漢病毒,2是和武漢病毒比較近的蝙蝠冠狀病毒,5是SARS,3和4是和SARS比較近的蝙蝠冠狀病毒),然後做了一下序列比對。(我其實也用再遠一層的蝙蝠病毒KF636752和MERS病毒放一起比對過,但序列差距過大,會干擾武漢病毒和SARS的比較,於是扔掉了。)
圖3

結果這四個區域(見圖4-7),第1個區域只有人SARS偏短,其它的差不多;第2個區域武漢病毒和接近的蝙蝠序列很接近;第3個區域武漢病毒、武漢相關蝙蝠病毒、所有類SARS病毒分成3類;第4個區域僅武漢病毒長了,但HIV序列相比武漢病毒的這個區域又插入了好幾個鹼基;甚至還有一個區域(圖8),人武漢病毒和人SARS差不多長,而蝙蝠的都短。也就是說,至少從這幾個區域來說,是不符合【用一個野生病毒加上人爲插入HIV序列改造】這麼一個模式的。
圖4
圖5
圖6
圖7
圖8

至於印度團隊的錯誤,今天也有很多不同的文章批判過了,國內國外的都有。比如 這篇文章 ,指出印度團隊只搜索了NCBI的病毒數據庫,而搜索的序列因爲都非常短,所以E值並不算顯著。如果放寬搜索範圍到所有生物,則有無數匹配。另外有其它人搜索過,也找到了蝙蝠冠狀病毒的序列,所以可能是印度搜索用的庫收錄不全。

本文是 Nathan W. Hill 的«The Historical Phonology of Tibetan, Burman, and Chinese»(《藏語、緬語和漢語的歷史音韻學》)一書的讀書筆記。文中上古藏語一律用國際音標,並以*標記,而傳統藏文一律用Wylie轉寫,需要時用/ /加註國際音標。

藏文在早期藏文到目前定型的藏文之閒,系統性的音變只有 sts > s 一個(如古藏文 la stsogs pa > 藏文 la sogs pa),另外普通的 i ི 和反 ï ྀ 在古藏文有區別,但又是亂的,定型的藏文就合併了。還有基字後的 འ 原先經常寫出來,現代就省略了,除非無後加字,如 འདའས་ vdas 現在只寫 འདས་ 了。(按:是否還需要提一下 -ld、-rd、-nd 的次後加字現在不用了呢?)

一、張琨定律(Chang’s Law):

b- 前加字會被後接的鼻音聲母同化:*b-n- > mn-, *bȵ- > mny- /mȵ/
例: “壓”過去時 *b-nan-s > mnand

二、柯蔚南定律(Coblin’s Law):

  1. *b-b- > b-, *b-p- > p- (同化,太自然了)
    例:“做”過去時 *b-bya-s > byas
    (以下C爲輔音,V爲元音,N爲鼻音)

  2. *ɦCC- > CC- (當v-前加字不允許形成該三合輔音時)
    例:“盼望”現在時 *ɦ-rkam > rkam

  3. *gCa > gCo, *gCCa > Co
    說明:藏語當動詞詞幹主元音爲a且現在時前加字加g/d-時,很多現在時主元音會變爲o,如“殺”詞幹sad,現在時gsod。一種解釋是go-前綴演變而成(我覺得也可以是gw-,附帶的w引發後面的a圓脣)
    例:“說”現在時 *gw-zla > zlo,“完成”現在時 *gw-skaŋ > skong

本書作者Nathan Hill認爲以上解釋不對,因爲有幾個詞的現在時並不是g-前加字而是v-,但仍然主元音變成了o,如
“插入、放置”詞幹*dʑag,現vjog,過bzhag,未gzhag,命zhogs
說明現在時的詞幹a變爲o與g-前綴無關,而認爲這是一種從更古代的變形繼承來的特徵。

  1. *sNC- > sC-
    例:“嗅” *s-mnam > snam

    向柏霖(Guillaume Jacques)提出的“蛇” *smrul > *smbrul > sbrul (早期緬文 mruy)

三、田雅客定律(Dempsey’s Law):

*e 和 *i 在舌根音 -ŋ 和 -k 前合併。主要是和上古漢語比較後得出。
耕部、錫部:
藏語“一”gcig < *gtjek,cf. 隻(cjek < *tek)
藏語“頸”mjing < *mljeŋ,cf. 領(liengx < *reŋʔ)
藏語“名”ming < 早期藏文 mying < *mjeŋ,cf. 名(mjeng < *meŋ)
眞部、質部:
藏語“節”tshigs,cf. 節(cet < *tsˁik)
藏語“蝨”shig < *srik,cf. 蝨(srit < *srik)
藏語“樹”shing < *sjiŋ,cf. 薪(sin < *siŋ)
藏語“田”zhing < *ljiŋ ,cf. 田(den < *lˁiŋ)

四、白保羅定律(Benedict’s Law):

*lj- > zh-
藏語“田”zhing < *ljiŋ ,cf. 田(den < *lˁiŋ)
藏語“甜”zhim < *ljim ,cf. 甜(dem < *lˁim)
藏語“地”gzhi < *glji ,cf. 地(diih < *lˁejs),早期緬文 mliy
藏語“四”bzhi < *b-lji ,cf. 四(siih < s-lis),早期緬文 liy
此外在藏文內部也有證據支持此演變,因古藏文有 *-j- 作爲敬語中綴,如
“乾”skam,“渴”skyem
“邊”logs,“體側” *g-l-j-oks > gzhogs
“升起”lang,“升起” *b-l-j-eŋ > bzheng

而現代藏語仍保留 li 而未變成 zhi 的詞需要做出解釋。其中一個解釋是若白保羅定律先於田雅客定律發生,則 *leŋ/lek 變爲 *liŋ/lik 而非繼續變爲 zhing/zhik。有一組漢語同音詞“田”(藏語zhing)和“畋”(藏語“打獵” lings),以藏語“田” *liŋ > zhing 而“畋” *leŋs > lings 來解釋(按:難道上古藏語兩個詞元音不同?)。

五、邊音之外的輔音的次生顎化:

一般發生在 i 元音前,就是
*ki > kyi, *kʰi > khyi, *ni > nyi, *si > shi, *ti > ci, *mi > myi(但“名”又從早期藏文的mying變回了傳統藏文的ming了)

六、孔好古定律(Conrady’s Law):

*ɦ- 後面的擦音均變爲塞擦音,清擦音送氣
*ɦ-s- > vtsh-, *ɦ-ɕ- > vch-, *ɦ-z- > vdz-, *ɦ-ʑ- > vj-, *ɦ-r- > vdr-
特殊地, *ɦ- 後接邊音時發生換位,隨後 ɦ- 消失
*ɦ-l- > *ɦdl- > *ɦld- > ld-
*ɦ-ɬ- > *ɦtɬ- > *ɦɬt- > lt-
相應的顎化
*ɦ-lj- > lj-
*ɦ-ɬj- > lc- (“鐵” lcags < *ɦɬjaks,漢語 thet < *lhˁik)

七、包擬古定律(Bodman’s Law):

*m-l- > md-
*m-lj- > mj-
如“箭” *mla > mda,cf. 漢語“射”(zsjek < *C-lak)
“尋”(長度單位) *mlom > mdom,cf. 漢語“尋” (zsim < *sə-ləm)

八、*u-ba > wa

古藏文有個特點,所有出現 w 下加字的字一定是以 a 結尾的開音節。向柏霖提出這可能是 u 尾字與後綴 ba 縮合而來。如 grwa 有 gru 的異寫,rwa 有 ru 的異寫,而 ba 是常見後綴。而且也可解釋 w 下加字只出現在名詞,而以 u 結尾的動詞不受影響。

九、*w- > y-

麥沛德(Boyd Michailovsky)和馬秀珍(Martine Mazaudon)對比東部藏語支語言發現古代藏語的 *w- 與 *j- 合併爲 y- 。而向柏霖看到只寫例子似乎全是 i 或 e 元音的,合併到第五條顎化裏面就行了。

十、Laufer’s Law: *wa > o

很多是和古漢語比較出來的。但漢語也有 *o > *wa 的音變(如歌、祭、元部)。好在我看了一下書上的例字很多是陽、鐸、魚部的,而藏文例字都是k組合口。如:
“蕨麻” gro-ma < *grwa-ma,cf. “芋” yoh < *ɢw®as
“去” vgro < *ɦgwra ,cf. “于” yo < *ɢwra
“胃” grod < *gwrat ,cf. “胃” yoih < *ɢwrət-s
“行” vgrod < *gwrat ,cf. “越” yat < *ɢwat

十一、 *aw > o, *ew > o

很多是和漢語同源詞對比得出。

感想:好像每個西方的漢藏語言學家都有個漢語名字,有些還不是太好査。好在网上都査到了。

本文爲學習筆記,原文是英文版的原口莊輔(Shōsuke Haraguchi)的Accent一文。

因爲原文還包括了日本各地聲調特徵的一個總結及大阪話聲調的詳細描述,這裏我就不作翻譯了,有興趣的可以自己找來看。我只記一下東京話的聲調特徵。

首先是一般的中文日語課本都會講的音拍與音高問題。日語的一個簡單假名、拗音以及撥音ん、促音っ都算一個音拍。於是,一個漢字的音讀都是一個或者兩個音拍的:こ是一個音拍、こう是兩個音拍、こく是兩個音拍、こっ是兩個音拍、こん是兩個音拍,しゃ是一個音拍、しゅう是兩個音拍,這樣。

然後是基本的調形。東京話有如下規律:

一、一個音拍只能爲高調或低調,不可能有升調或降調;

二、一個文節(ぶんせつ,即一個詞連同後面的後綴部分)中只能有一個連續的高調段,所以一個文節(不攷慮單音拍的文節)的調形只能是HL、LH、LHL(L爲低調、H爲高調)三種;

三、第一音拍和第二音拍的高低一定是反的。

這樣,一個 n 音拍的文節只能有 n 種情況。平板形 LH,即第一音拍低,第二音拍至尾都是高的;頭高形HL,即第一音拍高,第二至尾都是低的;中高形,即第一音拍低,第二至中閒第 m 個音拍高,第 m+1 至尾是低的。而一個單詞如果最後一拍是高的攷慮到後綴,又有後綴高(平板)和後綴低(中高)兩種情況。因此一個 n 音拍的單詞的調形可能有 n+1 種情況。把高調段最後一個音拍作爲調核,則頭高型調核爲第一音拍(1調),中高形的調核爲第 m 個音拍時爲 m 調(當 m = n 時,單詞爲尾高形,但後綴爲低調)、平板形(無調核)爲0調。

例如はし有0調的“端”、1調的“箸”、2調的“橋”三個詞三種情況。當後面接助詞が的時候,分別是(小寫表示低調,大寫表示高調,'表示之前的音拍爲調核):

端が 0調 平板形 haSI-GA

箸が 1調 頭高形 HA’si-ga

橋が 2調 中高形 haSI’-ga

(後面也會用-1調、-2調的寫法表示重音在倒數第幾個音拍上。)

以上是中文日語課本上常講的,後面就是一般課本上不太講的了。

書上給了一個統計:多達55%的詞是無調核的(平板形)。在有調核的詞中,大約75%的詞的調核在倒數第三音拍上。

日語除了音拍以外,其實也是有音節概念的,而且在聲調的解釋上有重要用途。含有長音、拗音、促音的都是兩個音拍爲一個音節。因此日語裏一個漢字的音讀,其實只有出現入聲韻尾且未促化的情況下纔是兩個音節,其餘都是一個音節,即上面列的こ、こう、こっ、こん、しゃ、しゅう都是一個音節,只有こく是兩個音節。這樣能解釋爲什麼“日本人”是nIHO’n-zin,而“中國人”是tyuUGOKU’-zin,明明構詞方式一樣,前者是-4調,而後者-3調。因爲含有長音、促音、撥音的雙音拍音節的第二音拍不能承載調核,ほん作爲重音音節,調核只能在其第一音拍。而ごく是兩個音節,第二音拍可以承載調核。

因爲單詞的調核還是可以在一些字典上査到的,但加了後綴以後的文節整體的調形,各種地方介紹都比較少。這篇文章分名詞、動詞、形容詞三大類情況比較詳細討論了幾種不同後綴情況。

名詞

  1. 最普通的單音節後綴,比如を、が、は之類,就是按照前述的規律加在名詞本身的調型後即可,即有調核的詞後綴爲低調、無調核的平板形後綴爲高調。

  2. 對於一般的有調核的後綴,如まで(MA’de)、です(DE’su),如前接詞有調核,則後綴本身的重音消除,均爲低音。如前詞爲平板型,則後綴的調核保留:

0調 さくらまで saKURA-MA’de

3調 おとこまで oTOKO’-made

2調こころまで koKO’ro-made

1調からすまで KA’rasu-made

  1. 屬格後綴の對於非頭重型的詞,如果重音在最後音節(而不一定是最後音拍),有消除重音的作用(如平板型)。

頭重 HL 型如一般的非重音後綴:

齒の HA’-no

今日の KYO’o-no

本の HO’n-no

嵐の A’rasi-no

尾音節重的 LH 或 LHL 型,の會消除尾音節重音):

(-1調) 川の kaWA-NO (對比“川を” kaWA’-o)

(-1調) 頭の aTAMA-NO (對比 aTAMA’-o)

(-2調) 日本の niHON-NO (對比 niHO’n-o)

(-2調) 昨日の kiNOO-NO (對比 kiNO’o-o)

非尾音節重音型不消除重音:

(-2調) 團扇の uTI’wa-no

(-3調) 色紙の iRO’gami-no

這裏就體現出音節的作用了,能解釋niHO’n和uTI’wa連の時的不同調形。

  1. 加前綴お時,不論原先何調型,原先單詞一律變爲頭重,お爲低音:

お手紙 teGAMI > o-TE’gami

お洗濯 seNTAKU > o-SE’ntaku

お風呂 huRO’ > o-HU’ro

お壽司 suSI’ > o-SU’si

お箸 HA’si > o-HA’si

動詞

動詞的調形只分爲無重音和有重音兩類。有重音的動詞均爲-2調。

  1. 命令形エ/ろ、使動アせる/させる、想要イたい/たい,原形爲平板形的仍爲平板,原形有重音的爲-2調:

進む suSUMU > suSUME, suSUMASERU, suSUMITAI

借りる kaRIRU > kaRIRO, kaRIMASERU, kaRITAI

隱す kaKU’su > kaKU’se, kaKUSASE’ru, kaKUSITA’i

建てる taTE’ru > taTE’ro, taTASASE’ru, taTETA’i

  1. 勸誘形オう/よう、尊敬形句尾イます/ます重音一律移至後綴:

suSUMU > suSUMO’o, suSUMIMA’su

kaRIRU > kaRIYO’o, kaRIMA’su

kaKU’su > kaKUSO’o, kaKUSIMA’su

taTE’ru > taTEYO’o, taTEMA’su

  1. 否定形アない/ない和て形如普通無重音詞綴,無重音仍爲平板,有重音的變爲-3調(當然如果本身て形只有兩個音節,就只能是頭高形了):

suSUMU > suSUMANAI, suSUNDE

kaRIRU > kaRINAI, kaRITE

kaKU’su > kaKUSA’nai, kaKU’site

taTE’ru > taTE’nai, TA’tete

  1. エば/れば、た形,無重音的總倒數第二音節爲重音,有重音的倒數第三音節爲重音。這裏ば和た爲附加音節,一定爲低調,而除掉附加音節本來情況和2.1是一樣的。但如果原本是平板形的,因爲附加的低調音節導致倒數第二音節有了調核,而倒數第二音節爲長音導致其第二音拍不能承載調核的話,調核就移到倒數第三音拍(如すすんだ的情況):

suSUMU > suSUME’ba, suSU’nda

kaRIRU > kaRIRE’ba, kaRI’ta

kaKU’su > kaKU’seba, kaKU’sita

taTE’ru > taTE’reba, TA’teta

形容詞

形容詞也是分爲有重音和無重音兩種情況,有重音的原形一定爲-2調(重音在詞幹最後音節)。

  1. く、さ形,原形無重音的仍爲平板,原形有重音的,只要詞幹是多音節,重音移至詞幹倒數第二音節,即文節爲-3調:

赤い aKA-I > aKA-KU, aKA-SA

白い siRO’-i > SI’ro-ku, SI’ro-sa

樂しい taNOSI’-i > taNO’si-ku, taNO’si-sa

  1. 連くは、かった、ければ時,後綴一律爲低調,原形無重音的重音在詞幹最後音節,原形有重音的且詞幹爲多音節的,重音在詞幹倒數第二音節:

aKA-I > aKA’-kuwa, aKA’-katta, aKA’-kereba

siRO’-i > SI’ro-kuwa, SI’ro-katta, SI’ro-kereba

taNOSI’-i > taNO’si-kuwa, taNO’si-katta, taNO’si-kereba


另外,我發現其餘网站上的一些說法和本文還不盡相同。本文也有很多常見詞綴及複合詞的音調變化規律並沒有列入。如果有人知道在線的能査日語單詞、詞組重音的詞典也請告訴我。歡迎在新浪微博或 Telegram 上與我( @polyhedron )聯繫。

補充:

知乎用戶“张文治”給了一個査敎科書中部分詞彙的网站: http://www.gavo.t.u-tokyo.ac.jp/ojad/

polyhedron

2018.02.25
原發於新浪微博及知乎

以下是我根據泰語拼寫和我的語言學知識,綜合我的漢藏、侗臺、梵、越南語知識對泰語音韻的一個總結。總結方法出來的和一般的泰語敎材挺不一樣的,但熟悉漢語音韻學的人應該一看就能懂。聲母分組按清濁那套,聲母轉寫按梵語轉寫,元音(韻)的標記因爲看不懂來源,暫時按越南語那套轉寫。歡迎大家糾錯、提出修改意見。

(說一下,爲什麼我寫“臺”(濁聲母字dai)而非“台”(次清聲母thai),因爲“臺”中古是濁聲母字,李方桂的《比較台語手冊》裏面泰語稱“暹羅語”,大概“台”就是“泰”。然而泰文的“泰”拼寫是ไทย(轉寫daiy),現代泰語清化送氣讀/tʰai̯˧˧/,我覺得表示僮侗語還是寫“臺”字好一些。)

這是泰語的字母表(聲母表):
圖1

泰文的輔音字母基本都是繼承自梵文的(黃色陰影),小部分是變體,也有的也許沒有梵文或巴利文來源。僅塞音字母按照發音方法就分成了5類,分別是內爆、清不送氣和3類清送氣。梵文、巴利文原始字母及借詞的清不送氣的บ p、ด t、ฎ ṭ在泰文就是第一行內爆(จ c、ก k沒內爆音),而漢語早期借詞的全清是第二行普通不送氣清音ป pp、ต tt(僅限聲母,韻尾仍寫作บ p、ด t,見後述)。聲母部位就是按梵語的5套(但捲舌和非捲舌的已經合併爲一類)以及喉音。然後還有表示清濁擦音的符号。所有全濁音全都清化了(但在聲調上有影響,見後),塞音清化成送氣音。ฃ x和ฅ ğ兩個字母在現代泰文中已經取消。輔音字母的筆順有個非常簡單的規律:一律從小圓圈開始。

我這裏面的轉寫基本上按梵文的。但這並不完全符合泰文創製時的泰語音系。按照梁敏、張均如的《民族語言學論稿》,臺語原有6類聲母:I. 先喉塞及喉塞音(把喉塞也放一起,是因爲在某些臺語裏調類分化和第II類不同);II. 普通不送氣清塞音(後面簡稱“普清”);III. 送氣清塞、塞擦音;IV. 清擦音及清鼻、邊音;V. 濁塞音和塞擦音;VI.濁鼻、邊、半元音。

對比字母表格,發現對應關係如下:第I類就是第1行內爆(複合輔音อย qy發音爲/j/但調類分化同全清);第II類就是第2行普清;第III類就是第3行送氣清音;第IV類的清擦音在字母表裏也是有的,而原始清鼻、邊音在泰文是用複合輔音表示的,包括หง hng、หน hn、หม hm、หย hy、หญ hñ、หว hw、หร hr、หล hl,發音已與相應的次濁聲母相同,但調類分化如次清聲母;第V類按漢語是全濁,對應字母表裏面兩行濁塞/塞擦音和一行擦音。其中兩行濁塞音發音完全相同,在泰語都是清化成送氣的,應該就是爲了寫梵巴語詞而全盤引入的;第VI類就是普通的鼻、邊、半元音了。

臺語和漢語一樣,也是先有了平、上、去、入四個調類,而後再根據聲母的清濁來區分陰陽。但有一點與漢語不同:漢語通常是全清、次清的調類分化完全相同,而全濁、次濁經常不同(如全濁上聲普遍變同去聲,以及北京話入聲全濁歸陽平而次濁歸去聲),臺語的普遍情況是全濁、次濁調類分化相同,而全清、次清有區別,有時第I類“先喉塞”和第II類普清也有區別。按一般泰語課本,全清的兩組稱“中輔音”,次清的兩組稱“高輔音”,濁的兩組稱“低輔音”。泰文按拼法,處於平、上、去、入有區別而聲母未清化、陰陽調類不分的階段。

按照一般的侗臺語學界習慣,陰陽平、陰陽上、陰陽去、陰陽入依次標爲1-8調,奇數調爲陰調,偶數調爲陽調。則總體規律如下:

圖2

因爲入聲的調值可以歸併進相近的舒聲(類似於廣州話的7短、7長、8三個調可分別歸入1、5、6調),泰語一般只算是有5個調,即1——次清平,調值爲215(升調);2——全清平及陽平,調值爲332或33(中平);3——陰上、陽去及長陽入,調值爲51(降調)、4——陽上及短陽入,調值爲453或55(高調)、5——陰去及陰入,調值爲211或11(低調)。以上的聲調編号是按侗臺語傳統順序來的,如果是按一般的泰語課本,則分別是第5調(升調)、第1調(中平)、第3調(降調)、第4調(高調)、第2調(低調)。

剛說了,泰文處於平、上、去、入有區別而聲母未清化、陰陽調類不分的階段,上聲標◌้ (轉寫作x)、去聲標◌่(轉寫作h),而平、入聲不標。而依現代泰語,所有聲母都可以與5個現代調相配。那麼送氣輔音是從在古代兩類演化來的,第III類到現在有1, 3, 5調,第V類到現在有2, 4, 3調,就都能拼出來了。對於鼻音、邊音、半元音、擦音來說,同樣是第IV類有1, 3, 5調,第VI類有2, 4, 3調,也是齊的。但對於兩組中輔音(內爆及普清),因爲正常只能有2, 3, 5調,在需要拼出1、4調詞的時候(一些擬聲詞、變調詞和晚期借詞之類)就需要有另外的調号,即表示1調(升調)的◌๋(轉寫作+)和表示4調(高調)的◌๊(轉寫作^)。

另外,舒、入聲調是這麼劃分的:長元音開音節算舒聲,短元音開音節算短入聲(這種情況也有說是有/ʔ/韻尾的),所有/m n ŋ/尾音節算舒聲,長元音/p t k/尾算長入,短元音/p t k/算短入。短入都是4(高)、5(低)調,長入都是3(降)、5(低)調。

泰語輔音韻尾就是/m n ŋ p t k/這6個,入聲也跟漢語南方方言一樣,都是清且不除阻的。拼寫如下:
/m/ ม m, มิ mi
/n/ น n, ณ ṇ, ญ ñ, ร r, ล l, ฬ ḷ
/ŋ/ ง ng
/p/ บ p, ป pp, พ b, ภ bh
/t/ ด t, ต tt, ถ th, ท d, ธ dh, ฎ ṭ, ฏ ṭṭ, ฐ ṭh, ฑ ḍ, ฒ ḍh, จ c, ช j, ซ z, ศ ś, ษ ṣ, ส s,ติ tti, ตุ ttu,共18種
/k/ ก k,ข kh,ค g,ฆ gh

韻尾除了最常見的ม m、น n、ง ng、บ p、ด t、ก k是本族詞或漢借詞以外,其它的基本都是梵巴語等的借詞,規律是塞音歸同部位塞音,擦音、塞擦音歸/t/,邊音、顫音都歸/n/。ญ ñ在聲母歸/j/但在韻尾歸/n/。

泰文是印度系文字,理論上屬於元音附標文字(即短元音a不標,其它元音標符号),但實際上因爲泰語元音極多,且單獨出現拼短a輔音的音節也極少出現且也有附標(而作爲前置音節的短a很常見),也不用virāma的符号,所以其實已經是準alphabet文字而非abugida文字了。前置音節短a大體上是說,如果兩個輔音字母能構成一個複輔音就按複輔音來,例如ppr, ppl, kr, gr, kw, hm, hn, hl, qy等等幾個,而如果不能構成複輔音,則前面字母拼爲一個帶短弱a元音的前置音節。

泰語的元音系統很複雜,光單元音就有9對,各分長短,元音來源也我這裏就按越南語的字母來轉寫了。

圖3

其中虛點圓圈代表聲母所在位置。如果聲母不止一個字母,則元音左邊的部分放在所有輔音字母左邊,而上面、下面的部分及聲調符号在聲母右邊的字母上面。

表格裏面,如果某個元音有兩種拼法,則前面的表示開音節,後面的表示後接輔音的閉音節。比如開音節ka寫成กะ,而閉音節kap就寫成กับ。很多情況下,開音節都是加一個ะ表示短元音,而在閉音節時,就把ะ挪到聲母上面變成◌ั或者◌็。

泰語還有很多複元音,如表格:

圖4

所有複元音,不論二合還是三合元音都是前響複元音,沒有介音(介音ย y(只出現在อ q)或ว w算在複合輔音裏了,不算入韻母)。但如果按照元音開口度來看,還是能分成前開二合元音、後開二合元音和中開三合元音三類。即後開二合元音是ia, ưa, ua三個,這三個後面又能夠接輔音韻尾或-i, -w。前開二合元音有3個是基本的,也有專門的字母表示,是ai, aư, au三個。其餘的前開二合元音及所有3個三合元音都是由相應的單元音或後開二合元音加上-y或-w規則構成了。另外ไ◌ ai, ใ◌ aư, ◌ัย ay三個韻母的發音已經相同,都讀/ai̯/了。

另外,泰文也有表示梵語元音ṛ ṝ ḷ ḹ(這個ḷ的拉丁轉寫跟前面輔音裏巴利文的ḷ一樣了,但並不是一回事兒,那個是捲舌l)的符号,分別是ฤ ṛ /rɯ/、ฤา ṝ /rɯː/、ฦ ḷ /lɯ/、ฦๅ ḹ /lɯː/,本來後面兩個本來就很少出現,只有轉寫梵巴語的理論價值。還有anusvāra,就是◌ํา,轉寫爲aṃ吧,發音同◌ัม am,都是/am/。

舉幾個泰語數詞的例子:

圖5

(橋本萬太郎說:越南語固有詞能數到9999,万以上改用漢字詞;朝鮮語固有詞能數到99,百以上改用漢字詞;日本語固有詞能數到10,十一以上改用漢字詞;泰語固有詞能數到1,二以上改用漢字詞。)

還要吐槽一下泰文的Unicode:一般的印度系文字,不論印度文字還是藏文、緬文(說的是Padauk等遵循Unicode的字體,不是Zawgyi),Unicode順序都是按照發音順序來的,比如ति ti的編碼順序是先寫त ta再寫◌ि i。而泰文Unicode編碼是按書寫的左右來的,而且還有一些奇怪的疊壓規則,比如ต้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้這樣的(一個個上聲符号就能依次往上疊)。這樣一個元音就能被聲母和聲調拆成3個部分,比如เกี้ยง kiangx這樣一個音節的Unicode字符順序是êê k i x y ng,其中表示ia這個複元音的是êê - i - y三塊兒。連遵循發音或轉寫順序的輸入法都很難設計。

參攷資料:


本文於2016-10-21發佈於本人新浪博客 https://blog.sina.com.cn/s/blog_465ddf790102wxbv.html ,但已無法訪問,故搬遷至github的雹。

摘要

中古時,爲何梵語ka kha等音特地使用“迦、佉”等三等字對譯而不用一等字,一直是一大疑案。本文通過整理《廣韻》反切,認爲見、谿、疑母三等與非三等分爲兩套不同聲母,三等爲一般的舌根音,而一、二、四等並非舌根音。同時兩套聲母在二等、四等反切時還偶有對立情況發生。本文通過突厥語對音等證據認爲中古漢語的見、谿、疑、匣母在一、二、四等爲小舌音。其上限至遲在東漢,而下限應該在唐代。

關鍵詞

切韻音系 等韻 小舌音 牙音

Abstract

In Middle Chinese, it was mysterious why transliteration from Sanskrit ka kha into Chinese with third děng syllables (commonly reconstructed as /ki̯ɑ/ /kʰi̯ɑ/) rather than with first děng (commonly reconstructed as /kɑ kʰɑ/). By examine fǎnqiē in Guǎngyùn, I distinguished the commonly proposed initials k-, kh-, ng- into two groups, i.e. 3rd děng syllables with velar consonants, while 1st, 2nd and 4th děng were not velar. Although the two groups were largely complementary for most finals, there were sporadic cases that the two groups were contrasting when spelt with certain 2nd and 4th děng finals. Through Middle Turkic transliterations, I speculate that the 1st, 2nd and 4th děng syllables with commonly reconstructed k-, kh-, ng-, and ɣ- initials were in fact uvular /q qʰ ɴ ʁ/, and this reconstruction applies for since at latest Eastern Hàn Dynasty (1st century) till Táng Dynasty (9th century).

Keywords

Qieyun, phonology, uvular, K- group initials

正文

梵漢對音證據

大家早就注意到,梵漢對音中,梵語中大量沒有y /j/下加字的音節採用漢語的三等字來對譯,譬如:

諦 gate 陀 buddha

更有一些見組三等開口戈韻字,如“迦”、“佉”,專門用來對譯梵語的ka, kha這樣的音節,這些三等字依照現在通常的擬音,是/ki̯ɑ/ /kʰi̯ɑ/這樣,帶有/i̯/介音的。而大家都知道,見母和谿母有相應的一等歌韻字,即普遍認爲不帶介音的音節,如“歌”、“軻”的擬音一般認爲是/kɑ/和/kʰɑ/。依通常標準來看,一等的/kɑ/和/kʰɑ/明顯比三等的/ki̯ɑ/和/kʰi̯ɑ/更接近梵語ka和kha的音,那爲何對音時偏要捨近求遠,採用漢語有/i̯/介音的三等韻字呢?有一種想法,是梵語的k組輔音本來帶有輕度顎化,類似/kʲ/甚至/c/這樣。但這樣存在一個問題:k組已經是梵語發音部位最靠後的一組輔音了,如果本身是顎化的是很奇怪的,很少有哪個音系僅有顎化的/kʲ/而沒有普通的/k/的。另外,梵語本來存在顎化的k,如kya,假如ka本身存在顎化,ka和kya就難以區分了,這顯然不符合梵文嚴格表音的精神。還有一種可能,即三等戈韻的“迦”和一等歌韻的“歌”的主元音有明顯不同,梵語ka的元音更接近前者。但這也有問題,即梵語a, ha, ta, sa, la用一等歌韻的“阿”、“訶”、“多”、“娑”、“羅”等譯,pa, ba是用一等戈韻的“波”、“婆”等譯的,而ṣa /ʂa/, śa /ɕa/, ya /ja/等也可以用二等麻韻的“沙”和三等麻韻的“奢”、“耶”等來譯。因此梵漢對音上,元音並不是很嚴格的,尤其是歌韻可以說是譯a元音最常見的辦法,因此梵語的ka和kha對譯漢語時要拋棄歌韻的常見字而另取三等戈韻的字是沒有道理的。

排除了以上可能,我這裏提出另外一種假說,即漢語見組一等的“歌”、“軻”這樣的字聲母並不是/k/和/kʰ/,而是另外一組音,我認爲最可能且唯一的選項就是小舌音/q/和/qʰ/,而見組三等字的聲母仍爲舌根音/k/和/kʰ/。以下我通過多種材料來詳解此假說。

反切證據

如果說見組一等和三等有兩個不同的聲母,那麼隨之而來的就有了兩個問題:一、見組的二等和四等是什麼聲母;二、其它的脣、舌、齒、喉音的一、三等各是一個還是兩個聲母?這時候,我們可以再回頭用陳澧經典的繫聯法來幫一下忙。衆所周知,《廣韻》裏,各聲母的一等和三等字是較少互切的,一般一等字的反切上字都是一等,而三等字的反切上字都是三等。但二等字如何呢?我把《廣韻》裏二等字所用反切上字的等(按反切等,即按切韻音系韻母歸納的等)統計了一下:

聲母 一等上字 小韻數 二等上字 小韻數 三等上字 小韻數
博布北愽補 19 伯巴百 3 方甫脯必 6
11 0 7
薄步蒲傍 24 2 防扶 2
莫謨 23 0 武亡 6
端知 丁都德 6 1 陟竹中張猪 20
透徹 2 0 丑敕辿 19
定澄 2 宅瑒 5 柱直丈除佇墜 15
泥娘 諾奴乃 9 1 女妳尼 18
精莊 1 0 側阻莊鄒簪 24
清初 0 1 楚初測 28
從崇 0 犲査 3 士仕鉏助鋤雛 29
心生 0 山砂沙 9 所數色生 28
古谷公 53 佳乖格 3 0
谿 苦口可恪枯 33 客楷 2 丘乞起 5
五吾 33 0 擬玉 2
烏鷖(四等) 24 1 於乙委 20
火呼虎荒 24 1 許喜虛 14
戶胡何侯乎 50 下獲懷 11 -
賴盧魯 3 0 呂力 8

首先,我們能觀察到,見母二等的切上字以一等爲主,全無三等,谿、疑母二等也僅有少量三等上字,三個聲母的各小韻的上字三等僅爲一等的5.9%。相比來說,脣音聲母二等字的反切上字三等數量爲一等的27%。另外攷慮到谿母和疑母的這7例反切沒有一個常用字或常用義,其中還有谿母刪韻的“馯,丘姦切”(三等上字)和“豻鬜,可顏切”(一等上字)重出,及谿母二等麻韻的“𣘟,乞加切”(三等上字)和“䶗㤉𡤫,苦加切”(一等上字)重出。同樣檢査一下《廣韻》四等字的反切(表略),雖然和二等字類似,脣音、齒音、曉母、影母、來母的四等也常有以三等字作反切上字的,但見組只有一例“趝,紀念切”是以三等爲上字的。而有意思的是,這個反切和“兼,古念切”(一等上字)構成了對立,也是所有四等反切中唯一一組重小韻。

由此,可以先下一個結論,即通常中古漢語見組的見、谿、羣母二等和四等字聲母與一等相同,而不同於三等。另外兩類聲母的出現並不完全互補,而是偶爾存在對立情況。而通過以上方法,我們也可以發現其它組聲母中,脣音二等雖然用一等作上字爲主,但三等並不太少;舌音知組和來母的二等明顯偏三等,但和一等仍未完全脫離關係;齒音莊組二三等聲母相同,而不同於一等精組;喉音影母、曉母則一、三等都能切。這樣,用繫聯法即能得出結論:按切韻音系,見組(此處指見、谿、疑母)一、二、四等和三等爲不同聲母,齒音一、四等精組和二、三等莊組爲不同聲母,而脣音、舌音、影母、曉母各等聲母相同或相近

由此,在切韻時代,見組一、二、四等的聲母不同於三等,前者並不是舌根音,所以在譯梵語ka, kha時纔需要用見組三等舌根音造字。而見組一等不是舌根音的話,一等又應該比三等更偏後,那有塞音的位置的備選項有小舌音、會厭音和喉音。會厭音在整個東亞、東北亞都未見實例,也就不攷慮了。喉塞音也已經有影母占位了。此外既然見組一等的各種現代方言和對音基本都是/k/,喉音變成或對成舌根音也不太可能。還有,會厭音和喉音沒有同部位的鼻音,無法解釋疑母一三等分切。那麼見組一二四等發小舌音也就成了最可能的解釋。

亞洲部分其它語言中小舌音的情況

小舌音在亞洲並不算少見,尤其在阿爾泰語和亞非語系中。阿拉伯語舌根塞音 ك /k/和小舌塞音 ق /q/是兩個音位。而在阿爾泰語中,情況各不相同。

滿語g, k, h(按 Möllendorf 轉寫)實際發音部位有小舌音/q qʰ χ/和舌根音/k kʰ x/兩組,其中小舌音拼陽性元音a /ɑ/, o /ɔ/, ū /ʊ/,而舌根音拼陰性元音e /ɤ/和中性元音i /i/, u /u/,如ᡴᠠ ka /qʰɑ/, ᡴᠣ ko /qʰɔ/, ᡴᡡ kū /qʰʊ/和 ᡴᡝ ke /kʰə/, ᡴᡳ ki /kʰi/, ᡴᡠ ku /kʰu/。也就是說,按轉寫,兩種發音部位算同一音位,與不同元音相配時互補,但在滿文字母是當兩個音位,形狀有所區別的。此外,滿文爲了對譯舌根音聲母的漢字,又發明了ᠺᠠ k’a /kʰɑ/, ᠺᠣ k’o /kʰɔ/這樣的舌根音拼陽性元音的拼法,說明滿語原本是能有意識區分舌根音和小舌音的。

傳統蒙古語的元音有陽性元音ᠠ a, ᠣ o,ᠤ u(o u元音同形),陰性元音e ᠡ, ö ᠥ, ü ᠦ(ö ü元音也同形)和中性元音i ᠢ共7個。舌根、小舌輔音有g和k兩個,現代的讀音分別是/k q/和/x χ/,情況和滿語類似,陰性元音全部爲後元音,g拼寫輔音是ᠭᠠ ga /qa/, ᠭᠡ ge /kɤ/, ᠭᠢ gi /ki/, ᠭᠣ go /qɔ/, ᠭᠤ gu /qʊ/, ᠭᠥ gö /ko/, ᠭᠦ gü /ku/,也是轉寫時算同一音位,但文字按陽性或陰、中性有兩種寫法。

維吾爾語的舌根、小舌輔音有舌根塞音ك‎ k /kʰ/, گ‎ g /g/、小舌塞音ق‎ q /qʰ/和小舌擦音خ x /χ/, غ‎ ğ /ʁ/。元音有陽性元音ا a /ɑ/, و o /o/, ۇ u /u/,陰性元音ە e /ɛ/, ۆ ö /ø/, ۈ ü /y/和中性元音ې é /e/(由ا a或ە e弱化而來), ى i /i/,共8個。維吾爾語的k和q在詞根是存在對立的,均可以拼陰性和陽性元音。然而在後綴是互補的,如-qa ~ -ğa ~ -ke ~ -ge後綴,輔音依前面的清濁和元音的陰陽性(即元音和諧)而變化,如at > atqa, akam > akamğa, mektep > mektepke, depter > depterge。顯然小舌濁擦音ğ /ʁ/可以視作小舌濁塞音/ɢ/的擦化,而小舌清擦音خ /χ/有另外來源。(滿、蒙、維語各有一個輔音字母/ŋ/,但後面不能直接接元音或所接元音有限,也不隨陰陽性元音和諧而有所區別,在此不討論。)

以上用來說明小舌音不算是少見的語音,小舌音與舌根音對立(多見於借詞)或者隨陰陽性元音交替(多見於阿爾泰語本族詞、黏着後綴)現象均有,且在有小舌音的阿爾泰語中,小舌音出現的頻率和舌根音接近(因爲陰陽性詞彙數量接近)而非遠少於舌根音。而更讓我驚訝的例子,是我曾經見過一個北京土著說話時漢語拼音g, k, h聲母都有小舌音的自由變體,如“哥、看、好”之類字(當然此現象在北京也不普遍,且他本人未意識到區別,多數人也注意不到)。

直接對音證據

固然小舌音不少見,但說見組一、二、四等是小舌音也需要更直接的證據。梵漢對音ka不用“哥”而用“迦”只是見組一等不讀舌根音的證據,而非讀小舌的證據,因爲古典梵語沒有小舌音。常用的幾種材料,如漢語方言、朝鮮語、日語和越南語的對音也不好用,因爲都沒有成音位的小舌音。突厥語算一個比較直接的證據,包括漢語從突厥語的借詞及突厥語從漢語的借詞。“可汗”應算一例(最早出現於柔然王号),古突厥文qağan,沒有譯成“佉汗”。古突厥語陽性元音音節對漢語見組一二四等韻的例子還有:

qarluq 邏祿 qïrqïz 黠戛
tarqat yağlaqar 藥羅
qatun qutluğ 咄祿

而古突厥語陰性元音音節對漢語見組三等字:

ötükän 於都 türk(üt)
bilgä käm (河)
kögmän

以上例子雖然不多,但完全符合小舌音q, ğ對漢語見組及匣母一二等、舌根音k, g對漢語見組三等的規律。同時說明了,梵漢對音不用漢語一二四等韻字不是因爲習慣問題,而確實是實際發音的緣故。

應當注意,古突厥文的元音字母a/ä和i從寫法上都不分陰陽性元音,轉寫爲kä和qa的音節在書寫上僅靠輔音來分。但由此尚不能簡單說突厥語的k和q一定是對立的輔音,因爲在古突厥文中,輔音不只k/q和g/ğ分陰陽性,b, d, t, l, n, r, s, y這些明顯應該是輔音陰陽性發音相同而元音有別的情況,也是靠輔音的陰陽性兩種寫法區別的。這樣很難說古突厥文的陰陽性對立到底主要體現在元音還是輔音上了。

切韻音系中見組一三等爲不同音位

儘管偶見見組一三等字的對立,但畢竟主體來看見組一三等仍是在不同韻之閒互補的,且因爲見組各等字閒存在大量諧聲,它們的來源也應該是相同的,只是以不同的等爲條件分化了。在此情況下,我們是否需要將中古時一二四等的小舌音和三等的舌根音認爲是兩個不同音位呢?我認爲是必要的。首先是《廣韻》後面附《辯字五音法》中寫道:

凡呼吸文字即有五音:脣聲、舌聲、牙聲、喉聲、齒聲等。一、脣聲并、餅;二、舌聲靈、歷;三、齒聲陟、珍;四、牙聲迦、佉;五、喉聲綱、各。

其中“牙聲”即見組三等,而“喉聲”爲見組一等。儘管這裏面五音並沒有列出所有常見聲母組,且劃分與後世的韻圖不同,但直接透出了見組一等與三等發音部位不同且見組一等發音部位更靠後。

匣母的擦化

將舌根音與小舌音的音位明確分開有助於解釋匣母擦化的問題。

中古匣母缺乏三等,僅有一、二、四等。從上古諧聲來看,相當一部分的匣母字(至少是開口的大部分)和見、谿、羣母聲旁關係密切,在上古應爲同一位置的濁音,即舌根塞音/g/(可能也有擦音/ɣ/)。可以想象,如果後世所有一、二、四等韻的聲母位置後移,舌根塞音/g/成爲小舌塞音/ɢ/,而濁塞音的發音部位越向後則越難發音[1],於是自發擦化成爲小舌擦音/ʁ/,與原先濁擦音/ɣ/或/ʁ/或/ɦ/的非三等合流成中古的匣母。這就應該是羣母和匣母雖然發音位置不同(一爲“牙音”、一爲“喉音”)、發音方式也不同(一爲濁塞音、一爲濁擦音)但在等的配合上卻互補的原因(而原本的擦音/ɣ/的三等變爲云母,仍和羣母對立,但和匣母互補)。突厥語、維吾爾語輔音的不整齊,即有/g/, /ʁ/而無/ɢ/,也應該是相同情況。這種先後化再擦化的解釋比傳統上說的/g/在顎化(三等)時纔能保留,而非顎化時會擦化更容易理解一些,否則爲何/g/這個音一直存在而不早變掉?還有一個問題,匣母和曉母、影母均屬“喉音”而非“牙音”,這樣似乎也可以把擦化後的匣母擬成/ɦ/。很可能中古時期/ʁ/和/ɦ/是變體,有時代和方言差別。

見組小舌音的年代

除上文所提的突厥語對音外,曾曉渝的《見母的上古音值》[2]一文中也提出了大量例證,發現在水語、苗語及白語碧江方言中,早期漢語借詞的見母非三等借詞爲/q/聲母,而三等借詞多爲/k/聲母,以此認爲這是上古漢語的特徵。但我對該文的異議是,該文的證據應當只適合中古漢語,並無充足證據推及上古,尤其諧聲時代和《詩經》、《楚辭》時代,上古的情況仍應另外討論。我認爲,鑑於見組一、三等之閒廣泛的諧聲關係(《見母的上古音值》一文認爲只有12%的聲符混諧見母三等和非三等,但如果仔細檢査,混諧的比例要大得多,此處不詳述)以及韻的分佈的相對完整的互補關係,中古的舌根音和小舌音仍應該是從上古同一組聲母分化而來的,而非本來就是兩組不同位置的輔音,而舌根音和小舌音的分化條件是三等/非三等(且暫不論三等的實質是什麼,/j/介音也好,緊元音也好,短元音也好,非咽化也好)。

這樣,既然見組三等和非三等有個分化的過程,我們就應該尋找一下這個時閒點。方法仍是對音,這裏採用了俞敏的《後漢三國梵漢對音譜》[3]。比較嚴格的判斷標準是這樣的:看某個梵語音節在漢語有一三等兩種選項時如何選擇。比如對梵語ka音節的同時有一等“歌”和三等“迦”小韻,選擇哪個則說明問題。而對梵語gam音節的有一等“含”,並無合適的羣母三等嚴韻字可譯,則這種情況不能說明“含”字是不是小舌聲母。

於是我揀選了一下《對音譜》中的字,挑出了滿足如下條件的對音:1. 梵文字頭爲k, kh,主元音不爲i且沒有y下加字(因主元音爲i或下加字音爲y的基本只能用三等字譯);2. 對譯的漢字爲《切韻》音系見組字;3. 有合適的三等/非三等競爭的選項。因爲後漢三國時也許匣母已經擦化,梵語g和gh字頭因此可能更傾向用羣母而非匣母來對譯,因此此處不列入討論。以梵文拉丁轉寫排序如下(表中“譯經師”一列直接引用《對音譜》文中的簡寫):

梵文音節 譯經師 譯字 競爭字
ka n 1
j 3
kaho d 3
kalp o 3
kam n 1
kam o 1
kam o 3
kaṇ b 3
kaṇ j 3
kaṇ n 3
kap k 3
kap o 3
kap p 3
kar d 1
kar l 3
kar d 3
kar k 3
kar o 3
karp o 3
kau a 3
kau o 3
kau c 3
kau o 3
ke d 3
ke o 3
ke o 4
ko 3
ko d 3
ko d 3
ko o 3
ko o 3
kra d 2
kra d 迦羅 3
kra n 3
kra o 3
kra o 3
ku o 1
ku k 3
ku d 3
ku o 3
ku o 3
kul 3
kum o 3
kun o 3
kuñ o 3
kuṭ o 3
kha o 2
kha o 3
kha o 𨚫 3
kha o 3
khā o 3
khu a 3

可以看到,所有這些譯音字的k, kh開頭音節中,三等字占了41/52,約79%。如果把譯經師按年代分類,a–j爲東漢,而n–q爲孫吳,則用字總結如下:

a-j n-q
非三等 2 8
三等 13 23

可見,梵語k字頭音節的音譯從東漢代起就嚴重偏向選用見組三等而非見組一等。那麼,我們就可以得出結論,見組一等字在東漢已經有不讀舌根音/k/的傾向了(儘管可能有地區差異,孫吳時閒晚,反而更傾向混用)。梵語g和gh字頭絕大多數是用羣母字譯的,只有少數“gam含(k)、gām含(a)、gaṅ恒(k)、gat曷(o)、gup合(o)”這樣的匣母一等,說明匣母從/g/後化和擦化並不完全,可能有地區差異。

再看看時閒下限。《唐梵翻對字音般若波羅蜜多心經》用的應該是唐朝時的西北方音,因爲裏面梵文濁送氣音用漢語全濁聲母字來對譯,而梵文濁不送氣音用漢語次濁聲母字來對譯。因其對音相當嚴謹(儘管有後人傳抄造成的錯誤),更改了很多因漢字之前發生語音變化而造成的梵漢讀音不合的現象(如v對應輕脣微母),因此可以用來硏究唐代的西北方音。《心經》裏梵文所有k, kh, g, gh起首的音節對應的漢字如下:

譯字 梵文音節
3 ka
迦引 3
3 kan
3 ki
伽蘭二合 3 krān
乞叉二合 3 kṣa
乞蒭二合 3 kṣuḥ
訖妬二合 3 kto
3 kha
1 ga
3 gam
3 gan
迦囉二合 3 ghrā

很明顯,除了一個ga是用疑母一等的“誐”來譯的,其餘清一色是三等字。而漢語也沒有疑母三等戈韻的相應字,只能用一等字了。也這說明直到唐代西北方言時,見組一等字仍然不是舌根音。gan對三等“彥”而不對一等“岸”也說明了疑母一等字和見組一等一樣不是舌根音。

而到了唐末的守温三十字母時,已經提出了“見谿羣來疑”等字母名稱,也即不論當時三等與非三等字是否發音已經完全相同,至少可以認爲守温把它們都歸納爲相同音位了。因此我認爲見組三等與非三等的合併(即舌根音與小舌音在音位上的合併)應發生在唐代

最後,關於中古三等/非三等對立的性質已有多種解釋,如介音說、咽化說、長短音說等,本文並未能給出一個答案。但至少對於部分聲母來說,不同等用不同聲母來解釋是有先例的,如端組和知組的對立即是如此,儘管有相同的來源。見組在某個歷史階段因爲等的不同而分化爲兩組聲母也是完全可以想象的。見組在中古漢語後期的演化中重新分化組合成爲兩組不同位置的音位,我將有另文詳述。

參攷文獻

說明:本文早在大約2015年的時候寫成,2016.02.23發在人人网日誌上,現在原文已經找不到了,但還有時光軸可以證明。本文於2016.02.25投稿至《中國語文》,但數年未得到任何回覆。2019.12.05搬運到“多面體的雹子”上,並做markdown處理。


  1. 朱曉農. 从群母论浊声和摩擦——实验音韵学在汉语音韵学中的实验. 语言研究, 2003, 23(2): 5-18. ↩︎

  2. 曾曉渝. 见母的上古音值. 中国语文, 2003, 293: 109-120. ↩︎

  3. 俞敏. 后汉三国梵汉对音谱 [M]. 俞敏语言学论文集. 北京; 商务印书馆. ↩︎