分子人類學、語言學及各種其它 molecular anthropology, linguistics, etc.

0%

(本文需要安裝西夏文字體Tangut Yinchuan來査看。下載地址: https://www.babelstone.co.uk/Fonts/Yinchuan.html

主要想法是:

一、党項語有必要做分期。至少能明確分清的有四期:

  1. 前造字期,即西夏建國之前、唐到宋初。此時的材料很少,目前知道的主要是早期漢番借詞,以及漢語譯音,比如《續資治通鑑長編》(聶鴻音1995),表現出西夏語有豐富的輔音韻尾。再有就是党項語與嘉絨語組的同源詞對照、語法關係等(不過這個就可能久遠到西夏國以前上千年了)。

  2. 造字期,即西夏國前期、北宋中後期(李元昊命野利仁榮於1036-1039年造字)。此時的材料包括造字原則和《音同》老版(最晚1132年)。韻尾可能已經消失無幾,聲母複輔音應該還有鼻冠等,尚無穩定的聲調。《音同》按聲母分品以及分小韻,但沒有總結此時韻母的材料。

  3. 經典期,即西夏國後期、南宋。此時的材料包括《文海》(存世本在1128年以後)、《音同》新版(12世紀中晚期)、《音同文海合編》(13世紀初期)、《番漢合時掌中珠》(1190年)等,尤其是《文海》和《合編》的反切、《音同》的分小韻材料、《掌中珠》的漢夏和夏漢對音。平上聲明確分開並固化,複輔音的消失造成韻母形成鼻化元音(“長元音韻”)、緊元音(第一小循環)、捲舌化元音(第二小循環)等一系列複雜的韻部。

  4. 後西夏期(1227年以後),即元、明時期。此時逐漸無西夏單語者,也不再出韻書。材料包括漢夏、梵夏對音等(前面造字期和經典期的梵夏對音材料更多,只是在後西夏期可用材料太少)。鼻音韻尾和鼻化都徹底消失,表現爲元音和輔音韻尾都單寫出來。

攷慮到材料的豐富性和系統性,我覺得擬音應當首先做經典期,尤其是以《文海》和《合編》爲主,兼顧造字期。

二、党項語在造字期,聲母很複雜,音系仍接近嘉絨語組和霍爾語組。其前置輔音到經典期時演變爲鼻化(龔煌城所謂“長元音韻”)、緊元音(第一小循環)、捲舌元音(第二小循環)等,而聲母的部分前置輔音消失。具體公式如下:

  • NCV > CṼ (鼻化,所謂“長元音韻”,N可以爲同位置鼻音,也許有異位置鼻音)
  • rCV > CV˞ (捲舌元音,第二小循環,簡稱“二循”)
  • C₁C₂V > C₂Ṿ(緊化,具體音值不知,第一小循環韻(簡稱“一循”)。其中C₁可能爲塞音、擦音、半元音等,需要有近一步資料來攷證)

給兩個具體的例子:

依孫伯君的《西夏新譯佛經陀羅尼的對音硏究》,在《佛頂尊勝陀羅尼》中,梵文sarva一詞對音爲𘅄(1693)𗬂(3561),其中𘅄(1693)爲s聲母1.20韻,我暫擬爲/s⁴à/(上標⁴表示四等,等的具體發音尚不明晰。重音符表示平聲降調,相應的銳音符表示上聲升調,與新龍木雅語同源詞相對應),是日常用於對譯梵語sa的字。而𗬂(3561)是輕脣音1.80韻,在經典期(反切時期)擬爲/v¹à˞ / ,二循韻字。而梵語通常的va轉寫爲𘎧(5156),輕脣音1.17韻,擬音爲v¹à,大循環字。如按將所有輔音寫出的習慣,sarva應作𘅄(1693)𘙇(0795)(小字)𘎧(5156),其中𘙇(0795)(小字)爲通常用來對譯梵語r輔音的字。我因此判斷在初譯時𗬂(3561)其發音仍爲/rva/,到反切時期方變爲/v¹à˞ /音。

有一個更有意思的例子說明了鼻冠輔音到鼻化元音韻的轉變。在晚期陀羅尼中,單n輔音最常見的譯法是𘆄(0724)字,以至於在明代的漢字詞都會用𘆄(0724)來譯-n尾。然而在《佛頂尊勝陀羅尼》中,-n通常用龔煌城所謂“鼻化韻”的字來對譯。如samāśvasayantu作𘅄𗏵𗓌(小字)𗮞𘅄𘓾𗅥,其中𘅄(1693)譯sa,𗏵(3369)(1.20韻 /m⁴à/)譯ma,𗓌(5032)(小字)爲“長音”,𗮞(5099)譯śva,𘓾(4660)譯yan,𗅥(1899) /t⁴ù/譯tu。其中𘓾(4660)爲1.26韻,龔煌城擬爲jã,這個字也是日常用來音譯漢語“煙燕燄燕鹽胭筵演”的番字。我認爲這就是n韻尾的體現,我擬爲/j³àn/。此外,《吉祥遍至口合本續》中𗟦(0598)(1.24韻 /m¹àn/)譯man、𗣭(3193) (1.16韻 /tsʰ⁴ìn/)譯chin(梵夏對音如梵藏對音一樣,梵語c組對藏、番語ts組),《佛頂尊勝陀羅尼》中𗨝(3249)(1.16韻/ʃ³ìn/譯ṣin)等也是以龔煌城認爲的“鼻化元音”韻字來對譯梵文後面帶有n的音節。

然而在《吉祥遍至口合本續》中,我發現一個更有意思的,是bandha對爲𗍣(4459)𘃕(5792)。其中𗍣(4459) (2.17韻 /b⁴á/)對譯ba是常例,而da或dha一般用𗞞(4342)(2.17韻 /d⁴á/)來譯。這裏𘃕(5792)(d基字1.23韻“長元音”,龔煌城擬爲/dja̠¹/)我猜測就是對譯ndha的音。這裏有兩個其它證據支持此假設:

第一,𘃕(5792)是1.23韻,屬於龔煌城所謂“長元音”韻,而非普通的大循環“短元音”韻。這些“長元音”韻在漢番對音中通常用來譯漢語次濁鼻音聲母字,而我們通常認爲西北方音的次濁聲母字有鼻冠特性,如n- > nd-,g- > ŋg-,m- > mb-。說明長元音韻與鼻音有關(但在党項語中,“長元音”韻在全清、次清、全濁、次濁聲母都有字,不是僅限全濁或次濁)。這些“長元音”韻在反切上字上也有較強的內部繫聯傾向。(相反,龔煌城所謂“鼻化元音”韻即我擬的鼻尾韻的反切上字與普通韻互通。)從韻目排列來看,同一元音(或稱同一攝)通常是按普通韻-“長元音”韻(我擬爲可能帶鼻冠的鼻化元音)-“鼻化元音”韻(普通聲母的鼻尾字)排列的。

《文海》鼻化和鼻尾韻的排列

第二,𘃕(5792)字(1.23韻)的造字是一個切音字,由 𘃔(5756) (1.32韻 /d⁴ɨ̃̀/)和 𗃇(2551)(1.19韻 /l⁴à/)構成。然而djɨ̠¹ lja¹ > dja̠¹或者d⁴ɨ̃̀ l⁴à > d⁴ã̀這種反切是很不順的,切出字和反切下字不在一個韻,文海中給出𘃕(5792)的反切是𘃔(5756)𗖍(0837),下字改成了1.23韻的/lja̠¹/,按我的擬音是d⁴ɨ̃̀ ɮ⁴ã̀ > d⁴ã̀。而之所以造字時會這樣造,我的猜測是1.23韻和1.32韻在造字時就是普通元音,但有鼻冠,𘃕(5792) < 𘃔(5756) 𗃇(2551) 其實是 nda < ndɨ la切出來的。只是到了經典期時發生了鼻冠到鼻化的音變,𘃕(5792) nda > (n)dã,𘃔(5756) ndɨ > (n)dɨ̃ ,而𗃇(2551) ɮa的音沒變,纔出現了造字和切語不匹配的情況。

至於一循(緊元音),以党項語在嘉絨語和霍爾語的同源詞來看,經常是對應前置輔音的,如新龍木雅語的j-。在《文海》的反切中,很多聲母的一循仍是內部繫聯,不與大循環和二循互切,因此我認爲經典期的一循可能仍爲複輔音或者有某些修飾的基字,但已經影響了元音的音質,使得足以被分爲獨立的韻。待今後繼續硏究。

(本文前一部分於2023年2月17日已發佈於新浪微雹,全文整理於2024年4月26日。)

最近對rap(說唱)的雙押有些興趣,就自己總結整理了一下ㄦ北京話的。中國的方言rap很發達,尤其西南地區的,這裏只敢對自己的母語作總結。其它方言區的rap作者和愛好者可以根據本地的習慣自己總結。不過很多方言和地方普通話的特點也是有很大共性的,方言作者可以參攷。

(注:本文中,單成音節的“兒”用普通漢字,不成音節的兒化用注音符号ㄦ“ㄦ”表示。但不保證行文中的所有兒化都會把“ㄦ”寫出來。)

雙押是rap押韻的一種常用的形式,最嚴格的雙押要求每小句的最後兩個字分別韻母和聲調都一致。比如“物理,故里,物體,數理,墳墓裏,附體,不已,杜比,助理,護理,告訴你,對不起,大福蔭護助裏”。

爲了快速想到韻腳,我想到可以編一個類似《切韻》的韻書,只不過爲了雙押做成二維的表格,用excel就可以做。北京話的韻我從嚴不從寬,整理出34個韻類,乘以4個聲調ㄦ是136個韻,另外還有輕聲(如下表。國際音標是我目前的描述,以後還可能變化)。和其他人的區別除了分了聲調(開始的目的是爲了rap做韻書,而rap押的時候要分調ㄦ)及加了兒化,主要區別是分了ie üe(後者我覺得圓脣元音聽感還是有區別,雖然不如i ü明顯),分了en un(後者至少在我的口音裏u就是主元音)。而在兒化方面,我不是特別細,比如ar air anr我是全合的,ier和ir, inr我也不分(小街ㄦ=小雞ㄦ)。

以我目前的語感總結出來的北京話韻表ㄦ

對於雙押來說,我提幾個北京話的特點。

一、兒化發達。很多時候,音系有空位時,有自動塡滿的傾向。比如“麻、馬、罵; 苗、秒、廟”是中古音演化下來就有的,但中古音的m聲母自然演化不會有陰平調ㄦ,但就塡出了“媽、喵”這樣的音。而北京話爲了“兒、耳、二”三個音節塡出了一大套兒化韻母。北京話的兒化相對不自由,該兒化的要兒化,不該兒化的不能兒化,兩可的情況比較少,有和沒有兒化的字一起押韻會很彆扭。比如“草稿ㄦ、小煼ㄦ、小寶ㄦ”和“淘寶、老鴇、小腦”互相押就難受,前者硬要去掉兒化也不自然。(順便,連上變調ㄦ和陽平-上組合是幾乎一樣的,所以“淘寶”和“小腦”就可以一起押。)

北京話的兒化也不一定都是最後一個字,也有的是倒數第二個字。比如“二〇二三”(看韻表,“二”和“而、耳”的韻母元音不同,至少我的語感如此,我知道趙元任時候以至編漢語拼音的時候這三個應該是同韻,都是er,而現在一些新派口音會把“而”、“耳”也發成ar)可以和“片ㄦ川”押,而“片ㄦ警”可以押“餡ㄦ餅”。

二、輕聲和重讀不互押,輕讀一些情況下可以和輕聲互押,也可以和重讀互押。什麼意思呢?雙字詞的輕重可以分三檔,重讀輕讀輕聲輕聲指的是一個字ㄦ完全失掉原有的聲調ㄦ,中和了,形成了一個新的調類。而輕讀指雖然不是重音,但仍然保持本身的聲調性質,且能影響前字的聲調。舉個例子:找死、老死(指人老到自然死亡)、餃子。前一個“找死”的“死”是重讀,zhǎo sǐ [tʂɑʊ̯³⁵ sɿ²¹³],“找”爲連上變調ㄦ(升調ㄦ,約等同陽平)。第二個“老”是重讀,“死”是輕讀,[lɑʊ̯³⁵ sɿ²²],“死”雖然沒有把聲調讀滿,但仍然是上聲的地位,還是能把前面的“老”字帶成連上變調ㄦ。而第三個“餃子” [tɕi̯ɑʊ̯²¹ ʦɨ⁴],“子”是輕聲調ㄦ,失去了上聲的特性,而前面的“餃”就成了和陰平、陽平、去聲之前一樣的半上變調ㄦ(低調ㄦ),“子”字隨之聲調擡高。這種情況下,我的語感是重讀“找死”和輕讀“老死”可以通押,而和輕聲“餃子”完全不能互押。

但另外一些情況下,輕讀和重讀押到一起比較難受,但輕讀和輕聲可以。比如“祕書 mì shu、屁股 pì gu、技術 jì shu”的後字是輕聲,完全可以押在一起,和“義烏 yì wū”、“辟穀 pì gǔ”、“庇護 bì hù”(三詞均爲後字重讀)就都押不到一起。而輕讀的去聲,比如“密度 mì dù”、“義務 yì wù”、“益處 chù”之類後字輕讀的,和前面列的輕聲可以押,但和重讀的“庇護、記錄、剃度”之類一起押略顯難受(雖然不是完全不行)(“計數ㄦ”後字是重讀的兒化,和“記錄”也不太押)。

三、北京話在讀英語時有自己一套口音(本段ㄦ爲自黑)。說唱經常能看到漢語詞ㄦ不夠了,就找英語來押韻。如果要湊成合理的雙押,也要滿足一定的關係,保證聽感差不多。

  1. 聲調ㄦ上,雙押的兩個音節一般至少有一個重音,因此英語裏能跟漢語押的,一般有重讀在倒數第一音節和倒數第二音節兩種。因爲北京話和普通話不接受鼻音尾n ng以外的閉音節,也不接受雙韻尾的音節(比如main /meɪ̯n/、down /daʊ̯n/),英語的韻尾在北京人的語感裏會要麼省略、要麼拆出輕聲調的音節(但不改變重讀音節被識別爲降調即去聲)。

1.1. 如果是英語重讀開音節在末尾,一般當作去聲,也要是重讀,之前的輕讀音節當作上聲。比如away可以押“馬背 mǎ bèi”。

1.2. 如果是英語重讀閉音節在末尾,韻尾析出爲單獨的輕聲音節,前字爲去聲。比如house押“帽子 mào zi”。

1.3. 如果是英語倒數第二音節爲重音,且最後一輕讀音節能直接轉爲漢語類似的音節,則倒數第二音節爲高平調即陰平,而最後一音節爲輕聲或輕讀。比如hater押“催巴ㄦ cuī ber”(我也不知道這個詞正字該怎麼寫,北京話裏指“伺候人的人、跑腿ㄦ的、打雜ㄦ的”)。

  1. 元音上,英語主元音應該和漢語一致或者差不太多,以免顯得太土。

2.1. 英語的/iː/和漢語拼音i,英語的/eɪ̯/和漢語拼音的ei,英語的/ɑː/(雖然美式英語裏這個元音很少)和漢語拼音的a,美式英語的/ɑ˞ː/和北京話的ar,美式英語的/ə˞/和北京話的er基本是一樣的。英語的/əʊ̯/或/oʊ̯/不同口音變化很大,北京話ou[ɤʊ̯]在其變化範圍內,也可以直接押。所以peace押“意思”、father押“痂巴ㄦ gā ber”(更不知道正字該怎麼寫了,北京話指粘液沾在物體上乾燥後形成的硬殼ㄦ)、mate押“這個 zhèi ge”,guitar押“幾瓣ㄦ”都挺順的。

2.2. 英語的[ɑɪ̯]和漢語的ai [aɪ̯]有元音前後的區別、英語的[aʊ̯]和漢語ao [ɑʊ̯]區別更大(前者更像廣州人的aau)、英語[u̘ː]明顯比漢語u [u]偏前,這幾組湊合能押,但一聽就像北京人念出來的。還有短[ɪ]短/ʊ/(其實快到[ɵ]了)和漢語的i和u就更遠了,但也湊和。比如mice押“麥子”,mouse押“罩子”,food押“吐了”,一股濃濃的北京味ㄦ。

2.3. 北京話是缺簡單的中單元音的,就是說/e ɛ o ɔ ʌ/之類都不能單獨出現,要麼是雙元音,要麼跟個鼻音韻尾之類,所以英文的/e æ/之類元音在很多北京人都實現爲雙元音ai。例如bet /bet/, bat /bæt/和bite/bɑɪ̯t/都讀成bài te [paɪ̯⁵² tʰə²]。我個人建議碰上英語這些中單元音的詞就別隨便跟漢語押韻了,傳出去有點ㄦ丟人。

2.4. 輔音韻尾析出的音節會根據聲母的發音位置自動析出一個元音。脣音/b p m f v/是u,/t d k g/是弱讀[ə],/s ts z dz θ ð/是/ɿ/,/tʃ dʒ ʃ ʒ/按北京口音是/ʅ/(這個會顯得很北京,因爲英語這些是舌葉音不是捲舌音)。n l(dark l讀成[ɫ],音色接近一個後元音)會比較複雜。比如time讀tài mu押“大夫”,wake 讀wèi ke押“醉了”,rose押“柚子”。file會讀成fài ou押“蓋頭”。

  1. 英文字母在北京有一套傳統的獨特的念法、固定的聲調ㄦ,與一般單詞規則不同(這是把北京話黑得最慘的一段ㄦ)。比如A ēi、B bì、C sēi、D dì、E yì、F ái fu、G jì。這樣 M 讀 ái mu 押“排骨 pái gu”,L 讀 ái lou 押“牌樓 pái lou”,“阿Q”讀 ā kiùr [ʔᴀ⁵⁵ kʰi̯ɤʯ̯⁵²]押“壓軸ㄦ yā zhòur”,PCR(聚合酶鏈式反應,生物狗常做的一種實驗)讀 pì sēi ʼár 押“黑牌ㄦ”。

最後給出一個我的雙押習作(眞沒有內涵誰,純爲押韻,別對号ㄦ入座ㄦ):

從前我有一個妹夫
起個英文名叫Dave
雖然已經不小歲數
每天活得像個廢物
不洗臉也不疊被乎
除了睡覺就是game
喫飯也是隨便對付
他說想要當個稅務
這也行我實在佩服
攷不上就拿錢賄賂
也要混進幹部隊伍

​​​​(節奏型都用 6/8拍, 0. x x_ | x x_ x x_ | x x_ 0. :|| 這樣)

我做了一個埃及象形文字聖書體的輸入法,字符基於 Unicode 編碼。輸入法編碼有幾部分,每個基本符号都有一個 Gardiner code 的輸入方法,A-Z 爲大分類,每一個符号再接以數字,如 A、B、C、D 各代表男人、女人、人格化的神、人體部分。比如 𓀀 是 A1,𓏠 是 Y5 等等。

然後從1980年代起有一個埃及學家制訂的用 ASCII 碼轉寫聖書體的規則,稱作 Manuel de Codage ,簡稱 MdC 。在以上的分類形碼以外,還有音碼,每個音素用一個大寫或小寫字母表示。對於已知發音的符号(可以理解爲偏旁,包括意符、形旁和聲旁)也可以用音來表示。比如 𓏠 (Y5) 的發音是 mn 。和漢字一樣,聖書體的同音字和多音字都很多,但 MdC 爲了便於記憶及避免歧義,指定了一組單音素、二音素、多音素的基本符号,比如 i 就是 𓇋 ,而不會輸入同音的 𓀀 等字符。

因爲聖書體並非單一的從左到右線性書寫,MdC 還有組合規則,比如 ‘-’ 爲左右排列, ‘:’ 爲上下排列, ‘*’ 爲下一級的左右排列,即結合順序是先 * ,再 : ,再 - 。比如 Amenhotep 的名字如圖
𓍹𓇋𓏠𓐰𓈖𓊵𓐰𓏏𓐱𓊪𓍺
,在王名框(用 ‘< >’ 表示)內的符号從左向右、從上到下的符号讀音分別是 𓇋 i、𓏠 mn、𓈖 n、𓊵 Htp、𓏏 t、𓊪 p,則其 MdC 轉寫爲

1
<-i-mn:n-Htp:t*p->

,Unicode 輸出爲 𓍹𓇋𓏠𓐰𓈖𓊵𓐰𓏏𓐱𓊪𓍺 。

當然了,因爲 rime 系輸入法有選字的功能,我們不必拘泥於嚴格的 MdC 規則而要求無歧義,而可以加入更多的編碼。一次輸入也可以輸入一個“字”甚至多個“字”,而不必一次只輸出一個偏旁/獨體字。
我這裏定的規則爲:輸入 MdC 的音碼,若以 ‘;’ 結尾則爲 MdC 標準所無的單個符号,而以 ‘~’ 結尾則輸出一個組合字。
例如 ‘mniw’ 輸出標準的 MdC 字符 𓀦 (A33),而 ‘mniw;’ 輸出同音的字符 𓀸 (A47),而 ‘mniw~’ 輸出同音的組合字 𓀰𓅱𓀀 (A42-w-A1)。如有更多的同音字也都在接 ‘;’ 或 ‘~’ 的碼裏面選,而不耽誤 MdC 的盲打。當然現在詞表還只是一個示意,非常不全,待以後慢慢補充了。

下載和安裝說明

rime聖書體下載: https://github.com/biopolyhedron/rime-hieroglyph-mdc

安裝好 小狼毫/trime/prime/中州韻/鼠鬚管 等輸入法後,將兩個 .yaml 文件複製入 rime 系輸入法的“用戶文件夾”後,“重新部署”即可運行。若未能自動加入本輸入法,可能需要在 default.custom.yaml 文件中的 patch/schema_list: 下加入一行

1
- {schema: hieroglyph_mdc}

再部署。

聖書體普通字符(U+13000 ~ U+1342F)若未能自動支持,可在 Win10 中査找 ‘Segoe UI Historic’ 字體( ‘seguihis.ttf’ 文件),或下載 ‘Noto Sans Egyptian Hieroglyphs’ 字體。而目前尚無能夠正確顯示聖書體字符組合(需要正確解釋控制符 U+13430 ~ U+1343F )的字體,不過在可以先加上控制符輸入着,假裝能夠看見正常的顯示,等待能夠正確顯示的字體出現。

其餘說明都在 hieroglyph_mdc.schema.yaml 的文件頭裏面,及自己看 hieroglyph_mdc.dict.yaml 就好了。

另外有能用 MdC 轉寫法正確顯示聖書體的 Java 小程序,叫 JSesh,在這裏下載: https://jsesh.qenherkhopeshef.org/

在我的 github https://github.com/biopolyhedron 裏面還有中古全拼和中古三拼,西夏文四角輸入法,及各種基於拉丁轉寫及 QWERTY 鍵盤的輸入方案(比如藏文、維吾爾文、蒙古文、滿文、緬文、朝鮮文、梵文天城體、拉丁字母(含各種附加符号,可輸入國際音標)、阿拉伯字母(含各種附加符号)、基利爾字母(可輸入俄文和新蒙文)等等,其中有部分是和其他朋友合作的。

假如您覺得我的輸入法特有用,下面有“打賞”按鈕,隨便給點兒就行。

我集合了一些最近測試的Q-M242支系的全序列,包括復旦和源基因捕獲測試的Y染色體高通量數據、公開可得的一些數據(比如1000Genomes)和一些在別的機構測試上傳到源基因的bam,計算並細化了Q單倍羣的樹形。更新的樹形(含部分重要節點的共祖年代)見 源基因网站 裏面的“Y染色體樹”。
圖1 源基因Y染色體樹

樹實際上做了兩棵,一棵是帶有所有樣本的,即使測序質量稍差(read數偏少或者可以用來比對的區段偏少)的樣本也都放了進來,盡可能包括所有質量尚可的位點,做了一棵簡約樹(maximum parsimony,或者在一些輭件中稱最小演化樹,minimum evolution),這就是在上面源基因网站看到的樹。目前我們已經定義了69個支系。我們手裏擁有的Q高通量序列數多於這個支系數。而我們近年來定義一個支系的原則是,只有多於一個樣本(且不是父子、祖孫這樣非常近的關係)擁有獨特的共同的突變位點,我們纔會定義這個支系及命名相應位點,以免單個樣本發生測序錯誤,或者一些染色體結構特徵導致一些位點容易發生回復突變導致把過多不靠譜的位點加到樹上。

另一棵就是下面的算齡樹。這棵樹只保留了質量好的樣本及SNP區段,以保證每一個樣本在每一個位點都有可靠的測序結果。我們只保留了45個Q-M242的序列,時閒是用BEAST計算的(實際都有95%置信區閒,可以在源基因网站的樹上査到。)
圖2 Y染色體Q-M120的算齡樹

這棵樹上,右邊每一個端點代表一個男性的序列,橫坐標爲時閒。樹上每個支系名稱用藍字標在共祖的枝上方,比如Q-M242,Q爲支系名稱,而爲了明確,把定義的一個位點(如M242)標註在後面(因爲在不同版本的樹上,可能相同支系名稱會有不同所指)。而節點的年代用紅字標在節點的右側,單位爲千年。需要說明的是,靠近末端的支系經常算出的時閒會偏老一些(即新近的突變速率會偏快一些),但在沒有好的古DNA校正的情況下先只能按固定突變率來計算。

因爲我已經好久沒講過Y染色體了,所以回憶一下整個的Y染色體樹。如下:
圖3 Y染色體大樹

(本棵Y染色體樹已經加入了丹尼索瓦人的Y染色體。)大家可以看到,Q-M242單倍羣的“兄弟”單倍羣是R-M207,二者皆爲P-M45的下游支系,二者分開時閒約3.4万年。而Q單倍羣內部分開最早在3.1万年前。Q單倍羣在全世界的分佈是這樣:
圖4 Q單倍羣全球頻率

即主要分佈於亞洲和美洲(這個地圖指500年前土著的單倍羣,不包括哥倫布時期以後的移民)。在亞洲比例不高,比如在中國是2%左右,而在北亞一些族羣,有少數如葉尼塞語系的Ket人中比例較高。而在美洲土著中Q普遍多於90%。然而從支系角度,我們發現Q的早期分支基本都位於亞洲,包括南亞、中亞、北亞、中國等地,而美洲土著的Q大多數集中於Q1b1a1a-M3這一支。因此說明整個Q-M242應當在約3万年前發源於亞洲,直到約1.5万年前進入北美而迅速擴張(還不清楚具體位置應該在阿拉斯加還是落基山以東),因爲有始祖效應,因此能在美洲土著中占絕大多數的比例,而非比例最高的地方爲起源地。

在美洲的Q1b1a1a-M3這一支下的Q1b1a1a1-M848的下游,形成了一個超大的星形擴張(圖2中的紫框),目前來看可能至少20支直接的下游,其年代目前算出來大約爲1.5万年前。(也許應該命名爲Qβ-M848了,但我手裏美洲樣本序列太少,沒法很好給出下游命名。)很多支系分佈都很散亂,在南北美多個族羣裏都有。

而中國(尤其漢族)最主要的支系是Q1a1a-M120,尤其是在Qα-F1626下形成了一個密集擴張(圖2中的綠框),年代目前算出來是5640年(實際會比這個更晚近,可能在4000多年)。從Y-STR來看,Qα-F1626這支有一個明顯的特點,DYS391取低值,多數爲9,而Qα1a2-F4529這支普遍取值爲6,僅通過DYS391=6這一個點即能相對準確地判斷一個樣本屬於Qα1a2-F4529。
圖5 Q1a1a-M120漢族各省分佈

總體來說,Q1a1a-M120在漢族平均在2%左右,在北方部分省份能到10%左右,在其它各民族中基本也是0~10%的比例。而Q*-M242(xM120) (即整個Q-M242除掉Q1a1a-M120的部分)在全國更少,僅在維吾爾族裏比例稍高(有Q1a2-M25和Q2a1-M378)。

結合分佈(漢族各處較均勻,北方多)和擴散年代(四五千年),我們猜測Q1a1a-M120是華夏形成早期即融入的一支,但也非全部在4000多年前就融入了,約3000年前西周時期山西橫北倗國墓地和約2500年前戰國時期的寧夏彭陽遊牧人羣也都發現了這一支Y染色體。而這一支是否與青銅器、小麥等傳入中國有關,還需要進一步檢測西北地區的古DNA纔能揭曉。

如果大家想要知道自己的父系屬於Y染色體的什麼類型,可以參加源基因的測試(需要男性樣本,如果是女性對自己的父系感興趣,可以測自己的父親或兄弟)。在 源基因网站 購買一個測試即可。“父系基礎版”僅測Y-STR,用於比對兩個家族是否近支關係,而“父系尊享版”檢測Y染色體>10Mbp的區域,可以幫助我們細化這棵Y染色體譜系樹(尊享版建議在网站上聯繫客服參加團購),計算兩個人共祖的年代,也可以選擇把自己的Y染色體加到這棵樹相應的位置上(分子人類學愛好者中俗稱“上樹”)。

而如果您已經在其它機構對自己的Y染色體做過高通量測序,或者檢測過自己的全基因組(需要30×以上,需要拆分出Y染色體部分),也同樣歡迎您上傳自己的Y染色體bam文件(不支持僅包括位點的vcf等其它格式文件,在源基因网站註冊、登錄後點“數據導入”),源基因目前階段也能免費給您判斷所屬支系,計算兩個人的共祖年代(但用某些機構測出的bam,計算值可能誤差較大,最建議在源基因測),“上樹”,及使用您的序列來細化樹形。

我們對Y染色體各支系的細化是按大單倍羣一個個輪替的,已經完成一輪C、O、Q單倍羣,目前正在計算N單倍羣的樹,再下一步是D。如果您屬於D-M174單倍羣並在我或源基因之外的其它檢測機構獲得了Y染色體bam文件,歡迎盡快向源基因上傳。(其它單倍羣樹形也會輪替更新,只是時閒會稍後一些。)​​​​

(中文版本見後)

I re-rooted the whole sequence phylogenetic tree of Covid-19 (2019-nCoV; SARS-CoV-2). The phylogeny shows up that the most recent common ancestor (MRCA) might be circulating in human several months before the outbreak in Wuhan in Dec. 2019; the outbreak might be related to a non-synonymous Ser > Leu mutation in ORF8.

The auspice site collected dozens of whole genomic sequences of Covid-19, and made good visualization for the phylogeny. The webside put the node of the biggest “star cluster” as the beginning as the outbreak, which are commonly believed as the origin of the prevalence of this plague. However, this phylogenetic tree is unrooted. Since the mutation rate of a virus may not be in accordance with molecular clock assumption, the most recent common ancestor, or the “entrance of the tree” (e.g. “Y-chromosomal Adam” or “mitochondrial Eve” of modern human) should be confirmed through outgroup sequences. As the human Y chromosomal and mitochondrial trees were rooted using chimpanzee or Neanderthal sequences, naturally the closest strain to Covid-19, RaTG13, which was found in a bat in Yunnan province was applied for the re-rooting.

I discovered that the largest “star cluster” was not the MRCA of Covid-19! The root is shown in red in Fig. 1 and Fig. 2. Three mutations, C8782T (Fig. 3), T28144C (Fig. 4) and C24034T (Fig. 5) are found identical between bat coronavirus RaTG13 and those Covid-19 on the right of Fig. 2, but different to the others. So the root should be located at the position in red (although no sequence was found at this position, the closest sequence is one mutation away). A T>C muation at pos. 24034 caused a non-synonymous Ser > Leu change, which might cause the enhancement of the virulence. Also the rooting implies that Wuhan could be not the only candidate where the origin infection among human occurred; the virus circulation might have last a few weeks before December of 2019, but only known by human due to the rising of virulence in Wuhan. Future investigation of those sequences near the root might reveal hints for the origin of Covid-19.
Fig. 1
Fig. 2
Fig. 3
Fig. 4
Fig. 5


我有了個重大發現:所有本次新冠病毒的共祖可能早在12月之前的數月;在武漢的爆發也許與一個蛋白突變有關。

大概說一下:這個网站 ,收集了幾十條新冠病毒的全序。网站把武漢最大的一個星簇作爲最左,同時一般也以爲這個是時閒最早。但以我對Y染色體和線粒體的經驗,最大的擴張處未必是最早的節點。這個其實是棵無根樹。尤其因爲病毒的演化速率會不符合分子鐘假設,而無根樹最早分化的節點(如“Y染色體亞當”和“線粒體夏娃”)需要通過outgroup來定根。現代人的Y染色體和線粒體可以用黑猩猩或尼安德特人來定根,而新冠病毒我自然想到用和其最接近的雲南蝙蝠冠狀病毒RaTG13來定。

結果,我發現最大的那個餅並不是樹根!眞正的樹根其實是在圖1和圖2標紅的位置。有三個突變,C8782T(圖3),T28144C(圖4),C24034T(圖5),RaTG13都是和圖2偏右的樣本一致。說明整個新冠肺炎的始祖是在紅叉處(但截至目前並沒有測到過序列全同的樣本,最少的也是差一步)。而ORF8(某個被翻譯的蛋白)上的T>C突變造成了一個絲氨酸到亮氨酸(Ser > Leu)的殘基改變,有可能是病毒毒力增強的重要位點。同時還說明,武漢有可能不是病毒的原發地,12月之前該病毒在人閒已經傳播數月,只是在武漢因毒力增強爆發纔爲人所知。最接近樹形眞正根部的這些樣本也許能提供病毒最初來源的更多線索。

順道說一下,中南大學的黃石敎授,爲什麼說人類的共祖不在亞洲而是非洲,就是因爲你定根定錯了!
Fig. 1
Fig. 2
Fig. 3
Fig. 4
Fig. 5

完了,這回我眞看出問題了。還是序列比對,之前有個地方我沒注意,就是S蛋白(spike)中閒有一個內切位置,在病毒進入細胞後,蛋白內切酶把S蛋白切成兩個亞基,在很多冠狀病毒一般是由胰蛋白酶(trypsin)完成的,包括SARS等。

這次問題就是在這個內切位置上了。之前我比對序列的時候,沒有留意這個位置。而這個位置正好是Covid-19和其它所有毒株,包括與其最近的雲南蝙蝠冠狀病毒 RaTG13都不同的(穿山甲在這段和Covid-19更遠),而且這前後的序列相對都比較保守(圖1,第1條序列是Covid-19,第2條是雲南蝙蝠RaTG13,第6條是人SARS)。Covid-19插入了4個氨基酸殘基(PRRA,即脯氨酸-精氨酸-精氨酸-丙氨酸),而前後的序列相比RaTG13都沒有變化。4個殘基就是12個核苷酸鹼基,並不是一種很容易發生的突變。而這一突變正好造成了一個furin內切酶識別位點。
圖1

furin是一種蛋白內切酶,識別的蛋白序列爲RXXR(R是精氨酸,X是任一殘基)。PRRA加上後面緊跟着的R正好形成了furin識別位點。我覺得有問題的頭一點是在保守區引入了這樣一個插入,形成了識別位點。(之前我寫過一篇東西,說印度團隊的分析不靠譜,是因爲他們分析說有插入的地方太不保守,不同毒株什麼樣的長度都有。但這次是只有Covid-19與別的株不同。)因爲這個地方正好是切開兩個蛋白亞基,多兩個少兩個殘基一般並不很影響蛋白構象。

再看,這個位點會不會是被人有意引入的呢?結果發現,2009年眞就有人做過實驗了,發在PNAS上,就是把SARS在這個位置的RSTSQ變成了RRSRR,即引入了furin識別位點(原先是胰蛋白酶(trypsin)的識別位點)。結果發現病毒侵染效率提高了(圖2)。
圖2
圖3

所以,這個地方眞的很像人工設計的了。不過現在還沒有一個除這個位點以外其它部分都特別像Covid-19的母本病毒序列被公佈。

參攷文章:

  1. 李鑫 (2020) 武汉2019冠状病毒S蛋白可能存在Furin蛋白酶切位点
  2. Wong MC (2020) Evidence of recombination in coronaviruses implicating pangolin origins of nCoV-2019
  3. Belouzard S (2009) Activation of the SARS coronavirus spike protein via sequential proteolytic cleavage at two distinct sites

以上爲我發在新浪微雹的原文。

後面我補充的是:

  • 這個多出來的PRRA確實不像自然演化的產物,而很符合人爲設計的特徵,但我也不能完全說這就不是自然演化,碰巧了。
  • 本文我沒有指責任何人,病毒是無意或惡意放出並不知道,在武漢爆發也不說明就是中國人放出。

文章發出半天之後,我迫於一些不方便說的壓力,在微雹上隱藏了這篇文章。

這篇發出以後,我收到了微雹上另外幾位老師的回覆討論,包括 @內含子 的評論@fengfeixue0219 的評論 。兼聽則明,我也推薦我的讀者能來看一下這兩篇,我認爲這是很有價值的討論,我也能從中學習到自己不熟悉的知識。我盡管未能被他們說服,但有一些點還是可以說一下的:

  • 雖然我之前也寫過兩篇東西,說新冠病毒不像人爲製造的,那是當時我能看到的證據。一次是印度團隊提出新冠病毒的S蛋白前段的幾個插入被認爲是與HIV有關,還有一篇是James Lyons-Weiler提出新冠病毒是由不同病毒拼接而成,而且用了一個pShuttle-SN vector,我認爲這兩個東西的分析方法都有問題,見 《武漢冠狀病毒是人工改造插入了HIV片段?》和《武漢肺炎病毒爲人工製造可能性的探討》,所以他們提出的以我來看都不是有效的說明新冠病毒爲拼接而成的證據。而這次討論的PRRA的furin識別位點的證據和上面說的有所不同。
  • 突變可以是人爲設計,也可以是自然演化。區別在於,自然演化的突變一般是在基因組全序列的各處隨機、散在地分佈,隨機突變完了,哪個能活下來繁衍後代,物競天擇適者生存之後你就能觀察到哪個。而如果是人設計一個東西,按照工程學的原理,應該希望產品功能可控、可預測、成功率高,這樣人盡量通過較少的操作來實現改造。因此如果說兩個序列同樣有n個位點的差異,如果這些位點很隨機地分佈在各處,就會更像是自然演化,而如果這些位點很密集分佈在某個區域,且功能以現有的方法能預測,就更像是人爲的。
  • 兩位老師的回覆提到自然選擇也可能造成插入,這個我是同意的。所以我也只能說是像設計的,而不敢確定就是。
  • 這種奇特的插入突變如果能較大幅度增強病毒的自我繁殖能力(受到正選擇),那麼即使這種插入突變發生的機率遠小於單鹼基替換,我們也是會看到這種突變的。
  • 具體這種插入突變是小概率事件,以目前的瞭解可能很難計算其概率是多少。任何一個生物你讓它自然演化兩次,各產生幾個突變,都不會形成完全相同的序列。假如是不受到選擇的中性位點(比如外顯子的同義突變),某區域發生多少個突變的概率還可以算一下,而發生正選擇的區域會有蝴蝶效應,就沒法計算了,也就是說不能因爲是小概率事件而否認自然發生的可能。寄生生物,包括寄生蟲、致病菌、病毒等,爲了適應環境的變化,其演化速率非常不穩定,不適用分子鐘假設。
  • 這是一個削弱新冠病毒爲人爲設計的理由:爲了能盡可能瞭解和掌握人工改造病毒的功能(不論是爲了硏究還是製造生物武器),人工改造會盡量選擇已經瞭解比較全面的株作爲母本,而不應該去隨便找個功能不明的野生株作爲母本,這樣風險太大,也難以衡量人工改造的效果。假如存在一個除furin識別位點以外其它部分都特別像Covid-19的母本病毒,其序列都沒公佈過,一定不可能是一個硏究很透徹的病毒。
  • Covid-19病毒中,穿山甲病毒比雲南蝙蝠病毒RaTG-13更相似的片段爲S蛋白的RBD區域,而在插入的PRRA前後,Covid-19仍然是和RaTG-13更爲接近。下圖來自Wong MC (2020)。
    圖4

如對本文有任何疑問,歡迎通過新浪微雹、telegram等渠道與我討論。

關於說武漢冠狀病毒是非典類似的冠狀病毒加以HIV片段改造的說法,我這裏來給出我的分析。

太長不看:印度團隊的分析有問題,我並不能看出武漢病毒有人爲改造的痕跡。

緣起是印度硏究者1月31号發在bioRxiv上的這篇文章«Uncanny similarity of unique inserts in the 2019-nCoV spike protein to HIV-1 gp120 and Gag» ,他們比對了SARS和武漢病毒上的一個重要蛋白spike,發現武漢病毒相比SARS多了4個區域的插入序列,各4-6個鹼基這樣(圖1)。然後他們把這4段短序列在所有病毒的序列裏面搜索了一遍,發現這幾段序列的最近匹配都在艾滋病毒HIV上面(圖2)。於是他們猜測武漢冠狀病毒是用某種現實中自然存在的病毒裏面用生物工程辦法加入了這幾段HIV序列改造而成的。
圖1
圖2

我的分析方法也很簡單,就是看這幾段序列是否爲武漢冠狀病毒所獨有。因爲如果確實是用已有序列加上這幾段HIV序列改造而來的,那麼和武漢病毒和SARS最近的幾種冠狀病毒應該是和SARS一樣,只有武漢病毒多出這幾段。於是我從 NEJM這篇文章 裏面選了幾個全基因組序列,提出了其中的spike蛋白序列(我挑選的序列見圖3的箭頭,1是武漢病毒,2是和武漢病毒比較近的蝙蝠冠狀病毒,5是SARS,3和4是和SARS比較近的蝙蝠冠狀病毒),然後做了一下序列比對。(我其實也用再遠一層的蝙蝠病毒KF636752和MERS病毒放一起比對過,但序列差距過大,會干擾武漢病毒和SARS的比較,於是扔掉了。)
圖3

結果這四個區域(見圖4-7),第1個區域只有人SARS偏短,其它的差不多;第2個區域武漢病毒和接近的蝙蝠序列很接近;第3個區域武漢病毒、武漢相關蝙蝠病毒、所有類SARS病毒分成3類;第4個區域僅武漢病毒長了,但HIV序列相比武漢病毒的這個區域又插入了好幾個鹼基;甚至還有一個區域(圖8),人武漢病毒和人SARS差不多長,而蝙蝠的都短。也就是說,至少從這幾個區域來說,是不符合【用一個野生病毒加上人爲插入HIV序列改造】這麼一個模式的。
圖4
圖5
圖6
圖7
圖8

至於印度團隊的錯誤,今天也有很多不同的文章批判過了,國內國外的都有。比如 這篇文章 ,指出印度團隊只搜索了NCBI的病毒數據庫,而搜索的序列因爲都非常短,所以E值並不算顯著。如果放寬搜索範圍到所有生物,則有無數匹配。另外有其它人搜索過,也找到了蝙蝠冠狀病毒的序列,所以可能是印度搜索用的庫收錄不全。

本文是 Nathan W. Hill 的«The Historical Phonology of Tibetan, Burman, and Chinese»(《藏語、緬語和漢語的歷史音韻學》)一書的讀書筆記。文中上古藏語一律用國際音標,並以*標記,而傳統藏文一律用Wylie轉寫,需要時用/ /加註國際音標。

藏文在早期藏文到目前定型的藏文之閒,系統性的音變只有 sts > s 一個(如古藏文 la stsogs pa > 藏文 la sogs pa),另外普通的 i ི 和反 ï ྀ 在古藏文有區別,但又是亂的,定型的藏文就合併了。還有基字後的 འ 原先經常寫出來,現代就省略了,除非無後加字,如 འདའས་ vdas 現在只寫 འདས་ 了。(按:是否還需要提一下 -ld、-rd、-nd 的次後加字現在不用了呢?)

一、張琨定律(Chang’s Law):

b- 前加字會被後接的鼻音聲母同化:*b-n- > mn-, *bȵ- > mny- /mȵ/
例: “壓”過去時 *b-nan-s > mnand

二、柯蔚南定律(Coblin’s Law):

  1. *b-b- > b-, *b-p- > p- (同化,太自然了)
    例:“做”過去時 *b-bya-s > byas
    (以下C爲輔音,V爲元音,N爲鼻音)

  2. *ɦCC- > CC- (當v-前加字不允許形成該三合輔音時)
    例:“盼望”現在時 *ɦ-rkam > rkam

  3. *gCa > gCo, *gCCa > Co
    說明:藏語當動詞詞幹主元音爲a且現在時前加字加g/d-時,很多現在時主元音會變爲o,如“殺”詞幹sad,現在時gsod。一種解釋是go-前綴演變而成(我覺得也可以是gw-,附帶的w引發後面的a圓脣)
    例:“說”現在時 *gw-zla > zlo,“完成”現在時 *gw-skaŋ > skong

本書作者Nathan Hill認爲以上解釋不對,因爲有幾個詞的現在時並不是g-前加字而是v-,但仍然主元音變成了o,如
“插入、放置”詞幹*dʑag,現vjog,過bzhag,未gzhag,命zhogs
說明現在時的詞幹a變爲o與g-前綴無關,而認爲這是一種從更古代的變形繼承來的特徵。

  1. *sNC- > sC-
    例:“嗅” *s-mnam > snam

    向柏霖(Guillaume Jacques)提出的“蛇” *smrul > *smbrul > sbrul (早期緬文 mruy)

三、田雅客定律(Dempsey’s Law):

*e 和 *i 在舌根音 -ŋ 和 -k 前合併。主要是和上古漢語比較後得出。
耕部、錫部:
藏語“一”gcig < *gtjek,cf. 隻(cjek < *tek)
藏語“頸”mjing < *mljeŋ,cf. 領(liengx < *reŋʔ)
藏語“名”ming < 早期藏文 mying < *mjeŋ,cf. 名(mjeng < *meŋ)
眞部、質部:
藏語“節”tshigs,cf. 節(cet < *tsˁik)
藏語“蝨”shig < *srik,cf. 蝨(srit < *srik)
藏語“樹”shing < *sjiŋ,cf. 薪(sin < *siŋ)
藏語“田”zhing < *ljiŋ ,cf. 田(den < *lˁiŋ)

四、白保羅定律(Benedict’s Law):

*lj- > zh-
藏語“田”zhing < *ljiŋ ,cf. 田(den < *lˁiŋ)
藏語“甜”zhim < *ljim ,cf. 甜(dem < *lˁim)
藏語“地”gzhi < *glji ,cf. 地(diih < *lˁejs),早期緬文 mliy
藏語“四”bzhi < *b-lji ,cf. 四(siih < s-lis),早期緬文 liy
此外在藏文內部也有證據支持此演變,因古藏文有 *-j- 作爲敬語中綴,如
“乾”skam,“渴”skyem
“邊”logs,“體側” *g-l-j-oks > gzhogs
“升起”lang,“升起” *b-l-j-eŋ > bzheng

而現代藏語仍保留 li 而未變成 zhi 的詞需要做出解釋。其中一個解釋是若白保羅定律先於田雅客定律發生,則 *leŋ/lek 變爲 *liŋ/lik 而非繼續變爲 zhing/zhik。有一組漢語同音詞“田”(藏語zhing)和“畋”(藏語“打獵” lings),以藏語“田” *liŋ > zhing 而“畋” *leŋs > lings 來解釋(按:難道上古藏語兩個詞元音不同?)。

五、邊音之外的輔音的次生顎化:

一般發生在 i 元音前,就是
*ki > kyi, *kʰi > khyi, *ni > nyi, *si > shi, *ti > ci, *mi > myi(但“名”又從早期藏文的mying變回了傳統藏文的ming了)

六、孔好古定律(Conrady’s Law):

*ɦ- 後面的擦音均變爲塞擦音,清擦音送氣
*ɦ-s- > vtsh-, *ɦ-ɕ- > vch-, *ɦ-z- > vdz-, *ɦ-ʑ- > vj-, *ɦ-r- > vdr-
特殊地, *ɦ- 後接邊音時發生換位,隨後 ɦ- 消失
*ɦ-l- > *ɦdl- > *ɦld- > ld-
*ɦ-ɬ- > *ɦtɬ- > *ɦɬt- > lt-
相應的顎化
*ɦ-lj- > lj-
*ɦ-ɬj- > lc- (“鐵” lcags < *ɦɬjaks,漢語 thet < *lhˁik)

七、包擬古定律(Bodman’s Law):

*m-l- > md-
*m-lj- > mj-
如“箭” *mla > mda,cf. 漢語“射”(zsjek < *C-lak)
“尋”(長度單位) *mlom > mdom,cf. 漢語“尋” (zsim < *sə-ləm)

八、*u-ba > wa

古藏文有個特點,所有出現 w 下加字的字一定是以 a 結尾的開音節。向柏霖提出這可能是 u 尾字與後綴 ba 縮合而來。如 grwa 有 gru 的異寫,rwa 有 ru 的異寫,而 ba 是常見後綴。而且也可解釋 w 下加字只出現在名詞,而以 u 結尾的動詞不受影響。

九、*w- > y-

麥沛德(Boyd Michailovsky)和馬秀珍(Martine Mazaudon)對比東部藏語支語言發現古代藏語的 *w- 與 *j- 合併爲 y- 。而向柏霖看到只寫例子似乎全是 i 或 e 元音的,合併到第五條顎化裏面就行了。

十、Laufer’s Law: *wa > o

很多是和古漢語比較出來的。但漢語也有 *o > *wa 的音變(如歌、祭、元部)。好在我看了一下書上的例字很多是陽、鐸、魚部的,而藏文例字都是k組合口。如:
“蕨麻” gro-ma < *grwa-ma,cf. “芋” yoh < *ɢw®as
“去” vgro < *ɦgwra ,cf. “于” yo < *ɢwra
“胃” grod < *gwrat ,cf. “胃” yoih < *ɢwrət-s
“行” vgrod < *gwrat ,cf. “越” yat < *ɢwat

十一、 *aw > o, *ew > o

很多是和漢語同源詞對比得出。

感想:好像每個西方的漢藏語言學家都有個漢語名字,有些還不是太好査。好在网上都査到了。

本文爲學習筆記,原文是英文版的原口莊輔(Shōsuke Haraguchi)的Accent一文。

因爲原文還包括了日本各地聲調特徵的一個總結及大阪話聲調的詳細描述,這裏我就不作翻譯了,有興趣的可以自己找來看。我只記一下東京話的聲調特徵。

首先是一般的中文日語課本都會講的音拍與音高問題。日語的一個簡單假名、拗音以及撥音ん、促音っ都算一個音拍。於是,一個漢字的音讀都是一個或者兩個音拍的:こ是一個音拍、こう是兩個音拍、こく是兩個音拍、こっ是兩個音拍、こん是兩個音拍,しゃ是一個音拍、しゅう是兩個音拍,這樣。

然後是基本的調形。東京話有如下規律:

一、一個音拍只能爲高調或低調,不可能有升調或降調;

二、一個文節(ぶんせつ,即一個詞連同後面的後綴部分)中只能有一個連續的高調段,所以一個文節(不攷慮單音拍的文節)的調形只能是HL、LH、LHL(L爲低調、H爲高調)三種;

三、第一音拍和第二音拍的高低一定是反的。

這樣,一個 n 音拍的文節只能有 n 種情況。平板形 LH,即第一音拍低,第二音拍至尾都是高的;頭高形HL,即第一音拍高,第二至尾都是低的;中高形,即第一音拍低,第二至中閒第 m 個音拍高,第 m+1 至尾是低的。而一個單詞如果最後一拍是高的攷慮到後綴,又有後綴高(平板)和後綴低(中高)兩種情況。因此一個 n 音拍的單詞的調形可能有 n+1 種情況。把高調段最後一個音拍作爲調核,則頭高型調核爲第一音拍(1調),中高形的調核爲第 m 個音拍時爲 m 調(當 m = n 時,單詞爲尾高形,但後綴爲低調)、平板形(無調核)爲0調。

例如はし有0調的“端”、1調的“箸”、2調的“橋”三個詞三種情況。當後面接助詞が的時候,分別是(小寫表示低調,大寫表示高調,'表示之前的音拍爲調核):

端が 0調 平板形 haSI-GA

箸が 1調 頭高形 HA’si-ga

橋が 2調 中高形 haSI’-ga

(後面也會用-1調、-2調的寫法表示重音在倒數第幾個音拍上。)

以上是中文日語課本上常講的,後面就是一般課本上不太講的了。

書上給了一個統計:多達55%的詞是無調核的(平板形)。在有調核的詞中,大約75%的詞的調核在倒數第三音拍上。

日語除了音拍以外,其實也是有音節概念的,而且在聲調的解釋上有重要用途。含有長音、拗音、促音的都是兩個音拍爲一個音節。因此日語裏一個漢字的音讀,其實只有出現入聲韻尾且未促化的情況下纔是兩個音節,其餘都是一個音節,即上面列的こ、こう、こっ、こん、しゃ、しゅう都是一個音節,只有こく是兩個音節。這樣能解釋爲什麼“日本人”是nIHO’n-zin,而“中國人”是tyuUGOKU’-zin,明明構詞方式一樣,前者是-4調,而後者-3調。因爲含有長音、促音、撥音的雙音拍音節的第二音拍不能承載調核,ほん作爲重音音節,調核只能在其第一音拍。而ごく是兩個音節,第二音拍可以承載調核。

因爲單詞的調核還是可以在一些字典上査到的,但加了後綴以後的文節整體的調形,各種地方介紹都比較少。這篇文章分名詞、動詞、形容詞三大類情況比較詳細討論了幾種不同後綴情況。

名詞

  1. 最普通的單音節後綴,比如を、が、は之類,就是按照前述的規律加在名詞本身的調型後即可,即有調核的詞後綴爲低調、無調核的平板形後綴爲高調。

  2. 對於一般的有調核的後綴,如まで(MA’de)、です(DE’su),如前接詞有調核,則後綴本身的重音消除,均爲低音。如前詞爲平板型,則後綴的調核保留:

0調 さくらまで saKURA-MA’de

3調 おとこまで oTOKO’-made

2調こころまで koKO’ro-made

1調からすまで KA’rasu-made

  1. 屬格後綴の對於非頭重型的詞,如果重音在最後音節(而不一定是最後音拍),有消除重音的作用(如平板型)。

頭重 HL 型如一般的非重音後綴:

齒の HA’-no

今日の KYO’o-no

本の HO’n-no

嵐の A’rasi-no

尾音節重的 LH 或 LHL 型,の會消除尾音節重音):

(-1調) 川の kaWA-NO (對比“川を” kaWA’-o)

(-1調) 頭の aTAMA-NO (對比 aTAMA’-o)

(-2調) 日本の niHON-NO (對比 niHO’n-o)

(-2調) 昨日の kiNOO-NO (對比 kiNO’o-o)

非尾音節重音型不消除重音:

(-2調) 團扇の uTI’wa-no

(-3調) 色紙の iRO’gami-no

這裏就體現出音節的作用了,能解釋niHO’n和uTI’wa連の時的不同調形。

  1. 加前綴お時,不論原先何調型,原先單詞一律變爲頭重,お爲低音:

お手紙 teGAMI > o-TE’gami

お洗濯 seNTAKU > o-SE’ntaku

お風呂 huRO’ > o-HU’ro

お壽司 suSI’ > o-SU’si

お箸 HA’si > o-HA’si

動詞

動詞的調形只分爲無重音和有重音兩類。有重音的動詞均爲-2調。

  1. 命令形エ/ろ、使動アせる/させる、想要イたい/たい,原形爲平板形的仍爲平板,原形有重音的爲-2調:

進む suSUMU > suSUME, suSUMASERU, suSUMITAI

借りる kaRIRU > kaRIRO, kaRIMASERU, kaRITAI

隱す kaKU’su > kaKU’se, kaKUSASE’ru, kaKUSITA’i

建てる taTE’ru > taTE’ro, taTASASE’ru, taTETA’i

  1. 勸誘形オう/よう、尊敬形句尾イます/ます重音一律移至後綴:

suSUMU > suSUMO’o, suSUMIMA’su

kaRIRU > kaRIYO’o, kaRIMA’su

kaKU’su > kaKUSO’o, kaKUSIMA’su

taTE’ru > taTEYO’o, taTEMA’su

  1. 否定形アない/ない和て形如普通無重音詞綴,無重音仍爲平板,有重音的變爲-3調(當然如果本身て形只有兩個音節,就只能是頭高形了):

suSUMU > suSUMANAI, suSUNDE

kaRIRU > kaRINAI, kaRITE

kaKU’su > kaKUSA’nai, kaKU’site

taTE’ru > taTE’nai, TA’tete

  1. エば/れば、た形,無重音的總倒數第二音節爲重音,有重音的倒數第三音節爲重音。這裏ば和た爲附加音節,一定爲低調,而除掉附加音節本來情況和2.1是一樣的。但如果原本是平板形的,因爲附加的低調音節導致倒數第二音節有了調核,而倒數第二音節爲長音導致其第二音拍不能承載調核的話,調核就移到倒數第三音拍(如すすんだ的情況):

suSUMU > suSUME’ba, suSU’nda

kaRIRU > kaRIRE’ba, kaRI’ta

kaKU’su > kaKU’seba, kaKU’sita

taTE’ru > taTE’reba, TA’teta

形容詞

形容詞也是分爲有重音和無重音兩種情況,有重音的原形一定爲-2調(重音在詞幹最後音節)。

  1. く、さ形,原形無重音的仍爲平板,原形有重音的,只要詞幹是多音節,重音移至詞幹倒數第二音節,即文節爲-3調:

赤い aKA-I > aKA-KU, aKA-SA

白い siRO’-i > SI’ro-ku, SI’ro-sa

樂しい taNOSI’-i > taNO’si-ku, taNO’si-sa

  1. 連くは、かった、ければ時,後綴一律爲低調,原形無重音的重音在詞幹最後音節,原形有重音的且詞幹爲多音節的,重音在詞幹倒數第二音節:

aKA-I > aKA’-kuwa, aKA’-katta, aKA’-kereba

siRO’-i > SI’ro-kuwa, SI’ro-katta, SI’ro-kereba

taNOSI’-i > taNO’si-kuwa, taNO’si-katta, taNO’si-kereba


另外,我發現其餘网站上的一些說法和本文還不盡相同。本文也有很多常見詞綴及複合詞的音調變化規律並沒有列入。如果有人知道在線的能査日語單詞、詞組重音的詞典也請告訴我。歡迎在新浪微博或 Telegram 上與我( @polyhedron )聯繫。

補充:

知乎用戶“张文治”給了一個査敎科書中部分詞彙的网站: http://www.gavo.t.u-tokyo.ac.jp/ojad/

polyhedron

2018.02.25
原發於新浪微博及知乎

以下是我根據泰語拼寫和我的語言學知識,綜合我的漢藏、侗臺、梵、越南語知識對泰語音韻的一個總結。總結方法出來的和一般的泰語敎材挺不一樣的,但熟悉漢語音韻學的人應該一看就能懂。聲母分組按清濁那套,聲母轉寫按梵語轉寫,元音(韻)的標記因爲看不懂來源,暫時按越南語那套轉寫。歡迎大家糾錯、提出修改意見。

(說一下,爲什麼我寫“臺”(濁聲母字dai)而非“台”(次清聲母thai),因爲“臺”中古是濁聲母字,李方桂的《比較台語手冊》裏面泰語稱“暹羅語”,大概“台”就是“泰”。然而泰文的“泰”拼寫是ไทย(轉寫daiy),現代泰語清化送氣讀/tʰai̯˧˧/,我覺得表示僮侗語還是寫“臺”字好一些。)

這是泰語的字母表(聲母表):
圖1

泰文的輔音字母基本都是繼承自梵文的(黃色陰影),小部分是變體,也有的也許沒有梵文或巴利文來源。僅塞音字母按照發音方法就分成了5類,分別是內爆、清不送氣和3類清送氣。梵文、巴利文原始字母及借詞的清不送氣的บ p、ด t、ฎ ṭ在泰文就是第一行內爆(จ c、ก k沒內爆音),而漢語早期借詞的全清是第二行普通不送氣清音ป pp、ต tt(僅限聲母,韻尾仍寫作บ p、ด t,見後述)。聲母部位就是按梵語的5套(但捲舌和非捲舌的已經合併爲一類)以及喉音。然後還有表示清濁擦音的符号。所有全濁音全都清化了(但在聲調上有影響,見後),塞音清化成送氣音。ฃ x和ฅ ğ兩個字母在現代泰文中已經取消。輔音字母的筆順有個非常簡單的規律:一律從小圓圈開始。

我這裏面的轉寫基本上按梵文的。但這並不完全符合泰文創製時的泰語音系。按照梁敏、張均如的《民族語言學論稿》,臺語原有6類聲母:I. 先喉塞及喉塞音(把喉塞也放一起,是因爲在某些臺語裏調類分化和第II類不同);II. 普通不送氣清塞音(後面簡稱“普清”);III. 送氣清塞、塞擦音;IV. 清擦音及清鼻、邊音;V. 濁塞音和塞擦音;VI.濁鼻、邊、半元音。

對比字母表格,發現對應關係如下:第I類就是第1行內爆(複合輔音อย qy發音爲/j/但調類分化同全清);第II類就是第2行普清;第III類就是第3行送氣清音;第IV類的清擦音在字母表裏也是有的,而原始清鼻、邊音在泰文是用複合輔音表示的,包括หง hng、หน hn、หม hm、หย hy、หญ hñ、หว hw、หร hr、หล hl,發音已與相應的次濁聲母相同,但調類分化如次清聲母;第V類按漢語是全濁,對應字母表裏面兩行濁塞/塞擦音和一行擦音。其中兩行濁塞音發音完全相同,在泰語都是清化成送氣的,應該就是爲了寫梵巴語詞而全盤引入的;第VI類就是普通的鼻、邊、半元音了。

臺語和漢語一樣,也是先有了平、上、去、入四個調類,而後再根據聲母的清濁來區分陰陽。但有一點與漢語不同:漢語通常是全清、次清的調類分化完全相同,而全濁、次濁經常不同(如全濁上聲普遍變同去聲,以及北京話入聲全濁歸陽平而次濁歸去聲),臺語的普遍情況是全濁、次濁調類分化相同,而全清、次清有區別,有時第I類“先喉塞”和第II類普清也有區別。按一般泰語課本,全清的兩組稱“中輔音”,次清的兩組稱“高輔音”,濁的兩組稱“低輔音”。泰文按拼法,處於平、上、去、入有區別而聲母未清化、陰陽調類不分的階段。

按照一般的侗臺語學界習慣,陰陽平、陰陽上、陰陽去、陰陽入依次標爲1-8調,奇數調爲陰調,偶數調爲陽調。則總體規律如下:

圖2

因爲入聲的調值可以歸併進相近的舒聲(類似於廣州話的7短、7長、8三個調可分別歸入1、5、6調),泰語一般只算是有5個調,即1——次清平,調值爲215(升調);2——全清平及陽平,調值爲332或33(中平);3——陰上、陽去及長陽入,調值爲51(降調)、4——陽上及短陽入,調值爲453或55(高調)、5——陰去及陰入,調值爲211或11(低調)。以上的聲調編号是按侗臺語傳統順序來的,如果是按一般的泰語課本,則分別是第5調(升調)、第1調(中平)、第3調(降調)、第4調(高調)、第2調(低調)。

剛說了,泰文處於平、上、去、入有區別而聲母未清化、陰陽調類不分的階段,上聲標◌้ (轉寫作x)、去聲標◌่(轉寫作h),而平、入聲不標。而依現代泰語,所有聲母都可以與5個現代調相配。那麼送氣輔音是從在古代兩類演化來的,第III類到現在有1, 3, 5調,第V類到現在有2, 4, 3調,就都能拼出來了。對於鼻音、邊音、半元音、擦音來說,同樣是第IV類有1, 3, 5調,第VI類有2, 4, 3調,也是齊的。但對於兩組中輔音(內爆及普清),因爲正常只能有2, 3, 5調,在需要拼出1、4調詞的時候(一些擬聲詞、變調詞和晚期借詞之類)就需要有另外的調号,即表示1調(升調)的◌๋(轉寫作+)和表示4調(高調)的◌๊(轉寫作^)。

另外,舒、入聲調是這麼劃分的:長元音開音節算舒聲,短元音開音節算短入聲(這種情況也有說是有/ʔ/韻尾的),所有/m n ŋ/尾音節算舒聲,長元音/p t k/尾算長入,短元音/p t k/算短入。短入都是4(高)、5(低)調,長入都是3(降)、5(低)調。

泰語輔音韻尾就是/m n ŋ p t k/這6個,入聲也跟漢語南方方言一樣,都是清且不除阻的。拼寫如下:
/m/ ม m, มิ mi
/n/ น n, ณ ṇ, ญ ñ, ร r, ล l, ฬ ḷ
/ŋ/ ง ng
/p/ บ p, ป pp, พ b, ภ bh
/t/ ด t, ต tt, ถ th, ท d, ธ dh, ฎ ṭ, ฏ ṭṭ, ฐ ṭh, ฑ ḍ, ฒ ḍh, จ c, ช j, ซ z, ศ ś, ษ ṣ, ส s,ติ tti, ตุ ttu,共18種
/k/ ก k,ข kh,ค g,ฆ gh

韻尾除了最常見的ม m、น n、ง ng、บ p、ด t、ก k是本族詞或漢借詞以外,其它的基本都是梵巴語等的借詞,規律是塞音歸同部位塞音,擦音、塞擦音歸/t/,邊音、顫音都歸/n/。ญ ñ在聲母歸/j/但在韻尾歸/n/。

泰文是印度系文字,理論上屬於元音附標文字(即短元音a不標,其它元音標符号),但實際上因爲泰語元音極多,且單獨出現拼短a輔音的音節也極少出現且也有附標(而作爲前置音節的短a很常見),也不用virāma的符号,所以其實已經是準alphabet文字而非abugida文字了。前置音節短a大體上是說,如果兩個輔音字母能構成一個複輔音就按複輔音來,例如ppr, ppl, kr, gr, kw, hm, hn, hl, qy等等幾個,而如果不能構成複輔音,則前面字母拼爲一個帶短弱a元音的前置音節。

泰語的元音系統很複雜,光單元音就有9對,各分長短,元音來源也我這裏就按越南語的字母來轉寫了。

圖3

其中虛點圓圈代表聲母所在位置。如果聲母不止一個字母,則元音左邊的部分放在所有輔音字母左邊,而上面、下面的部分及聲調符号在聲母右邊的字母上面。

表格裏面,如果某個元音有兩種拼法,則前面的表示開音節,後面的表示後接輔音的閉音節。比如開音節ka寫成กะ,而閉音節kap就寫成กับ。很多情況下,開音節都是加一個ะ表示短元音,而在閉音節時,就把ะ挪到聲母上面變成◌ั或者◌็。

泰語還有很多複元音,如表格:

圖4

所有複元音,不論二合還是三合元音都是前響複元音,沒有介音(介音ย y(只出現在อ q)或ว w算在複合輔音裏了,不算入韻母)。但如果按照元音開口度來看,還是能分成前開二合元音、後開二合元音和中開三合元音三類。即後開二合元音是ia, ưa, ua三個,這三個後面又能夠接輔音韻尾或-i, -w。前開二合元音有3個是基本的,也有專門的字母表示,是ai, aư, au三個。其餘的前開二合元音及所有3個三合元音都是由相應的單元音或後開二合元音加上-y或-w規則構成了。另外ไ◌ ai, ใ◌ aư, ◌ัย ay三個韻母的發音已經相同,都讀/ai̯/了。

另外,泰文也有表示梵語元音ṛ ṝ ḷ ḹ(這個ḷ的拉丁轉寫跟前面輔音裏巴利文的ḷ一樣了,但並不是一回事兒,那個是捲舌l)的符号,分別是ฤ ṛ /rɯ/、ฤา ṝ /rɯː/、ฦ ḷ /lɯ/、ฦๅ ḹ /lɯː/,本來後面兩個本來就很少出現,只有轉寫梵巴語的理論價值。還有anusvāra,就是◌ํา,轉寫爲aṃ吧,發音同◌ัม am,都是/am/。

舉幾個泰語數詞的例子:

圖5

(橋本萬太郎說:越南語固有詞能數到9999,万以上改用漢字詞;朝鮮語固有詞能數到99,百以上改用漢字詞;日本語固有詞能數到10,十一以上改用漢字詞;泰語固有詞能數到1,二以上改用漢字詞。)

還要吐槽一下泰文的Unicode:一般的印度系文字,不論印度文字還是藏文、緬文(說的是Padauk等遵循Unicode的字體,不是Zawgyi),Unicode順序都是按照發音順序來的,比如ति ti的編碼順序是先寫त ta再寫◌ि i。而泰文Unicode編碼是按書寫的左右來的,而且還有一些奇怪的疊壓規則,比如ต้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้้這樣的(一個個上聲符号就能依次往上疊)。這樣一個元音就能被聲母和聲調拆成3個部分,比如เกี้ยง kiangx這樣一個音節的Unicode字符順序是êê k i x y ng,其中表示ia這個複元音的是êê - i - y三塊兒。連遵循發音或轉寫順序的輸入法都很難設計。

參攷資料:


本文於2016-10-21發佈於本人新浪博客 https://blog.sina.com.cn/s/blog_465ddf790102wxbv.html ,但已無法訪問,故搬遷至github的雹。