14萬中國人大數據揭示基因南北差異:南方人免疫力強?
編輯:黃榮 信息來源: 西e網-新浪網發布時間:2018-10-26
在中國,南方人與北方人在飲食、生活習慣等方面都有很大的不同。例如,一個典型的差別是:北方人愛吃肉,而南方人偏愛蔬菜。究竟是什么機制導致了這樣的差異?一項涵蓋了14萬中國人的基因組學大數據研究發現,這種不同飲食習慣背后有其特殊的基因規律:在一個影響動物脂肪代謝的基因上,促脂肪代謝的等位基因在蔬菜缺乏的北方省份明顯富集。除此之外,這項研究還揭示了更多中國人群的基因特征。
這項研究成果近期發表在《細胞》(Cell)雜志上。除了上述飲食習慣的差異,研究還得出了大量有趣的結論。這支由中國科學家領導的合作團隊,在對超過14萬中國人的無創產前基因檢測數據進行深入研究后,首次揭秘了中國人群獨特的基因遺傳特征、南北方人群的遺傳差異,甚至還發現了與生育雙胞胎顯著相關的基因位點。
自人類基因組計劃完成以來,越來越多的基因組計劃被提上日程,比如英國針對癌癥和罕見病患者的10萬人基因組計劃、英國50萬人生物樣本庫,這對于了解特定人群的基因遺傳特點、實現疾病的精準診治都大有幫助。然而,在這項最新研究之前,公開數據庫中僅包含來自千人基因組計劃的301位中國人的基因組數據,這遠遠不能代表14億中國人群的遺傳背景。
“最近,英國的國家基因組計劃又一次升級,宣布未來5年要做500萬人的基因組,”華大生命科學研究院母嬰研究所副所長、論文共同通訊作者金鑫說,“其其它國家的進展很快,但中國還停留在300個人,我們希望快速追趕,在已有數據的基礎上實現突破。”
南北差異的遺傳因素
此次研究的基因數據來自141431名孕婦,涵蓋了31個省份、37個民族。
在數據分析中,研究人員發現6個在緯度上受到強烈自然選擇的基因,也就是說這6個基因在南北方人群中存在遺傳差異。其中三個與人體的免疫反應有關,一個與動物脂肪代謝有關。
“在人類演化中,免疫方面的基因很容易受自然選擇影響。”金鑫說,如果免疫相關的功能不能提升或者不適應當地的環境,人就沒有辦法生存下去。從歷史上看,南方與北方的自然環境差別很大,所以在免疫層面上就會存在差異,并且反應在與免疫有關的基因上。此前有媒體報道稱,這說明南方人的免疫力更強,金鑫對此解釋說:“其實也不一定,應該說南方人對于南方環境的適應更佳,并在基因上留下了印記。”金鑫說:“‘船到郴州止,馬到郴州死,人到郴州打擺子’的古話,說的就是古時候北方人很難適應南方的環境。”
針對某些特殊的疾病,南方人確實比北方人具有更強的免疫力,但是這卻可能增加患其它疾病的概率,以達到一種平衡。“瘧疾曾經在中國南方肆虐,南方人群為了適應環境在基因層面發生了一些變化,使得南方人群更能夠抵抗瘧疾,”金鑫舉例說,“但是反過來它也帶來了一個副作用,突變的基因會導致地中海貧血或其他血紅蛋白病,比如導致‘蠶豆病’的突變基因G6PD在南方人群中頻率明顯高于北方。所以我們可以看到在中國南方人群中,血紅蛋白病發生的比較多。”也就是說,中國南方人群在提高抵抗瘧疾能力的同時也付出了代價。
在動物脂肪代謝方面,研究者發現C型促脂肪代謝等位基因在北方明顯富集,尤其在蔬菜供應比較缺乏的省份。這一等位基因可以更好地促進動物脂肪的代謝,此前這一等位基因已經被確認在南亞、歐洲、非洲人群中比較多,“這個基因在其它人群中已經有過報道,”金鑫說,“但這次是第一次在中國人群中發現南北差異。”這與南北方的飲食習慣和當地能夠獲取的食物有關系。北方人愛吃肉,也有能力消化肉食不是沒有原因的。
從基因分析中,還可以看到人口的遷移規律在基因上留下的痕跡。比如,研究人員發現與北京的漢族人親緣關系最近的不是北京人,而是更接近沿海省份的人口:山東、浙江、江蘇、福建以及江西,這可能反映了人口向北京遷移的過程。
所有南方省份與南部沿海省份的親緣關系更接近,而北部省份則與北部沿海省份關系密切。研究者認為這一觀察結果可能反映了自1949年以來政府組織的內部移民事件以及自1979年以來中國從內陸到沿海地區的勞動力轉移。
“所以我們今天看到的基因分析結果都跟中國人祖先的遷徙和演化有關系,從數據中看到的其實是歷史上我們先輩遷徙和與自然抗爭的基因記錄。”金鑫說。
雙胞胎基因
由于此次研究的樣本全部來源于孕婦,因此不僅可以研究中國一般人群的基因情況,也是研究與孕產相關基因的好機會。
研究人員對兩個與孕產有關的表型進行了研究,分別為懷孕年齡和多胎懷孕。他們發現了兩個與懷孕年齡顯著相關的基因位點,這兩個位點的突變與生育力等因素密切相關。
另外,研究人員還發現了一個與懷雙胞胎顯著相關的基因突變位點,這一突變在懷有雙胞胎的母親中比較常見。也就是說攜帶NRG1基因的突變,有高更的幾率懷上雙胞胎。“此前人們在小鼠模型中研究過這個基因,發現其突變與小鼠產仔數量有關系。”金鑫說。敲除這一基因會導致小鼠的產仔數減少。當然,攜帶這一基因會增加懷雙胞胎的幾率,但并不意味著一定會生下雙胞胎。
中國人的百萬基因組計劃
全世界已經有超過1000萬人進行過無創產前基因檢測,其中中國就有700~800萬。無創產前基因檢測采集孕婦的靜脈血,對母體外周血漿中的游離基因片段進行測序,對胎兒染色體非正倍體進行篩查。人們比較熟知的是,這種方法可以比較準確地檢測唐氏綜合征。
通過這一檢測積累的大量中國人基因數據,是一個巨大的基因寶庫。“我們認為,未來科研領域的大數據,一定不只是來源于假說驅動的有限的科研項目。大量的數據一定是來源于數據驅動的真實的應用場景,”金鑫說,“在臨床的場景或者健康的場景下,產生的數據,如何在保障個人隱私和數據安全的基礎上,合理合規有效率地用于科學研究,這對全人類來說都是非常重要的事情。”
所以,當研究人員看到全球人群基因組飛速發展,尤其英國已經完成了10萬、50萬,正在邁向500萬人,而中國還停留在300人時,他們想到的追趕方式,就是利用已經在臨床場景中產生的大量數據。此次使用的樣本量是14萬人,幾乎相當于中國人口的萬分之一,是一個頗具代表性的大樣本量。
然而,由于這些數據原本只是滿足臨床所需,單個樣本檢測的基因組數據量比較少。據金鑫介紹,產前基因檢測獲得的個體基因組數據,還不到整個基因組的10%。“一般進行全基因組檢測,會產生100G以上的數據量,但我們的數據只有幾百兆。”這意味著,對于個人而言,全基因組測序數據量是無創產前基因檢測數據量的上千倍。“所以,這個歷時兩年的研究項目,大部分的攻關都花在如何在少量的數據下,也能夠體現整個人群的特征,”金鑫說,“我覺得這可能也是大數據的魅力,就是當所有樣本放在一起分析的時候,缺失的部分可以互相彌補。”
未來,金鑫與他的團隊還有更大的計劃,他們預計在未來3年內,將中國人群樣本量擴大到100萬人。這又將是一個艱辛的過程,他們還將面對大量需要細致耐心的數據整理工作,以及呈指數級增長的計算量。