人類基因體計畫最後一塊拼圖：我們要用誰的基因體來代表全人類？

发布时间：2024-05-17 14:46:33 作者：玩站小弟

文：陳乃群於約翰霍普金斯大學取得電腦科學博士學位，在「端粒到端粒聯盟」的計畫協助產生T2T-CHM13和舊版人類基因體的對映關係，讓新舊版的分析資料可以更好地整合）Take Home Message1 。

文：陳乃群（於約翰霍普金斯大學取得電腦科學博士學位，人類在「端粒到端粒聯盟」的基因基因計畫協助產生T2T-CHM13和舊版人類基因體的對映關係，讓新舊版的體計體來分析資料可以更好地整合）

Take Home Message

1988年發起的人類基因體計畫，目標為完成人類基因體序列的畫最後塊解碼。該計畫於2003年宣告完成，拼圖當年研究團隊完成92％的們用人類基因體序列，也成為現今基因體研究的代表基石。
人類基因體有8％的全人區域在當時仍無法完全解碼，包含端粒、人類中節、基因基因核糖體陣列。體計體來端粒到端粒聯盟利用CHM13和新世代定序技術，畫最後塊於去（2021）年發表第一個完整人類基因體序列。拼圖
儘管完整基因體將帶來生物醫學全新的們用可能性，但此序列仍不能代表全人類。代表人類泛基因體聯盟正開發自動化組裝基因體的技術，希望能夠正確解析雙套的基因體，並應用於各族裔的參與者。

基因體是生物中所有遺傳訊息的組合，以人類來說，基因體中的遺傳密碼以染色體（chromosome）中的去氧核糖核酸（DNA）序列儲存，這些DNA 序列可以轉錄（transcribe）成核糖核酸（RNA），再進一步轉譯（translate）成蛋白質，決定生物的各式樣貌。

人類基因體計畫

了解基因體對於認識一個物種至關重要，因此美國國會在1988年發起人類基因體計畫（Human Genome Project, HGP），目標是完成人類基因體的解碼。

人類的基因體由23對染色體組成，總共有超過30億個DNA鹼基對（base pair）。但即使是當時最先進的DNA定序方法⸺獲得1980年諾貝爾化學獎殊榮的桑格定序法（Sanger sequencing），一次也只能解讀500～1000個鹼基對，因此科學家需要組裝（assemble）這些短的DNA序列，才能解碼人類基因體。

這是一件極度複雜的任務，像是組裝一幅300萬片的拼圖，而且沒有人知道拼圖的全貌。科學家分析不同DNA碎片之間的相同區域做為組裝的證據，挑戰著這項艱鉅的任務，例如一塊碎片尾端的序列與另一塊碎片的首端序列相同時，就可以將兩個碎片結合起來，變成更長的碎片。

在全世界超過2000名科學家的努力之下，人類基因體計畫於2003年宣告完成，研究團隊發布的人類基因體序列相當精確，獨立驗證下的錯誤率約為十萬分之一，而且涵蓋超過92％的人類基因體區域，這份人類基因體序列從此成為基因體研究的基石。

當不知道拼圖的全貌時，組裝拼圖非常困難；但如果已經知道拼圖完成後的樣子，我們便可以讓電腦去比對小片的拼圖與完成圖，從中找到小碎片的正確位置，再加上科學家設計的演算法，可以相當快速而且精準地完成這項任務。

雖然每個人的基因體序列存在些許差異，但大體上人與人之間的基因體相似程度高達99.9％，於是在完成第一個人類基因體之後，科學家便可以透過序列比對（sequence alignment）的處理方式分析基因檢體，大幅提高分析的效率。

利用序列比對，我們可以分析其他不屬於「人類基因體計畫」的人類基因檢體，了解個體、族群之間的差異，更深入地分析基因變異和各種生物性狀的關連，也可以更詳細地探索疾病機制。

最後一塊拼圖

在第一個人類基因體發布之後的20年間，基因體學有了飛躍性的進步，DNA定序的價格大幅降低，許多大型的資料庫如「千人基因體計畫」（1000 Genomes Project）、「英國人體生物資料庫」（UK Biobank）更搜集超過數十萬人的基因資料。這些進步帶來大量基礎科學的突破，也幫助科學家開發先進的藥物與療法，更開啟了新興的產業，如基因檢測（genetic testing）和基因編輯（gene editing）。

這些科學進展大多基於人類基因體計畫所組裝的基因體，然而這份基因體其實仍然有8％（大約兩億個鹼基對）的區域無法完全解碼，這些未完成的區域包含許多端粒（telomere）、中節（centromere）、核糖體陣列（ribosomal DNA array）的序列，由於這些區域具有大量的重複序列，利用桑格定序法難以分析。這些區域就好像看不見的黑暗物質一樣，如今科學家們終於可以一探究竟，探索它們對人體是否具有重大的意義。

新世代的DNA定序方法在近年已逐漸成熟，例如Oxford Nanopore Technologies公司的技術可以解析長達百萬鹼基對的DNA序列，因此可具備良好的正確性；Pacific Biosciences公司的定序技術則達到更高的精準性，解析長達兩萬個鹼基對的序列。

這些新的技術提供良好的材料——更長的基因片段，讓科學家有機會解碼人類基因體中最困難的區域；就像是拼拼圖時，如果使用比較大塊的拼圖碎片，完成拼圖的難度就降低許多。

shutterstock_788836087 — 真核生物的染色體由DNA和組蛋白（histone）組成，DNA通常會纏繞在組蛋白上形成較緊密的結構。端粒在染色體的兩端，已知與老化、疾病相關；中節是染色體中的特定區域，在細胞分裂時連結二分體。端粒和中節的區域比一般的染色體區域有更緊密的纏繞結構，而且其中的DNA序列重複程度非常高。

不過仍有另一個困難，由於健康人類的基因體是雙倍體（diploid），因此在組裝複雜區域的基因體時，兩套染色體（一套來自爸爸、一套來自媽媽）之間的細微差異，常常造成分析上的困難。

科學家發現一組代碼為CHM13（Complete Hydatidiform Mole 13）的特別細胞株可以協助解決這個難題，這個細胞株在精卵結合時發生異常，最終的細胞只包含精子DNA。美國匹茲堡大學（University of Pittsburgh）的科學家蘇爾蒂（Urvashi Surti）在1981 ～ 2000年間收集了一系列這類型的細胞株進行研究，發現他雖然無法發育成一個健康的個體，但從基因體學的角度來看CHM13和一般健康人的基因體沒有明顯差異。

萬事具備，只欠東風。在2018年，美國國家衛生院（National Institutes of Health, NIH）的生物資訊學家菲力佩（Adam Phillippy）以及加州大學聖塔聖克魯茲分校（University of California, Santa Cruz）的遺傳學者米嘉（Karen Miga）成立「端粒到端粒聯盟」（T2T Consortium），他們利用CHM13細胞株和新世代的定序技術，挑戰組裝第一個真正完整的人體基因體。

Tag：

广西南宁：提升消费者满意度宣传走进社区
10月23日，广西壮族自治区南宁市市场监管局、南宁市西乡塘区市场监管局来到广西水电工程局科园基地小区，联合开展“‘邕’有诚信消费无忧 2023年提升消费者满意度进社区”宣传活动。活动现场通过真假产品
2024-05-17
證詞矛盾的火窟雙屍疑案（四）：案件宣判後，新證人又推翻「黃衣女郎」的存在
文：王兒證詞矛盾的火窟雙屍疑案一）：女傭與幼兒慘死火場，神秘的黃衣女郎是誰？證詞矛盾的火窟雙屍疑案二）：嫌犯突然寫下認罪自白，是迫於刑求還是露出破綻？證詞矛盾的火窟雙屍疑案三）：謎樣的「那個男人」是否
2024-05-17
【小說】《梅菲斯特》導讀：二十世紀德國流亡文學重要作品，關注藝術與權力間的虛與實
文：張守慧文藻外語大學德國語文系教授）【導讀】似虛如實之間的「梅菲斯特」《梅菲斯特：一個追求飛黃騰達的故事》是二十世紀德國流亡文學的重要作品之一。這部小說出版於作者克勞斯．曼Klaus Mann, 1
2024-05-17
標榜「新政治」的民眾黨沒有核心思想也沒有靈魂，只有各種柯文哲元素的排列組合
許多年輕人當初願意去政黨或立院當助理，多半是出自於學習的心態，因為看到不少民進黨幕僚出身的，在幾經歷練後都有機會投入民代選戰，當上議員後認真問政、服務鄉親得到好口碑後，更上一層樓擔任立委或其他公職；等
2024-05-17
雅安市田家炳中学“思源·金蝶教育移民班”开班
雅安日报讯近日，雅安市田家炳中学多媒体教室座无虚席，雨城区中华思源工程扶贫基金会“金蝶移民班”开班仪式在这里举行。“4·20”芦山强烈地震，给雅安人民带来巨大灾难，不少学生家园被毁。地震无情，人间有爱
2024-05-17
【專訪】台灣「晶圓女王」徐秀蘭：全球晶片大戰的險境與牌局，地緣政治多重挑戰同時到達
文：呂嘉鴻BBC中文記者）「現在其實不是只有環球晶圓，而是說整個晶片）產業，遇到一個最大的挑戰是太多不同的困難同時發生，同時要面對，所以你要有一套，而不是一個應對方法……這次併購世創失敗對我們來說是『
2024-05-17