什麼?知名的搜尋引擎巨人Google不只提供現代生活龐大的資訊,它居然也可以保留你我的基因組?沒錯,Google自從去年三月起,開始與許多醫院、大學合作,創辦了 Google Genomics雲端空間,試圖建立一個網路貯存基因資訊的平台。
在未來十年,究因於現代醫學的發現與科技的進步,對於基因體進行比序、定位與連結的資料量即將數以千計,甚至很快的就會就數以千萬計。 Amazon、Google、 IBM和Microsoft都對這個嶄新的市場懷有強烈的野心,於是,Google在約莫兩年前邀集科學家們創立了Google Genomics,他們建立了一套DNA網路資訊庫、獨有的操作介面(API),並將DNA data輸入伺服器中共用,重新編碼彙整成索引,供數以十億的網路使用者查詢以及科學家們實驗之用。
「現在的生物學家研究數以百萬計個基因組的時間可能還比以往研究一個基因組還要短呢,」知名社交平台Google+的團隊領導工程師David Glazer表示,「我們可以看到,這是一個可以來幫助解決這個轉變時期的應用資訊技術(data technology)上,非常具有突破性的進展」。
有一些科學家並不看好Google,他們嘲弄Google無法處理複雜的基因組資料,但並非所有人都對此懷有成見。一位在今年甫聽到Google的基因組雲端計畫的Stanford的生物信息(bioinformatics)專家Atul Butte就說:「我突然可以理解旅遊業者看到自助旅遊規畫網(Expedia)的心情了!」
為了處理數量龐多的資訊,實驗室也增加了更能快速解譯的配備,譯解基因的速度大幅提升。 舉例來說,位在劍橋大學的Broad Institute在十月期間,平均每32分鐘可以譯解一個人的基因組。Broad所處理的資訊流,比一般網路公司所處理的還要小,但已經遠遠超出生物學家之前曾經做過的事了。目前中央貯存資料的方式,通常由商業導向的機構管理,美國國家癌症研究機構就說,他們上個月花了1億九千萬美元將資料上傳到雲端空間,這筆資料同時也貯存在Google Genomics以及Amazon’s data centers上。
為什麼要將癌症基因組的資料上傳到雲端上呢?科學家表示,並不是每一個人都擁有可以處理大量數據的電腦計算工具,與下載大量數據的能力。而科學家的「癌症資料上傳到雲端」的構想,也使得Google和 Amazon開啟了為期一年以上的價格戰。Google表示,目前他們的收費是每年收費25美元來貯存一個基因組,而且他們提供更多的電腦計算資訊。但根據科學家所提供的資料數據,一個人的遺傳數據量不會太大,所以一個人一年的花費只有0.25美元。
雲端貯存也催產了許多公司,例如Tute Genomics,、DNANexus、 Seven Bridges還有NextCode Health…….等等,這些公司建立了提供醫院以及科學家搜尋基因資料的瀏覽器,對他們來說,Google和 Amazon是已經過時的終端經營,創立一間「雲端上的基因體公司」才是他們的首要目標。
但是對Google方面來說,Glazer表示,他是一開始就在Google Genomics打拼,見證了處理生物學資料,從非常模糊不確定的「手工業時期」進化到了「工廠規模等級的」資訊生產的過程。他甚至開始主動學習關於基因學的知識、參與線上課程、與參與Google Genomics計畫的Broad Institute請益,也把自己的基因定序放在Google的雲端之上。目前Google Genomics上貯存了大約3500組的基因組。
關於Google Genomics和Amazon’s data centers雲端貯存的價錢也逐漸下降,許多科學家對此樂觀其成,而且科學家們也越來越仰賴雲端貯存的技術。另外,由Glazer所建立的另一個Google的線上資料庫系統BigQuery(它的目的是用來分析垃圾郵件、網頁文檔和顧客選擇),也逐漸被學界使用。它和Google Genomics的合作展現在它可以非常迅速的處理,科學家一些瘋狂的點子,因為不管有多少人們的基因組資料,它都可以有系統、有效率地進行比對。
參考資料: