科研進展
   新聞動態
      科研進展
      綜合新聞
      傳媒掃描
現在位置:首頁 > 新聞動態 > 科研進展
(付巖)蛋白質組大數據分析算法
2019-12-12 | 編輯:

  如果說基因是生命的遺傳密碼,那么蛋白質就是生命功能的具體執行者,其狀態變化直接決定著生物體生老病死的生命過程。例如,主流觀點認為阿爾茨海默?。ɡ夏臧V呆癥)與大腦內類淀粉樣蛋白質堆積以及 Tau蛋白質過度磷酸化修飾高度相關。與基因組相對應,蛋白質組是指一個細胞、組織、器官或者物種中在特定時刻或條件下表達的所有蛋白質。監測和分析蛋白質組的變化,對于疾病的早期診斷、預防和治療都有重要價值。近年來快速發展的生物質譜技術因其高通量、高分辨率特性,成為蛋白質組研究的主流分析技術。目前,一次常規的蛋白質組實驗就能產生數以百萬計的質譜數據。這些海量質譜實驗數據一方面為蛋白質組學提供了前所未有的研究機遇,另一方面在數據處理和分析上也充滿了困難和挑戰。計算和統計蛋白質組學作為一個新興的交叉研究方向,旨在為蛋白質組研究提供高效準確的數據分析算法,為解決相關生物和醫學問題提供可靠的數學模型和計算工具。在這一方向上,我們已對蛋白質鑒定、蛋白質定量、蛋白質修飾發現、以及統計顯著性評估等問題做了十多年系統性的研究。2019年我們取得了以下進展。

  1)蛋白質組復雜性的一個表現是蛋白質序列上大量存在的翻譯后修飾,發生修飾的蛋白質,其理化性質會發生顯著改變,從而實現了蛋白質功能的指數級擴增。由于蛋白質上潛在的修飾位點非常多,對修飾進行精確的定位是研究修飾對蛋白功能調控的前提。對質譜數據的開放式搜索會產生大量的候選修飾位點,其假陽性率很高。已有的修飾定位算法基于單一質譜數據,沒有挖掘和利用大量質譜數據中蘊含的有用信息。我們基于經驗貝葉斯思想,提出了首個面向開放式質譜數據分析的高精度修飾定位概率算法PTMiner,該算法通過一個迭代過程自動地從大規模質譜數據中學習修飾先驗概率,更精確地估計修飾位點的后驗概率。我們將PTMiner用于人類蛋白質組草圖海量數據(兩千多萬個質譜圖)的修飾分析,在1%假陽性率下可靠測定了一百多萬個修飾,系統全面地刻畫了人類蛋白質組中的已知和未知修飾。

  2)在自底向上蛋白質組學中,蛋白質首先被酶解成肽(較短的氨基酸序列),后者再被質譜儀檢測分析。但是,質譜檢測具有較大的隨機性,表現在:有些肽能被檢測到,有些肽檢測不到。這種隨機性給蛋白質組實驗設計帶來了很大困難。我們首次提出了融合肽酶切概率的肽可檢測性預測策略,基于隨機森林機器學習方法開發了肽可檢測性預測算法AP3。該算法首先根據酶切位點周邊的氨基酸序列預測酶切位點概率,進而計算肽的酶切概率,然后聯合其它587種肽序列和物化屬性預測肽可檢測性。實驗表明,肽酶切概率是最重要的肽可檢測性預測特征,與已有最好的算法相比,AP3的特征肽預測精度提高了10.334.7%。進一步我們將AP3算法用于靶向蛋白質組學中的特征肽選擇實驗設計,獲得了很好的效果。

  3)質譜隨機性的另一種表現是:相同濃度的肽的質譜信號強度往往存在很大差異。目前,蛋白質定量通常采用對肽質譜強度取平均的策略,由于肽質譜強度的測量誤差非常大,這種策略只有當肽的數量很大時才有效,但是肽的數量通常較小。為了提高蛋白質定量分析的準確性,我們提出了肽質譜定量效率概念,開發了基于肽定量效率預測的蛋白質絕對定量算法LFAQ。該算法首先利用貝葉斯回歸累加樹模型,根據肽序列和物化屬性預測肽定量效率,然后用預測的定量效率校正肽質譜強度信號,進而對蛋白質濃度進行更準確的定量。實驗表明,LFAQ算法可以有效的在肽和蛋白水平上減小樣本濃度和質譜強度之間的測量誤差,顯著提升蛋白質定量精度,尤其是對于低豐度蛋白,將定量誤差減小了46%。

  以上工作都是與生物領域長期合作取得的成果,發表后得到領域同行的關注和認可,并在實際研究中得到應用。PTMiner算法是與中國科學院上海藥物研究所譚敏佳研究員團隊合作完成的,我院博士畢業生安志武是共同第一作者,付巖副研究員和鞏馥洲研究員是共同通訊作者。論文在Molecular & Cellular Proteomics期刊在線發表后,當月全文下載351次,一度是該期刊閱讀量第二高的論文。近日,蛋白質組學研究重鎮、美國系統生物學研究所在其最新論文中介紹了PTMiner,并與之做了比較(bioRxiv, 10.1101/679845, 2019)。AP3LFAQ算法是與軍事科學院蛋白質組學國家重點實驗室賀福初院士團隊合作完成的,論文發表在Analytical Chemistry期刊。我院博士畢業生高志強是共同第一作者,付巖副研究員是共同通訊作者。近日,計算蛋白質組學領域先驅、加拿大滑鐵盧大學馬斌教授在其最新研究中實際應用了AP3算法來預測肽段可檢測性(bioRxiv, 10.1101/802231, 2019)。

   

  工具鏈接:

  PTMiner: http://fugroup.amss.ac.cn/software/PTMiner/PTMiner.html

  AP3: http://fugroup.amss.ac.cn/software/AP3/AP3.html

  LFAQ: https://lfaq.github.io/LFAQ/

   

  論文信息:

  1. Zhiwu An, Linhui Zhai, Wantao Ying, Xiaohong Qian, Fuzhou Gong, Minjia Tan and Yan Fu. PTMiner: Localization and Quality Control of Protein Modifications Detected in an Open Search and Its Application to Comprehensive Post-translational Modification Characterization in Human Proteome. Molecular & Cellular Proteomics, 18 (2) 391-405, 2019.

  2. Zhiqiang Gao, Cheng Chang, Jinghan Yang, Yunping Zhu, Yan Fu. AP3: An Advanced Proteotypic Peptide Predictor for Targeted Proteomics by Incorporating Peptide Digestibility. Analytical Chemistry, 2019, 91, 8705?8711.

  3. Cheng Chang, Zhiqiang Gao, Wantao Ying, Yan Fu, et al. LFAQ: towards unbiased label-free absolute protein quantification by predicting peptide quantitative factors. Analytical Chemistry, 2019, 91, 1335?1343.

 

    

  

 

附件下載:
 
 
【打印本頁】【關閉本頁】
電子政務平臺   |   科技網郵箱   |   ARP系統   |   會議服務平臺   |   聯系我們   |   友情鏈接
网上兼职赚钱项目