近期,上??萍即髮W(xué)信息科學(xué)與技術(shù)學(xué)院鄭杰課題組與合作者在《自然·通訊》(Nature Communications)發(fā)表了題為“Benchmarking Machine Learning Methods for Synthetic Lethality Prediction in Cancer”的研究論文。文章通過設(shè)計(jì)多個(gè)場(chǎng)景系統(tǒng)性比較了12種最新的機(jī)器學(xué)習(xí)方法在合成致死(Synthetic Lethality, SL)抗癌藥物靶點(diǎn)預(yù)測(cè)中的表現(xiàn)。該研究為科學(xué)家提供了詳盡的指南,幫助他們選擇最適合的SL預(yù)測(cè)工具,從而推動(dòng)精準(zhǔn)抗癌藥物的研發(fā)。
圖1 文章標(biāo)題
合成致死(SL)是一種基因之間的遺傳相互作用關(guān)系,即當(dāng)兩個(gè)基因同時(shí)發(fā)生突變或擾動(dòng)時(shí)會(huì)導(dǎo)致細(xì)胞死亡,而單個(gè)基因被擾動(dòng)并不會(huì)產(chǎn)生這一效果。這一特性使SL成為一種有潛力的癌癥治療策略,因?yàn)橥ㄟ^靶向癌癥特異性突變基因的合成致死伙伴基因,可以殺死癌細(xì)胞而不影響健康細(xì)胞的生存。盡管SL現(xiàn)象已經(jīng)被發(fā)現(xiàn)超過一個(gè)世紀(jì),但其實(shí)際應(yīng)用仍然面臨挑戰(zhàn),尤其是在快速、精準(zhǔn)地識(shí)別與癌癥相關(guān)的SL基因?qū)?SL gene pairs)方面。
為了加速實(shí)驗(yàn)篩選并降低其成本,近年來(lái),越來(lái)越多的研究人員應(yīng)用機(jī)器學(xué)習(xí)技術(shù)來(lái)預(yù)測(cè)SL基因?qū)?。這些方法通過使用大量生物學(xué)數(shù)據(jù),快速篩選出潛在的SL相互作用關(guān)系,以縮小實(shí)驗(yàn)驗(yàn)證的范圍。然而,盡管已經(jīng)提出了多種機(jī)器學(xué)習(xí)模型和算法,它們?cè)诓煌榫诚碌男阅苋狈ο到y(tǒng)性評(píng)估,這給研究人員在實(shí)際應(yīng)用中選擇合適的人工智能工具帶來(lái)了困擾。
為填補(bǔ)這一空白,信息學(xué)院鄭杰團(tuán)隊(duì)與合作者系統(tǒng)性地評(píng)估了12種最新的機(jī)器學(xué)習(xí)方法,涵蓋了從傳統(tǒng)機(jī)器學(xué)習(xí)到深度學(xué)習(xí)的多種算法。研究人員首先收集并建立了一個(gè)基準(zhǔn)測(cè)試數(shù)據(jù)集,設(shè)計(jì)了多個(gè)不同的實(shí)驗(yàn)場(chǎng)景,包括3種數(shù)據(jù)劃分方式,4種正負(fù)樣本比例和3種負(fù)樣本采樣方法,從而評(píng)估這些模型在多種場(chǎng)景組合下的分類和排序候選SL基因?qū)Φ哪芰?圖2)。通過對(duì)比各種模型,研究團(tuán)隊(duì)發(fā)現(xiàn),數(shù)據(jù)質(zhì)量的提升,比如負(fù)樣本的優(yōu)化,對(duì)所有方法的表現(xiàn)均有顯著提升。
圖2 基準(zhǔn)研究的數(shù)據(jù)集構(gòu)建以及場(chǎng)景設(shè)計(jì)
在所有評(píng)估的方法中,SLMGAE(SL prediction with Multi-view Graph Auto-Encoder)算法表現(xiàn)總體最佳。然而,當(dāng)在面對(duì)更加復(fù)雜的實(shí)際應(yīng)用時(shí)這些方法均存在一定的局限性。特別是在“冷啟動(dòng)”測(cè)試中——即當(dāng)模型在從未見過的新數(shù)據(jù)集上進(jìn)行測(cè)試時(shí),所有方法的表現(xiàn)均有所下降。此外,對(duì)于特定癌癥背景下(例如細(xì)胞系特異性的SL預(yù)測(cè)任務(wù)),模型的預(yù)測(cè)準(zhǔn)確度和泛化能力也有待進(jìn)一步提升。
這些基準(zhǔn)測(cè)試的結(jié)果不僅為科學(xué)家提供了選擇SL預(yù)測(cè)方法的實(shí)用指南,還揭示了當(dāng)前機(jī)器學(xué)習(xí)方法在實(shí)際應(yīng)用中的瓶頸和不足。這為未來(lái)研究開發(fā)更加精準(zhǔn)、可靠的SL基因?qū)︻A(yù)測(cè)工具提供了寶貴的參考,為合成致死抗癌藥物領(lǐng)域的研究人員提供了重要的數(shù)字資源和見解,從而有助于加速癌癥靶向治療的發(fā)展。
上??萍即髮W(xué)信息學(xué)院與臨港實(shí)驗(yàn)室聯(lián)合培養(yǎng)的2022級(jí)博士研究生馮藝苗(鄭杰課題組)為該論文第一作者,新加坡科學(xué)技術(shù)研究局生物信息學(xué)研究所助理研究員龍亞輝,上??萍即髮W(xué)信息學(xué)院研究員李權(quán),信息學(xué)院兩位碩士研究生王鶴、歐陽(yáng)陽(yáng)(李權(quán)課題組)參與了本課題的研究。上??萍即髮W(xué)信息學(xué)院研究生毛偉帆、岳臻、陶思宇和楊揚(yáng)為本工作的完成提供了幫助。上??萍即髮W(xué)圖信中心和寧夏西云算力科技有限公司為本工作提供了算力支持。該工作最初依托于CS286 (AI for Science & Engineering)的課程項(xiàng)目。新加坡科學(xué)技術(shù)研究局信息通訊研究所首席科學(xué)家吳敏和上??萍即髮W(xué)信息學(xué)院研究員鄭杰為論文共同通訊作者。上海科技大學(xué)為第一完成單位。
昵稱 驗(yàn)證碼 請(qǐng)輸入正確驗(yàn)證碼
所有評(píng)論僅代表網(wǎng)友意見,與本站立場(chǎng)無(wú)關(guān)