0573-83108883
021-6766-9183
允英學(xué)術(shù)簡(jiǎn)報(bào):生信團(tuán)隊(duì)小試牛刀 | 機(jī)器學(xué)習(xí)支持向量機(jī)算法成功挖掘結(jié)腸癌與直腸癌分子特征
發(fā)布時(shí)間: 2021-12-17 14:23:15
    結(jié)直腸癌(colorectal cancer,CRC)又稱大腸癌,是結(jié)腸癌(colon cancer)與直腸癌(rectal cancer)的統(tǒng)稱,為全球第三大常見(jiàn)癌癥,也是導(dǎo)致癌癥相關(guān)死亡的第四大原因。根據(jù)2020年全球癌癥統(tǒng)計(jì)報(bào)告,大約31%的CRC發(fā)生在近端結(jié)腸,25%發(fā)生在遠(yuǎn)端結(jié)腸,34%發(fā)生在直腸和直腸乙狀結(jié)腸交界處。原發(fā)性結(jié)腸癌與直腸癌的治療方法與臨床特征差異較大,例如:11.5%的直腸癌患者有肺轉(zhuǎn)移傾向,而在結(jié)腸癌患者中這一比例只有3.5%,然而這一現(xiàn)象背后的分子機(jī)制尚不清楚。

    允英醫(yī)療與江蘇省腫瘤醫(yī)院合作,在癌癥基因組圖譜(the cancer genome atlas,TCGA)公共數(shù)據(jù)庫(kù)中篩選了393例大腸癌患者(結(jié)腸癌298例,直腸癌95例),提取其轉(zhuǎn)錄組測(cè)序數(shù)據(jù)并借助隨機(jī)森林(random forest,RF)與支持向量機(jī)(support vector machines,SVM)等機(jī)器學(xué)習(xí)算法進(jìn)行分類,尋找結(jié)腸癌與直腸癌的分子特征(圖1)。


        圖1 研究思路

    在總共20502個(gè)基因中,隨機(jī)森林算法篩選出96個(gè)區(qū)分結(jié)腸癌與直腸癌的特征性分類基因集群,發(fā)現(xiàn)HOXB13、PRAC和BCLAF1是其中三個(gè)差異表達(dá)最大的基因。進(jìn)一步,建立包含196個(gè)CRC樣本(151結(jié)腸癌,45直腸癌)的訓(xùn)練集,對(duì)該96個(gè)基因進(jìn)行基于SVM方法的模型構(gòu)建,并以剩余197個(gè)CRC樣本(147結(jié)腸癌,50直腸癌)作為驗(yàn)證集,驗(yàn)證模型的分類性能。最終,該模型在區(qū)分結(jié)腸癌和直腸癌樣本方面的準(zhǔn)確度達(dá)到82.2%,AUC為0.91(圖2)。

        圖2 結(jié)腸癌與直腸癌96個(gè)特征性分類基因群
    綜上,本研究發(fā)現(xiàn)的96個(gè)特征性分類基因群可用作結(jié)腸癌與直腸癌的生物標(biāo)志物,在此基礎(chǔ)上建立的SVM分類模型,能夠有效區(qū)分結(jié)腸癌與直腸癌樣本。這些生物標(biāo)志物的發(fā)現(xiàn)和研究,有利于理解不同亞型大腸癌發(fā)病率的分子機(jī)制,以及探索結(jié)直腸癌早期篩查和治療中的潛力靶點(diǎn)。


允英勵(lì)行,讓生命更健康!
  • 地址:上海市松江區(qū)莘磚公路518號(hào)漕河涇開(kāi)發(fā)區(qū)9號(hào)樓
    浙江省嘉興市南湖區(qū)凌公塘路3556號(hào)5號(hào)樓
  • 郵箱:service@yymedicine.com
  • 電話:021-67669183、0573-83108883