0573-83108883
021-6766-9183
允英學術簡報:生信團隊小試牛刀 | 機器學習支持向量機算法成功挖掘結腸癌與直腸癌分子特征
發(fā)布時間: 2021-12-17 14:23:15
    結直腸癌(colorectal cancer,CRC)又稱大腸癌,是結腸癌(colon cancer)與直腸癌(rectal cancer)的統稱,為全球第三大常見癌癥,也是導致癌癥相關死亡的第四大原因。根據2020年全球癌癥統計報告,大約31%的CRC發(fā)生在近端結腸,25%發(fā)生在遠端結腸,34%發(fā)生在直腸和直腸乙狀結腸交界處。原發(fā)性結腸癌與直腸癌的治療方法與臨床特征差異較大,例如:11.5%的直腸癌患者有肺轉移傾向,而在結腸癌患者中這一比例只有3.5%,然而這一現象背后的分子機制尚不清楚。

    允英醫(yī)療與江蘇省腫瘤醫(yī)院合作,在癌癥基因組圖譜(the cancer genome atlas,TCGA)公共數據庫中篩選了393例大腸癌患者(結腸癌298例,直腸癌95例),提取其轉錄組測序數據并借助隨機森林(random forest,RF)與支持向量機(support vector machines,SVM)等機器學習算法進行分類,尋找結腸癌與直腸癌的分子特征(圖1)。


        圖1 研究思路

    在總共20502個基因中,隨機森林算法篩選出96個區(qū)分結腸癌與直腸癌的特征性分類基因集群,發(fā)現HOXB13、PRAC和BCLAF1是其中三個差異表達最大的基因。進一步,建立包含196個CRC樣本(151結腸癌,45直腸癌)的訓練集,對該96個基因進行基于SVM方法的模型構建,并以剩余197個CRC樣本(147結腸癌,50直腸癌)作為驗證集,驗證模型的分類性能。最終,該模型在區(qū)分結腸癌和直腸癌樣本方面的準確度達到82.2%,AUC為0.91(圖2)。

        圖2 結腸癌與直腸癌96個特征性分類基因群
    綜上,本研究發(fā)現的96個特征性分類基因群可用作結腸癌與直腸癌的生物標志物,在此基礎上建立的SVM分類模型,能夠有效區(qū)分結腸癌與直腸癌樣本。這些生物標志物的發(fā)現和研究,有利于理解不同亞型大腸癌發(fā)病率的分子機制,以及探索結直腸癌早期篩查和治療中的潛力靶點。


允英勵行,讓生命更健康!
  • 地址:上海市松江區(qū)莘磚公路518號漕河涇開發(fā)區(qū)9號樓
    浙江省嘉興市南湖區(qū)凌公塘路3556號5號樓
  • 郵箱:service@yymedicine.com
  • 電話:021-67669183、0573-83108883