允英醫(yī)療與江蘇省腫瘤醫(yī)院合作,在癌癥基因組圖譜(the cancer genome atlas,TCGA)公共數據庫中篩選了393例大腸癌患者(結腸癌298例,直腸癌95例),提取其轉錄組測序數據并借助隨機森林(random forest,RF)與支持向量機(support vector machines,SVM)等機器學習算法進行分類,尋找結腸癌與直腸癌的分子特征(圖1)。
在總共20502個基因中,隨機森林算法篩選出96個區(qū)分結腸癌與直腸癌的特征性分類基因集群,發(fā)現HOXB13、PRAC和BCLAF1是其中三個差異表達最大的基因。進一步,建立包含196個CRC樣本(151結腸癌,45直腸癌)的訓練集,對該96個基因進行基于SVM方法的模型構建,并以剩余197個CRC樣本(147結腸癌,50直腸癌)作為驗證集,驗證模型的分類性能。最終,該模型在區(qū)分結腸癌和直腸癌樣本方面的準確度達到82.2%,AUC為0.91(圖2)。