允英醫(yī)療與江蘇省腫瘤醫(yī)院合作,在癌癥基因組圖譜(the cancer genome atlas,TCGA)公共數(shù)據(jù)庫(kù)中篩選了393例大腸癌患者(結(jié)腸癌298例,直腸癌95例),提取其轉(zhuǎn)錄組測(cè)序數(shù)據(jù)并借助隨機(jī)森林(random forest,RF)與支持向量機(jī)(support vector machines,SVM)等機(jī)器學(xué)習(xí)算法進(jìn)行分類,尋找結(jié)腸癌與直腸癌的分子特征(圖1)。
在總共20502個(gè)基因中,隨機(jī)森林算法篩選出96個(gè)區(qū)分結(jié)腸癌與直腸癌的特征性分類基因集群,發(fā)現(xiàn)HOXB13、PRAC和BCLAF1是其中三個(gè)差異表達(dá)最大的基因。進(jìn)一步,建立包含196個(gè)CRC樣本(151結(jié)腸癌,45直腸癌)的訓(xùn)練集,對(duì)該96個(gè)基因進(jìn)行基于SVM方法的模型構(gòu)建,并以剩余197個(gè)CRC樣本(147結(jié)腸癌,50直腸癌)作為驗(yàn)證集,驗(yàn)證模型的分類性能。最終,該模型在區(qū)分結(jié)腸癌和直腸癌樣本方面的準(zhǔn)確度達(dá)到82.2%,AUC為0.91(圖2)。