基础研究
温凌杜, 王子弘, 张国明, 赖茜, 杨宏宇
目的 探讨以主成分分析(principal component analysis,PCA)法分析口腔鳞状细胞癌(oral squamous cell carcinoma,OSCC)的差异表达基因(differentially expressed genes,DEGs)数据库构建的OSCC诊断模型的价值,为临床诊疗提供参考。方法 从癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库中获取OSCC和正常对照样本的RNA-seq表达数据,通过R软件对表达数据进行归一化和差异表达分析,以筛选出DEGs,并同时对DEGs行基因本体(gene ontology,GO)和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析,以发现主要生物学特征。随机选取RNA-seq中DEGs表达数据的70%作为训练集以及30%作为测试集后,应用PCA法对训练集数据进行分析,提取与诊断OSCC相关的主成分(principal components,PC)构建PCA模型,再分别绘制训练集和测试集PCA模型的受试者工作特征(receiver operating characteristic,ROC)曲线并计算曲线下面积(area under curve,AUC),以评估PCA模型对OSCC诊断的准确性。结果 从TCGA数据库中获取OSCC和正常对照样本的RNA-seq表达数据分别为330例、32例。以错误发现率(false discovery rate,FDR)<0.001和|log2FC|(|log2 fold change|)>4为阈值,共筛选出159个下调和248个上调DEGs,主要富集在中间纤维、黑素体膜等细胞成分,以及色素和唾液相关的生物过程;主要参与唾液分泌、酪氨酸代谢等通路(P.adjust<0.05和Q<0.05)。将DEGs拟作为诊断OSCC的肿瘤标志物,对训练集行PCA分析显示,主成分前3位PC1、PC2、PC3方差的贡献率分别为0.873、0.100、0.023,三者累计方差的贡献率为0.996,主成分前3位PC1、PC2、PC3包含颌下腺雄激素调节蛋白3B(submaxillary gland androgen regulated protein 3B,SMR3B)、富含脯氨酸27(proline rich 27,PRR27)、组蛋白3(histatin 3,HTN3)、抗凝素(statherin,STATH)、胱抑素D(cystatin D,CST5)、包含 A 族成员2的BPI折叠(BPI fold containing family A member 2,BPIFA2)、富含脯氨酸的蛋白质Hae Ⅲ亚家族 2(proline rich protein Hae Ⅲ subfamily 2,PRH2)、角蛋白 35(keratin 35,KRT35)、组蛋白1(histatin 1,HTN1)、淀粉酶α1B(amylase alpha 1B,AMY1B)。进一步结合三者的特征向量构建OSCC的PCA诊断模型,在训练集和测试集ROC曲线中显示该模型的AUC值分别为0.852、0.844,均高于其他基因。结论 基于PCA法和DEGs构建的以SMR3B、PRR27、HTN3、STATH、CST5、BPIFA2、PRH2、KRT35、HTN1和AMY1B表达水平为基础的OSCC诊断模型有较高的诊断优势,可为OSCC的早期基因诊断以及PCA模型在临床诊断中的应用提供理论依据。