你是否对转录组测序既好奇又困惑?是否被各种术语和分析搞得头大?别担心,这篇推文汇总了大家最常问的20个RNA-seq问题,一次帮你理清思路!
1、Q:什么是普通转录组?它和单细胞转录组有什么本质区别?
A:普通转录组(Bulk RNA-seq)是对整个组织或细胞群体提取RNA后进行测序,得到的是所有细胞基因表达的“平均值”。而单细胞转录组则在单个细胞水平解析表达谱,能揭示细胞异质性。普通转录组成本低、技术成熟,适用于大样本差异比较;单细胞更适合精细解析复杂组织如肿瘤或脑组织。
2、Q:普通转录组主要检测哪些类型的RNA?
A:常规建库通常通过poly-A捕获法富集mRNA(真核生物),因此主要分析编码蛋白的mRNA。部分实验会采用rRNA去除法(如Ribo-Zero),保留更多非编码RNA(如lncRNA、circRNA前体),但miRNA等小RNA需专门的小RNA-seq建库。
3、Q:为什么必须设置生物学重复?最少要几个?
A:生物学重复用于反映个体间自然变异,是统计可靠性的基础。仅技术重复无法替代。主流期刊普遍要求至少3个生物学重复;若样本异质性强(如人临床样本),建议5个以上。2个重复无法有效估计方差,差异分析结果不可靠。
4、Q:取样和保存RNA时最关键的注意事项是什么?
A:RNA极易降解!关键点包括:① 快速处理(离体后立即液氮速冻或放入RNAlater);② 全程低温操作;③ 使用无RNase耗材;④ 避免反复冻融。后续质检需确保RIN值 ≥ 7(Agilent Bioanalyzer测定),否则数据可能严重偏倚。
5、Q:建库时该选链特异性还是非链特异性文库?
A:强烈推荐链特异性文库(Strand-specific library)。它能区分正义链与反义链转录本,在基因重叠区域、反义转录本或原核生物多顺反子分析中至关重要。非链特异性文库可能导致定量错误,目前已逐渐被淘汰。
6、Q:普通转录组需要测多少数据量(G)才够用?
A:一般建议:
人类/小鼠等哺乳动物:6–10 G clean data
植物/复杂基因组:8–12 G
若仅做差异表达,6 G足够;若需分析可变剪接、新转录本或低丰度基因,建议≥10 G。
7、Q:有参考基因组和没有,对分析影响有多大?
A:影响极大!有参分析(如使用HISAT2、STAR比对到参考基因组)流程快、准确率高;无参分析需先用Trinity等工具从头拼接转录本,再注释,计算资源消耗大、易出错,仅适用于无基因组物种(如某些非模式生物)。
8、Q:FPKM、TPM和Counts,到底该用哪个做表达量?
A:用途不同:
差异表达分析(如DESeq2、edgeR):必须用原始整数Counts
跨样本比较某基因表达水平:用TPM(Transcripts Per Million),因其先校正基因长度再标准化总量,更合理
FPKM因标准化顺序问题,已不推荐用于样本间比较。
9、Q:如何判断RNA-seq数据质量是否合格?
A:看四大指标:
Q30 ≥ 80%(碱基识别准确率)
比对率 ≥ 70%(有参情况下)
rRNA残留率 < 10%(建库去rRNA是否成功)
PCA图中组内聚拢、组间分离,说明重复性好、处理效应明显。
10、Q:筛选差异基因的标准是什么?log2FC和p值怎么定?
A:通用标准为:|log2(Fold Change)| ≥ 1(即表达变化≥2倍)且 FDR(False Discovery Rate)≤ 0.05。注意:不要用原始p值,必须用多重检验校正后的FDR(如Benjamini-Hochberg方法),否则假阳性极高。
11、Q:GO和KEGG富集分析有必要做吗?怎么做才规范?
A:非常必要!它将成百上千差异基因归类到生物学过程(BP)、分子功能(MF)、细胞组分(CC) 或信号通路,赋予数据生物学意义。推荐使用R包clusterProfiler,背景基因集应设为本次测序中检测到的所有基因,而非全基因组。
12、Q:PCA图怎么看?什么样的结果算理想?
A:理想PCA图应显示:同一处理组的生物学重复紧密聚集,不同处理组之间明显分离。若组内分散或出现异常离群点,可能提示样本污染、RNA降解或批次效应,需排查。
13、Q:热图只能展示差异基因吗?怎么画才专业?
A:热图常用于展示前50–500个差异最显著或表达方差最大的基因。专业做法包括:① 对每行(基因)做z-score标准化;② 使用层次聚类;③ 清晰标注样本分组;④ 配色合理(如蓝色=低表达,红色=高表达)。
14、Q:普通转录组能做可变剪接分析吗?准确吗?
A:可以,但有局限。需高深度数据(≥10 G)和高质量比对。工具如rMATS、SUPPA2可检测外显子跳跃、互斥外显子等事件。但由于短读长无法覆盖全长转录本,精确鉴定isoform仍需PacBio/Nanopore长读长验证。
15、Q:能用RNA-seq数据找SNP或基因突变吗?
A:技术上可行(通过GATK等工具call variant),但不推荐作为主要手段。因为RNA-seq只覆盖表达区域,且受剪接、RNA编辑、等位基因表达不平衡干扰,容易漏检或误判。DNA测序(WGS/WES)才是突变检测金标准。
16、Q:什么是批次效应?怎么识别和校正?
A:批次效应指因不同时间制备、不同操作员或不同测序泳道引入的技术偏差。可在PCA图中看到样本按“批次”而非“处理组”聚类。校正方法:① 实验设计时随机化;② 分析时用ComBat(sva包) 或在DESeq2模型中加入“batch”协变量。
17、Q:转录组结果一定要做qPCR验证吗?验证几个基因合适?
A:强烈建议验证!尤其对关键候选基因。qPCR成本低、灵敏度高,可确认趋势可靠性。通常选5–10个基因,包括显著上调、显著下调及不显著的基因,相关系数R² > 0.8视为验证成功。
18、Q:人或小鼠样本的转录组分析有特殊要求吗?
A:有!医学样本常需额外分析:① 融合基因检测(如STAR-Fusion);② 免疫细胞浸润评估(CIBERSORTx、xCell);③ 关联临床信息(生存分析、分期分型)。此外,伦理审批和临床数据脱敏也需注意。
19、Q:植物或细菌做普通转录组,建库有何不同?
A:
植物:富含多糖多酚,RNA提取困难,需CTAB法或专用试剂盒;部分mRNA无poly-A尾,建议用rRNA去除建库。
细菌(原核):mRNA无poly-A,必须用rRNA去除法,且必须构建链特异性文库,否则无法正确解析操纵子结构。
20、Q:做完转录组分析,下一步该做什么?
A:根据研究目标推进:
机制研究 → 敲除/过表达关键基因 + 功能实验(CCK-8、流式、WB等)
标志物筛选 → ROC曲线分析 + 独立队列qPCR验证
通路深入 → 联合磷酸化蛋白组、代谢组等多组学整合
发文章 → 补充图表、撰写讨论、选择合适期刊(如BMC Genomics、Frontiers in Genetics等)