随着基因测序技术在肿瘤领域的应用,目前几乎所有肿瘤都需要通过基因检测寻找已知基因突变的方式,确定合适的临床治疗方案。比如,部分肺癌患者的肿瘤组织样本中都会出现EGFR基因的特定变异。在这种情况下,如果检测到21号外显子上的L858R突变,患者会感到“非常幸运”,因为采用相应的EGFR-TKI类靶向药物,很大机会能获益。
一般来说,虽然在非小细胞肺癌组织里总能看到大约100~300个非同义突变,但是只有大概20%的患者能检测到EGFR变异。EGFR突变在肺腺癌患者中算是最高频突变,其他可用药的基因变异更低,例如ALK融合基因的频率差不多为5%,NRTK1的突变频率在千分之几左右。
而且,一旦发现同时有KRAS基因突变,这些变异的指导价值就基本上没有了,KRAS突变往往导致肿瘤对各种TKI药物耐药,也就意味着患者的治疗可能面临困境。“这么一本厚厚的基因检测报告,检测到这么多突变基因,但是为啥医生看了之后还是给不出治疗方案呢?”这通常是肿瘤患者在做完基因检测后的疑惑。而这是整个基因检测行业的痛点。“查字典”作用有限。
事实上,如果按照“查字典”的方式为肿瘤患者进行基因组解读,虽有一定效果,但多数结局会让人失望。因为字典太“薄”了,大多数患者的基因组变异情况都没有被收录其中——不是观察不到,而是解释不了。从机器学习的角度来说,这种“查字典”的方式可以被称为“知识驱动”的学习方法,也就是说,从书中找答案。这种方法当然有优势:循证证据比较充分,在患者案例中重复出现,与药物疗效对应关系明确。
但也有明显缺点:书本里的知识太少,只能解决少数人的特定临床问题,并不能解决广大患者的普遍性问题。目前的情况是,绝大多数基因检测机构只注重生产数据,而对数据的解读基本没有差异,因为都是在同样的知识库里“查字典”。
由于学科沿革的历史原因,基因组学的研究主要是由实验生物学家主导的,重点在于数据生产,因此数据分析更加偏爱“筛选”思路:从成千上万的基因中筛选出与目标表型相关的个别标志物用于临床指导,比如EGFR L858R突变。采用这种模式主要原因还在于研究过程几乎用不着复杂的数学模型,也就不必消耗巨大的算力,一两个研究者在笔记本电脑上采用现成的分析软件、甚至excel就能做。
不过,如果将药物伴随诊断的基因组学标志物的发现比喻为从树上摘桃子的话,这种通过“筛选”单个位点突变就能获得明确标志物的方式就好比摘低处的桃子,易得且成本优势明显,但毕竟这样的桃子数量有限,目前基本被摘完。数据驱动能产生新认知。生物学家能生产优质的数据并解释数据代表的生物学和医学意义,但是要求他们从这些数据中提炼复杂的规律却是强人所难。此时,信息科学家便迎来了千载难逢的机会。
与“知识驱动”学习方法不同,信息科学家善于从“数据驱动”的学习中掌握规律。就像阿尔法狗那样,不需要太多先验知识,也不需要太多生物学理论,只有足够多的数据就行。在大数据的基础上,通过设计合适的算法,借助强大的算力,机器就能从纷繁复杂的数据世界中为复杂的临床场景建立模型。这里必须强调一个可靠的、全面的数据库的重要性。
这正是生物学家、临床医生、设备工程师过去数十年通力合作的重要结晶,例如TCGA数据库,已经收录了上万名泛癌种患者的临床信息、病理信息以及若干种高质量的高通量组学数据。基于这些数据,信息科学家就可以发挥他们的能力。在建立算法时,他们并不会在意这些肿瘤中找到的各种基因变异是不是以前被发现过、在实验室里研究过、被注释过。
他们通过知识——数据混合驱动的方法,首先为各种细胞功能构造模型,然后又帮助每个突变基因都找到符合自己角色的功能模型,因此,在一个肿瘤组织内,他们就可以让所有的突变都对当前肿瘤主要执行的细胞功能进行“投票”。可以预见,这种被众多变异票选出来的才是当前肿瘤生长最依赖的细胞功能,那么当然也是医生应该奋力打击的主要靶标。
简单来说,信息科学家通过机器解读就能从整体上回答以下问题:怎样从包含噪声的测序数据中分辨出真实肿瘤中的突变?大多数突变是不是都在合力干一件事?如果是合力干一件事,它们合谋做的事情又是什么?捣毁它们“阴谋”的方法是什么?人类目前有什么武器可以用于捣毁“阴谋”?回答这些问题,机器或许比人类做得更好。
而且这种解读方式的人力成本更低,工业化程度更高,临床应用的价值也更大,真正能够实现质高价廉的精准医学临床实践。因此,临床医生和患者可以要求检测更广泛的肿瘤基因组区间,提供更多基因组变异信息让机器做更好判断;另外,在实际的临床实践中,当遇到一份检测出了很多“没有临床意义”变异,但没有检出一个“有效变异”的基因测序报告时,我们先别轻易“抛弃”,可以交给信息科学家和他们的“机器解读者”进行深度解读。
机器解读者对报告的深度解读,不仅能够基于人类专家无法理解的肿瘤基因组变异判断患者可能的癌种、病理分型、恶性程度和预后、可用药信号通路的活性,还能分析肿瘤免疫相关的信号通路活性、各种一线靶向药物的适用性、免疫药物Pd-1抑制剂的超进展可能,以及针对上百种抗肿瘤药物进行虚拟筛药。未来,计算科学和IT工业的发展,能快速驱动当前肿瘤的诊断与治疗走出困境,迈入一个新的“桃花源”。