AI进军癌症诊断凸显优势，或面临数据获取和分享挑战

我们生活的复杂环境，可被完全地数字化，这意味着它可被精准地计算，既能储存已逝去的信息，同时也能对未来的发展趋势做出精准的预测。对疾病的诊断同样如此，基于过去数十年，我们累积的庞大医疗数据，通过深度学习不仅能对这些数据进行有效分析，帮助我们更新对疾病的认识，同时也能精准地预测疾病未来发展趋势，提前做好预防。癌症是我们当下最关心的话题之一。

本文汇集了近年来，深度学习在癌症诊断方面的一系列科研成果，同时也指出数据共享、数据标准化对人工智能在这一领域进一步应用所带来的挑战。

人工智能正在改变医疗诊断行业。今年年初，谷歌成功研发出一套用于乳腺癌诊断的人工智能系统。这套系统分析了大量的病理组织显微图像，速度比人类快得多，且肿瘤检出率高达92.4%。如果是人类医生完成这项工作，必须非常仔细分析大量组织样本才能确诊癌症，而且这是一个极度费时且易出错的过程。一个有经验的医生需要几年甚至十年的时间来培训。如今谷歌的成功预示着人工智能疾病诊断的到来。

事实上，利用人工智能检测癌症并不是新鲜事。早在30年前，人工智能的重要分支之一，机器学习技术如人工神经网络算法和决策树算法，就被用来做癌症检测。然而，早期的尝试并没有得到令人满意的结果。近年来，科学家在深度学习技术上取得了很大的突破，例如，AlexNet的出现极大提升了计算机识别图片的能力。比起一般的机器学习，深度学习能从数据中自动提取更丰富、有用的信息，因而有更高的精确度。

同时，计算机性能的迅速提升以及可用数据的增加，使得深度学习网络的训练成为可能。因此，深度学习技术正逐渐应用于癌症检测上。

深度学习在癌症诊断中的独特优势。深度学习框架有很多种，自编码器（Autoencoder, AE）、深度置信网络（Deep Belief Network, DBN）以及卷积神经网络（Convolution Neural Network, CNN）等。

其中，CNN在癌症检测中最为常用，其次是AE和DBN。它们或被用于分析医学图像，如X光片、CT图像等，或用于分析分子层面的数据，如基因突变、基因表达数据等。目前，深度学习技术还不能应用在所有类型的癌症上，因此现有研究一般将肺癌、乳腺癌等常见癌症，作为检测目标。

数据质量以及开放是AI未来发展的瓶颈。目前，大部分的人工智能的准确度不如人意，且仅可应用于部分常见疾病，这主要是可用数据不足导致。

不难发现，在之前提到的研究中，使用训练样本越多，精确度就越高。但由于数据标准化和隐私限制等原因，数据的获取和分享一直受阻。除了数据数量之外，数据质量也相当重要，尤其是医疗数据，大多需要训练有素的专家手动给出“标准答案”，才能提高AI的准确性，但这将是一个十分消耗资源的过程。不过，就算人工智能的准确性足够令人信服，解释它的行为将是另一件让人头痛的事。