真正落地,生成式AI才有生命力
作者/ IT时报记者 范昕茹
(相关资料图)
编辑/ 潘少颖 孙妍
ChatGPT带来的巨大影响也在冲击着医疗行业。
数据显示,2020年“AI+医疗”占人工智能市场的18.9%。IDC统计数据显示,到2025年,人工智能应用市场总值将达到1270亿美元, 其中医疗行业将占市场规模的五分之一 。
在4月27日的亚马逊云科技医疗与生命科学行业峰会上,亚马逊云科技大中华区战略业务发展部总经理顾凡表示,我们既不应该高估AIGC大模型的力量,也不能低估AIGC大模型对行业客户体验和应用的重塑。“如果你低估它,可能竞争对手会蹚出一条路,”顾凡说,“但盲目地蹭热点没有任何意义,因为生成式AI最终要落地到应用场景,无论是为了患者,还是为了降本增效, 只有真正落地应用,生成式AI才有生命力。 ”
目前,生成式AI在医疗行业的应用仍处于辅助阶段。医疗行业想要真正进入AI时代,仍然需要跨越数据、算力等门槛。
多模态AI通用化成趋势
对医疗行业而言,AI并非一个新话题。
早在20世纪80年代,我国就开始了对医疗AI的研究。2017年,AlphaGo背后的谷歌子公司DeepMind开始将目光转向药学关键问题:蛋白质结构预测。
2020年末,DeepMind提出的深度神经网络蛋白质形态预测方法AlphaFold 2在第一代基础上再度进化,媲美人工实验结果,以超越所有传统计算方法的精确度彻底改变了生物制药格局。
而ChatGPT的横空出世,为AI在医疗行业带来新的创见。
“ChatGPT和GPT-4的成功出圈,意味着人工智能进入大模型新时代,”中国医药信息学会电子病历专委会主任委员陈金雄说,“ 多模态AI通用化将成为未来趋势 。”
在人工智能领域,人工智能可以分为弱人工智能和强人工智能,还可以分为专用人工智能和通用人工智能。此前,AI在医疗行业的应用大多属于专用人工智能。
ChatGPT的出现,意味着AI在医疗领域的应用由专用人工智能转化为通用人工智能成为可能。
在陈金雄看来,ChatGPT等生成式AI大模型相比过去的AI,最重要的变化在于其由早前的监督学习转变为了监督学习、无监督学习和强化学习相结合的方式。这一转变,为生成式AI大模型在医疗领域的应用带来了更多想象力。
图源:pexels
辅助临床决策、智能导诊、自动预约、智能客服等服务,患者全生命周期管理和临床科研领域是陈金雄认为多模态通用化AI落地最值得关注的几个方向 。
“ChatGPT等AI大模型改变了人机交互模式,其知识调用方式由关键词转为自然语言,大大提高了调用方式的自然度,这为医疗信息化建设提供了新的思路。”他说,“这将有助于大幅提升医院信息系统在信息录入、知识推荐等方面的用户体验,为医疗信息系统的功能融合提供技术基础,有助于改变当前医疗AI工具零散分布的局面。”
生成式AI应用仍在探索阶段
在医疗行业,生成式AI的相关实践已经展开。
4月17日,飞利浦医疗宣布与亚马逊云科技合作,将飞利浦的医学影像系统接入云端。通过Amazon Bedrock,飞利浦将可以快速开发生成式AI的应用程序。例如通过语音识别功能,帮助医生生成专业的诊断信息。“患者去拍片子时,医生可以口述诊断结果,”顾凡解释说,“大模型可以对此进行识别,快速把语音转换成文本,同时提取关键信息,形成专业的诊断报告。”
Amazon Bedrock是亚马逊云科技推出的生成式AI服务,允许用户根据特定提示开发图像、构建聊天机器人和总结文本,类似于ChatGPT。
类似的探索在新药研发和医学诊断上也在进行。亚马逊云科技大中华区医疗及生命科学行业总监黄庆春介绍说,在新药研发阶段,大模型被应用于海量学术文献和实验记录的阅读。通过阅读海量学术文献和过往实验记录,大模型可以为未来的实验提供指导性意见。而在医学诊疗中,大模型可以关注病人整个疾病的发展周期,并提供相应的诊疗建议。
不过,黄庆春强调,生成式AI在医疗行业的应用仍处于辅助诊疗阶段。他说:“AI只是给出建议,最后决定采不采用的,还是医生和科研人员。”
“医疗的特点是人命关天,过程不可逆。”陈金雄也认为生成式AI还不能完全替代医生的工作。在他看来,未来,生成式AI将会给医生带来新的挑战,医生需要学会借助AI技术优化治疗决策支持。“ 会AI的医生将会取代不会AI的医生 。”陈金雄说,“医生不再是‘专业知识的守护者’,而将成为指导者、协作者和患者需求的倾听者。”
生成式AI遭遇数据难题
想要让生成式AI落地医疗,仍然要解决数据难题。
ChatGPT们之所以能够获得成功,恰恰在于这些大模型背后有着巨量的数据支撑。公开数据显示,ChatGPT的训练参数达到了1750亿个。
在医疗行业,如此庞大的数据量几乎是不可想象的。相比其他行业,医疗行业的数据尤其敏感,数据的开放和共享是公认的世界性难题。“ 对一家医疗企业而言,专有数据是它的IP,是它的专属资产 ,”顾凡说,“这些专属资产就是企业的核心竞争力。”
作为一家全球超过4200个医疗和生命科学行业客户的企业,近几年,顾凡发现,医疗行业的特殊生态导致医疗企业在训练大模型时几乎面临着相似的困境: 既想借力第三方大模型来训练自己的专有模型,又不愿意泄露自己的数据。而如何获得足够多且高质量的数据来训练自己的大模型,也成为不少医药企业面临的难题。
在Amazon Bedrock中,既有亚马逊自己的大模型,也接入了第三方大模型。通过一系列技术和架构上的设计,Amazon Bedrock可以做到在利用亚马逊云科技第三方大模型的同时,结合企业的定制化的数据,为企业做定制化模型开发。
为了帮助企业更方便、更低成本地去获取更多第三方高质量数据,Amazon Bedrock还提供RODA服务,面向全球开放了96种生命科学的公开数据集,涵盖生命科学、基因、肿瘤以及新冠研究等重要领域。
尽管如此,但顾凡认为还不够。“医疗行业要想继续发展,跟数据共享是分不开的,当技术发展到AI大模型阶段,你会发现数据永远是不够的。”他说,“数据在合规和安全上的管控,不能阻碍数据的使用,要是阻碍数据的使用,AI的应用很难落地。
云平台加速存储算力
除了数据的挑战,随着AI在医疗领域的应用,数据存储和算力也将面临挑战。
《自然》杂志预估,到2025年,全球就会有6000万人以上会采用基因测序来诊断疾病。通常而言,一个人的全基因组数据量在50GB以上。这意味着,到2025年,全球光基因组数据的增量就超过40EB。在医疗领域,仅一人一次的CT数据量就超过30MB,综合医院一天的CT数据增量往往超过10GB。
图源:pixabay
而在药物发现领域,研究人员经常需要对数亿种化合物,与疾病相关的蛋白质进行一个是否能结合的预测,每一次运算通常需要数万到数十万核的CPU算力。在基因测序领域,人类的基因中,碱基对高达30亿个组合,从30亿个组合当中找出变异。这些运算背后都需要高性能计算在底层做支撑。
尽管我国目前在算力规模上已具优势,但仍面临着算力的高质量供给和普惠服务问题。在顾凡看来,云计算、高性能计算、机器学习、量子计算等一系列技术革新是有效解决算力挑战,加速新药研发,提高成功率的重要途径。
他举了一个例子,在计算机药物研发的流程当中有一个关键步骤,叫虚拟筛选,就是在已知的化合物里面,通过与病毒蛋白质(靶点)的结合分析,看某些化合物是否有机会可以成为药物。一般来说,科学家需要筛选10亿种化合物,和目标蛋白质去做模拟结合。
“如果我们今天只用一台单核的服务器,光是算力需求,大概要算475年才能完成。”顾凡说,“而今天,科学家如果在亚马逊云科技的平台上同时调用数万核的虚拟服务器,就可以实现在24小时之内完成对10亿种化合物的虚拟筛选。”
排版/ 季嘉颖
图片/ 亚马逊 pexels pixabay
来源/《IT时报》公众号vittimes