7月12日,谷歌和谷歌旗下人工智能公司DeepMind的研究人员在国际顶尖学术期刊Nature上发表了题为:Large language models encode clinical knowledge 的研究论文。
该研究展示了一个基准,用于评估大语言模型(LLM)能够多好回答医学问题,还介绍了一个专精医学领域的大语言模型——Med-PaLM。
为评估大语言模型(LLM)编码临床医学知识的能力,研究团队探讨了它们回答医学问题的能力。这项任务非常具有挑战性,因为为医学问题提供高质量的答案需要理解医学背景,回忆适当的医学知识,并根据专家信息进行推理。
在这项研究中,提出了一个基准,称为MultiMedQA:它结合了6个涵盖专业医疗、研究和消费者查询的现有问题回答数据集以及HealthSearchQA——这是一个新的数据集,包含3173个在线搜索的医学问题。通过这一基准来评估大语言模型回答医学问题的真实性、在推理中使用专业知识、有用性、准确性、健康公平性和潜在危害。