AI初创公司Hugging Face发布了名为Open Medical-LLM的新基准测试
Hugging Face 发布了测试生成人工智能 (AI) 在健康任务上的基准。名为Open Medical-LLM的基准是提高大型语言模型 (LLM) 在各种应用(包括医疗保健)中的性能和安全性的更大努力的一部分。
Open Medical-LLM 是现有测试集(MedQA、PubMedQA、MedMCQA 等)的集合,旨在评估一般医学知识和健康领域(如药理学或临床实践)的模型。联合基准平台包括多项选择题和开放式问题,以及来自医疗执照考试的题库,以提供模型评估和比较。
为什么这有关系?
Hugging Face Hub提供了对各种数据集、转换器和评估工具的访问,使研究人员可以更轻松地比较和对比不同的模型。 Open Medical-LLM 坚持医疗 AI 的标准化测量方法,确保结果在不同模型和任务之间具有可比性。 Hugging Face 还提供其他基准和评估工具,例如“幻觉排行榜”,重点评估法学硕士在文本生成中处理各种类型幻觉的能力。这些基准展示了 Hugging Face 通过开源和开放科学推进人工智能并使人工智能民主化以及确保人工智能系统的安全性和可信性的更广泛努力。
发表评论