研究人员评估 ChatGPT 在总结医学摘要方面的表现

在《家庭医学年鉴》最近发表的一项研究中，研究人员评估了聊天生成预训练变压器 (ChatGPT) 在总结医学摘要以协助医生方面的功效。该研究旨在确定 ChatGPT 生成的摘要的质量、准确性和偏差，深入了解其作为医疗保健专业人员在时间有限的情况下消化大量医学文献的工具的潜力。

该研究利用 ChatGPT 压缩了来自 140 种不同期刊的 14 篇医学摘要，平均减少了 70% 的内容。尽管在一小部分摘要中发现了一些不准确和幻觉，但医生对这些摘要的质量和准确性给予了高度评价。研究结果表明，ChatGPT 有潜力帮助医生有效审查医学文献，在海量信息中提供简洁准确的总结。

研究人员从 10 种期刊中各挑选了 14 篇文章，涵盖各种医学主题和结构。他们要求 ChatGPT 总结这些文章，并评估生成的摘要的质量、准确性、偏见和十个医学领域的相关性。研究发现，ChatGPT 成功地将医学摘要平均压缩了 70%，在质量和准确性方面获得了医生审稿人的高度评价。

对医疗的影响

尽管收视率很高，但该研究在少数摘要中发现了严重的错误和幻觉。这些错误包括遗漏关键数据和对研究设计的误解，这可能会改变对研究结果的解释。然而，ChatGPT 在总结医学摘要方面的表现被认为是可靠的，观察到的偏差很小。

虽然 ChatGPT 在期刊层面表现出与人类评估的高度一致性，但其在查明单篇文章与特定医学专业的相关性方面的表现并不那么令人印象深刻。这种差异凸显了 ChatGPT 在更广泛的医学专业背景下准确识别单一文章相关性的能力的局限性。

该研究为人工智能（尤其是 ChatGPT）在帮助医生有效审查医学文献方面的潜力提供了宝贵的见解。虽然 ChatGPT 在高质量和准确地总结医学摘要方面表现出了良好的前景，但仍需要进一步的研究来解决局限性并提高其在特定医学环境中的性能。

未来的研究可能集中于提高 ChatGPT 识别个别文章与特定医学专业相关性的能力。此外，减少生成的摘要中的不准确和幻觉的努力可以进一步增强人工智能工具在医疗保健环境中的实用性。

资料来源：https://www.cryptopolitan.com/chatgpt-in-summarizing-medical-abstracts/