中国の研究者は、AIモデルのハリューシネーション補正エンジンを開発しました

中国の研究者がAIモデルの幻覚補正エンジンの開発に成功しました

中国科学技术大学和腾讯优图实验室的科学家团队开发了一种用于对抗人工智能(AI)模型“幻觉”的工具。

幻觉是指AI模型倾向于生成高置信度的输出,而这些输出不以其训练数据中的信息为基础。这个问题在大型语言模型(LLM)研究中广泛存在。在OpenAI的ChatGPT和Anthropic的Claude等模型中都可以看到这一问题的影响。

中国科大/腾讯团队开发了一种名为“啄木鸟(Woodpecker)”的工具,他们声称这种工具能够纠正多模式大型语言模型(MLLMs)中的幻觉。

这个AI子集包括GPT-4(特别是其视觉变种GPT-4V)和其他将视觉和/或其他处理整合到生成AI模式中的系统。

根据团队的预印研究论文,啄木鸟使用了三个单独的AI模型,除了为幻觉纠正而进行纠正的MLLM以外,还用来执行幻觉纠正。

这些模型包括GPT-3.5 turbo、Grounding DINO和BLIP-2-FlanT5。这些模型一起作为评估器,用于识别幻觉并指示进行纠正的模型按照其数据重新生成输出。

在上面的示例中,LLM对提示(蓝色背景)产生了不正确的答案(绿色背景)。更正后的“啄木鸟”回答以红色背景显示。(图片来源:Yin等人,2023年)

为了纠正幻觉,“啄木鸟”所驱动的AI模型使用了一个包括“关键概念提取、问题形成、视觉知识验证、视觉主张生成和幻觉纠正”的五阶段流程。

研究人员声称这些技术提供了额外的透明度和“较基线MiniGPT-4/mPLUG-Owl提高30.66%/24.33%的准确度”。他们使用他们的方法对许多“现成的”MLLM进行评估,并得出结论认为“啄木鸟”可以“轻松集成到其他MLLM中”。

相关信息:研究发现,人类和AI通常倾向于选择谄媚的聊天机器人回答而非真相

Woodpecker的评估版本可以在Gradio Live上获取,任何感兴趣的人都可以观看这个工具的实际操作。