(); foreach ($arrlist as $val) { $flagarr[] = $val['flagid']; $ids[] = $val['id']; if (isset($g_flag_thread[$val['flagid']])) unset($g_flag_thread[$val['flagid']]); } website_set('flag_thread', $g_flag_thread); // 主键更新 flag_update($flagarr, array('count-' => 1)); // 主键删除 flag_thread_delete($ids); } return TRUE; } // 主键删除 通过$flagid删除flag下的主题和对应flagid缓存 function flag_thread_delete_by_flagid($flagid) { global $g_flag_thread; FALSE === $g_flag_thread and $g_flag_thread = website_get('flag_thread'); $read = flag_read_cache($flagid); if (empty($read)) return TRUE; $arrlist = flag_thread_find_by_flagid($flagid, 1, $read['count']); if (empty($arrlist)) return TRUE; $flagarr = $ids = array(); $n = 0; foreach ($arrlist as $val) { ++$n; $flagarr[] = $val['flagid']; $ids[] = $val['id']; if (isset($g_flag_thread[$flagid])) unset($g_flag_thread[$flagid]); } website_set('flag_thread', $g_flag_thread); // 主键更新 flag_update($flagarr, array('count-' => $n)); // 主键删除 $r = flag_thread_delete($ids); return $r; } ?>3个Agent多模态感知秘诀,让AI真正具备“思考+执行”能力!
最新消息:雨落星辰是一个专注网站SEO优化、网站SEO诊断、搜索引擎研究、网络营销推广、网站策划运营及站长类的自媒体原创博客

3个Agent多模态感知秘诀,让AI真正具备“思考+执行”能力!

网站源码admin2浏览0评论

3个Agent多模态感知秘诀,让AI真正具备“思考+执行”能力!

Agent 是什么?其实本质上Agent依赖于大模型基座,目前大模型推理能力有明显的提升,Agent的实现变得更加容易。同时Agent在各个领域的应用越来越广泛,从个人助手到企业服务,其重要性不断提升,使得2025年成为Agent技术发展的关键一年。

对比目前的大模型 LLM 来说,LLM大模型的回复,日常只能够闲聊和问答一些问题。

如果在设定一些比较复杂的任务,跟外界有交互的任务的时候,那么大模型是没有办法给你执行的。

因此 Agent 真正的概念在于:能够让 AI 自主的完成任务。

Agent具有三个能力:

•感知能力:输入感知

•规划能力:逻辑推理

•行动能力:具体执行

在感知能力中,包含了文本感知、图像感知、语音感知等等。

  • 文本感知:单纯的文本大语言模型靠的是文本感知。训练的时候靠得就是海量的文本数据,依赖于人工输入文本然后回答。
  • 多模态能力感知:GPT-4o的出现,使得这类大模型能够拥有视觉感知、语音感知等

在规划能力中,其实就是需要 Agent 具备一定的逻辑推理能力。但是在以前,研究人员发现,大模型很多时候张口就来,很多的题目都存在幻觉。比如最著名的那道数学题目:

为了提升模型的规划能力,从而引入思维链COT:让大模型思考,再进行回答。本质上就是让模型再回答之前,先主动拆解一下问题,一步一步进行回答。

LLM模型 level 1:

•快(Fast):反应迅速,不需要深思熟虑。

•无意识(Unconscious):依赖直觉和经验,自动作出判断。

•日常决策(Everyday Decisions):适用简单、常规性的决策

•易出错(Error Prone):容易受到偏见和认知偏误的影响

LLM模型 level 2:

•慢(Slow):需要花费时间和认知资源进行深度思考。

•有意识(Conscious):需要主动控制和集中注意力

•复杂决策(Complex Decisions):适用于处理复杂问题

•可靠(Reliable):较少受直觉和情绪影响

行动能力则需要大模型需要调用工具执行某些操作,来获取信息和输出特定的格式。它包含了两种方式:

  • 基础调用方式:各种API调用

  • 模型上下文协议(Model Context Protocol,简称 MCP):是由 Anthropic 于 2024 年 11 月推出的开放标准,旨在为LLM与外部数据源和工具之间建立统一的通信协议。

写在最后

随着技术的发展,Agent的能力也在不断进化,尤其是在多模态感知和复杂决策方面。2025年,预计将会迎来Agent技术的突破性进展,特别是在多任务处理和动态环境中的应用。这将使得Agent不仅能完成静态任务,还能进行复杂的实时互动和情境感知,甚至具备自我优化的能力。

未来的Agent将能够在多场景、多设备之间进行无缝切换,从个人生活助手到企业级自动化服务,再到更高层次的智能决策系统。特别是在智能制造、自动驾驶、智能医疗等领域,Agent将发挥巨大的作用,推动相关行业的数字化转型。

这种技术的进步也将带来一系列新的挑战,包括如何确保Agent在执行任务时的安全性与可靠性,如何避免数据偏见对决策的影响,如何设计和完善跨平台的标准协议等。随着这些问题逐步解决,Agent技术将成为社会各个层面日常运作的基础设施。

总体而言,Agent技术的发展不仅推动了人工智能的前沿,也带来了关于自主智能体的伦理、隐私和安全等问题的深刻讨论。未来,我们将看到一个更加智能、互联和自适应的世界,Agent将成为我们生活中不可或缺的智慧助手。

发布评论

评论列表(0)

  1. 暂无评论