Agent调研 | KashiwaのBlog

type

status

date

slug

summary

调研目标

Agent 实现 PDF对话，官方文档对话的chain

他山之石

Cortex

https://trycortex.ai/

个人助手Copilots+知识库 Knowledge+

Chat+Textgeneration+Search

Flowise

https://flowiseai.com/

LLM Chain（带技能api） + QnA Retrieval Chain（问答检索） +Language Translation Chain（自然语言翻译成json后输入）+Conversational Agent with Memory（带记忆的Agent）

拼接后即时语音机器人

LlamaIndex (GPT Index)

LlamaIndex (GPT Index) 是 LLM 应用程序的数据框架

LlamaIndex 🦙 0.6.15

数据挖掘+数据索引+数据对话引擎+工具API+框架集成+现成的数据接入代码hub

Data connectors ingest your existing data from their native source and format. These could be APIs, PDFs, SQL, and (much) more.

Data indexes structure your data in intermediate representations that are easy and performant for LLMs to consume.

Engines provide natural language access to your data. For example:

Query engines are powerful retrieval interfaces for knowledge-augmented output.
Chat engines are conversational interfaces for multi-message, “back and forth” interactions with your data.

Data agents are LLM-powered knowledge workers augmented by tools, from simple helper functions to API integrations and more.

Application integrations tie LlamaIndex back into the rest of your ecosystem. This could be LangChain, Flask, Docker, ChatGPT, or… anything else!

LlamaIndex 是一个“数据框架”，可帮助您构建 LLM 应用程序。它提供了以下工具：提供数据连接器以获取您现有的数据源和数据格式（API、PDF、文档、SQL 等）提供构建数据（索引、图表）的方法，以便这些数据可以轻松地与 LLM 一起使用。为您的数据提供高级检索/查询界面：输入任何 LLM 输入提示，取回检索到的上下文和知识增强输出。允许与您的外部应用程序框架轻松集成（例如，与 LangChain、Flask、Docker、ChatGPT 等）。

现成的数据接入代码hub

• 🏡 LlamaHub: https://llamahub.ai | A large (and growing!) collection of custom data connectors

大而全而且只用几行代码就能搞定，甚至能获取bilibili 上URL 视频文本内容

GitHub - ucsd-creativitylab/graphologue: Use GPT-4...

Graphologue 是一个交互式系统,它可以将大型语言模型(LLM)的文本响应转换成图形图表,从而帮助用户进行信息搜索和问答任务。该论文已发表在UIST 2023会议上。代码和提示已在GitHub上开源。 💡该系统的主要功能和创新点包括: 1️⃣利用新的提示策略和界面设计从LLM的文本响应中提取实体和关系,并实时构建节点连接图。 2️⃣用户可以交互操作图表,灵活调整图形呈现方式,并针对特定上下文提交提示来获取更多信息。 3️⃣利用图表,Graphologue实现了人与LLM之间的图形非线性对话,帮助用户浏览、组织和理解信息。 4️⃣纯文本的LLM接口往往给出冗长的回复,特别是在复杂任务中会使人难以快速理解不同信息片段,图表形式可以更好支持复杂信息任务。总体来说,Graphologue通过图表交互的方式,增强了人与LLM之间的信息表达和交流,为复杂的信息搜索和问答任务提供了新的支持。这是探索LLM应用的一个有意义的尝试。

LangChain Teacher

这是一个基于聊天的导师应用程序，可以引导您了解 LangChain 的核心组件及其实施方式。期待以后的软件应用都配上AI导师，哪里不懂问哪里，即问即落地实现。 LangChain Teacher 应用：

https://lang-teacher.streamlit.app/

LangChain Teacher github：

GitHub - langchain-ai/langchain-teacher: Teach Lan...

🦜️🔗 LangChain 官方文档：

🦜️🔗 LangChain | 🦜️🔗 LangChain

---

Rivet

Rivet 是开源视觉AI编程环境。

Rivet

组件编辑器（本地 IDE形式），TypeScript

Guidance

一套专门的语法更好的控制大模型

GitHub - guidance-ai/guidance: A guidance language...

guidance 是一个 Python 库，相比提示词方式或链式调用方式，可以更有效地控制和利用大型语言模型(如 GPT、BART 等)。简单直观的语法，基于 Handlebars 模板，丰富的输出结构，具有函数调用、逻辑判断、控制流等功能

ThinkGPT

不过是一个几个月没更新的库，看着功能呢像低配版Langchain

ThinkGPT 是一个 Python 库，旨在实现大型语言模型(LLM)的思维链，促进模型的思考、推理和创建生成代理。目标是帮助以下方面:

用长记忆和压缩知识解决有限的上下文

用高阶推理原语增强 LLM 的一次推理

将明智的决策添加到代码库中

Swarms

多智能体

node创造单智能体

整体一般

AI-Scraper

效果满足不了实际需求

https://ai-scraper.com/

输入网址+爬取数据的需求，即可生成目标数据集（JSON格式）！

LocalGPT

localGPT：通过使用GPT模型在本地设备上与文档进行问答交流的方式，实现100％私密且不离开设备的聊天。该项目受到了之前privateGPT的启发，使用Vicuna-7B模型替换了GPT4ALL模型，并使用InstructorEmbeddings代替原始privateGPT中使用的LlamaEmbeddings。无论是Embeddings还是LLM都将在GPU上运行，并提供了CPU支持。可以在没有互联网连接的情况下向您的文档提问，并利用LLM的强大功能。

GitHub - PromtEngineer/localGPT: Chat with your do...

带 WebUI： •

GitHub - alanland/localGPT: Chat with your documen...

可以攻玉

多Agent

Guidance

GitHub - guidance-ai/guidance: A guidance language...

数据导入

LlamaIndex

https://gpt-index.readthedocs.io/en/latest/inde#x.html

LlamaHub

GitHub - emptycrown/llama-hub: A library of data l...

LlamaHub 其目标是便于将LLM连接到各种数据源,发挥LLM的全部能力。网站

Llama Hub

上有更多信息。

LlamaHub 的主要作用是: 它是一个为大型语言模型(LLM)如GPT-3提供数据加载器/读取器/工具的库。它可以将LLM连接到各种数据源。根据文档所描述的，目前支持的数据源包括： Google文档: 使用GoogleDocsReader加载谷歌文档、SQL数据库: 使用SQL数据库进行查询 Notion: 读取和使用Notion中的数据 Slack: 读取和使用Slack中的数据 OpenAPI规范: 读取和使用OpenAPI规范描述的API Google日历: 读取和管理谷歌日历 Gmail收件箱: 读取和管理Gmail收件箱 Google社交媒体平台:如YouTube等,读取和发帖加载器可以将数据导入LlamaIndex或LangChain。工具允许LLM读写外部服务，可以创建自定义的数据代理,比如可以加载你的Google文档,查询SQL数据库,管理日历等的虚拟助手。

向量数据库

VectorAdmin

GitHub - Mintplex-Labs/vector-admin: The universal...

VectorAdmin，一个开源项目，目标是成为向量数据库管理的最佳通用 GUI

文档阅读

LangChain Teacher，这是一个基于聊天的导师应用程序，可以引导您了解 LangChain 的核心组件及其实施方式。 LangChain Teacher 应用：

https://lang-teacher.streamlit.app/

LangChain Teacher github：

GitHub - langchain-ai/langchain-teacher: Teach Lan...

🦜️🔗 LangChain 官方文档：

🦜️🔗 LangChain | 🦜️🔗 LangChain

---

社区管理

LangChain Hub

https://smith.langchain.com/hub?ref=blog.langchain.dev

开放提示词而且方便直接拉取调用，个人理解很多库完全可以成为技能组件了

LangChain 开放了提示词综合管理平台（也有社区性质）

LangChain Hub 是一个用于上传、浏览、管理 prompt 的平台。prompt 是在和大语言模型交互时,提供的文本提示。通过 LangChain Hub,开发者可以发现、分享 prompt。

💡文章提到 LangChain Hub 的几个目的: 1️⃣让开发者更容易分享和发现不同场景下的 prompt,加速开发和学习。 2️⃣支持不同的语言模型,因为不同模型需要不同的 prompt 语法。 3️⃣提供检查和管理 prompt 的功能。 4️⃣支持团队协作编辑 prompt。 5️⃣与 LangChain 的其他工具如 LangSmith 集成。

Hub 的一些主要功能包括: 1️⃣主页用于发现 prompt 2️⃣支持上传和下载 prompt 3️⃣提供版本控制 4️⃣可以在线测试 prompt 5️⃣编辑和保存 prompt

WebGPU

#WebLLM# 摘要：WebLLM项目将大型语言模型和基于LLM的聊天机器人带到Web浏览器中，无需服务器支持，使用WebGPU加速，提供了构建AI助手和保护隐私的有趣机会。该项目旨在将LLMs直接嵌入客户端，并在浏览器中直接运行它们，从而为生态系统带来更多的多样性。如果实现了这一点，我们将能够以更少的成本支持客户端个性化AI模型，并提供更好的隐私保护。WebGPU刚刚发布到Chrome，我们已经在Windows和Mac上测试了它。这个演示网站仅供研究目的，受LLaMA，Vicuna和RedPajama的模型许可证限制。

Chrome 团队发布了 WebGPU

https://developer.chrome.com/blog/webgpu-release/

https://news.ycombinator.com/item?id=35465729

WebGPU的实例包括基于WebGPU的数据可视化库GPU.js、WebGPU实现的3D场景渲染引擎Grafi.js、基于WebGPU的机器学习框架TensorFlow.js等。

链接：

WebLLM | Home

WebSD | Home 稳定扩散模型，WebGPU，人工智能摘要：WebSD项目将稳定扩散模型带到了Web浏览器中，无需服务器支持。该项目提供了一个演示，让用户可以在浏览器中尝试。这个项目旨在将更多的计算放在客户端，从而降低服务提供商的成本，同时增强个性化和隐私保护。该项目的目标是直接将机器学习模型带到客户端，让用户能够在浏览器中立即运行模型。链接：

WebSD | Home

扩展

图表扩展

ucsd-creativitylab/graphologue: Use GPT-4 to stream diagrams, instead of tokens, in real-time! (UIST 2023 Paper) (github.com)

截图管理

👇Trickle是一个利用GPT-4的AI驱动的截图管理和分析工具。

Trickle rescues your screenshot chaos with AI.

🌟它的主要功能和优势有: 1️⃣智能截图 - Trickle可以通过AI对截图进行智能分析,提取关键信息和洞察,而不仅仅是文字摘要。 2️⃣截图整理 - Trickle可以自动归档和组织用户的大量截图,解决截图散乱的问题。 3️⃣搜索和问答 - 用户可以通过搜索或问答的方式快速定位和利用之前的截图。 4️⃣手写识别 - Trickle可以识别截图中的手写内容。 5️⃣跨设备 - 用户可以在不同设备上访问归档的截图。 6️⃣实用场景 - Trickle可广泛应用于笔记整理、研究、产品设计等场景。 7️⃣GPT模型驱动 - Trickle使用GPT-4等大型语言模型作为驱动,可以产生更智能的分析。 8️⃣免费试用 - Trickle提供了免费试用版本。总体来说,Trickle通过AI对截图进行智能化管理,可以极大地提高截图的利用效率,是一款非常实用的生产力工具。

技能管理

技能API

Your Gateway To A World Of Public APIs. This tool is completely free and Open-Source! 收集了大量公共 API，相当于 API 的搜索引擎，用户可以提交新的 API。

AfreeAPIdatabaselistfordevelopers

技能开发

#调研方向

MetaGPT

Agently

Agents

https://github.com/aiwaves-cn/agents

bisheng

dataelem.feishu.cn

https://dataelem.feishu.cn/wiki/P2zzw6c7IikgF4kAERwcHZWnnxb

cotex

https://trycortex.ai/

LLM开发框架

Drag & drop UI to build your customized LLM flow using LangchainJS

GitHub - FlowiseAI/Flowise: Drag & drop UI to buil...

#AI应用开发框架# #LLM# LlamaIndex (GPT Index) 是 LLM 应用程序的数据框架

LlamaIndex 🦙 0.6.15

LlamaIndex 是一个“数据框架”，可帮助您构建 LLM 应用程序。它提供了以下工具：提供数据连接器以获取您现有的数据源和数据格式（API、PDF、文档、SQL 等）提供构建数据（索引、图表）的方法，以便这些数据可以轻松地与 LLM 一起使用。为您的数据提供高级检索/查询界面：输入任何 LLM 输入提示，取回检索到的上下文和知识增强输出。允许与您的外部应用程序框架轻松集成（例如，与 LangChain、Flask、Docker、ChatGPT 等）。 LlamaIndex 为初学者和高级用户提供工具。我们的高级 API 允许初学者使用 LlamaIndex 在 5 行代码中摄取和查询他们的数据。我们的低级 API 允许高级用户自定义和扩展任何模块（数据连接器、索引、检索器、查询引擎、重新排名模块）以满足他们的需求。

论文

必读LLM文选

GitHub - WooooDyy/LLM-Agent-Paper-List: The paper ...

💡这是一个关于基于大语言模型(LLM)的智能体研究的综述论文和代码仓库。这个项目由复旦大学等多所高校的研究人员维护,目标是持续更新LLM智能体方向的进展。 🔴回顾并持续更新LLM智能体构建中的关键技术。 🔴概括了LLM智能体的EXTENSIVE应用,包括单智能体、多智能体和人机协作三种场景。 🔴探讨了LLM智能体社会,包括个体行为、个性、互动环境和社会模拟。 🔴讨论了该领域的热点话题和未解决问题。 🔴提供了大量顶会论文、高影响预印本的阅读列表。总体来说,这个项目全面系统地总结了LLM智能体的研究现状、关键技术、应用场景和未来方向,是该领域的综述性论文和资源库。

验证链

Meta此次提出的“验证链”（CoVe），是与“思维链”（CoT）相似的一种链式方法。验证链的核心思想，是把要验证的一大段内容，拆解成一个个小的问题，具体流程是这样的：首先，模型会根据用户提出的问题照常生成回复。接着，根据生成的回复内容，针对其中的各项信息，生成一系列的验证问题。然后让模型自行回答其所提出的这些问题，并根据结果对初始答案进行调整，得到最终结果。 #提示工程# #论文#

[2309.11495] Chain-of-Verification Reduces Halluci...

Agent

[2309.07864] The Rise and Potential of Large Langu...

这篇论文全面系统地调研和展望了基于大语言模型构建智能代理的相关研究。主要内容包括: 1️⃣从哲学和人工智能角度追溯了智能代理的起源,并阐明了语言模型作为智能代理大脑组件的合理性。 2️⃣提出了构建基于语言模型的智能代理的概念框架,其中大脑模块是核心,配备感知模块和行动模块。 3️⃣介绍了基于语言模型的单智能体在任务导向、创新导向和生命周期导向三个方面的应用。 4️⃣探讨了多智能体之间的协作互动模式,包括有序合作和无序合作,以及对抗互动的应用。 5️⃣分析了人机交互模式下智能代理的两个范式:指导执行范式和平等合作范式。 6️⃣从个体到群体的视角,讨论了智能代理的社会行为、个性化和模拟社会。 7️⃣对基于语言模型的智能代理的评估、安全性、可拓展性等关键问题进行了深入讨论。 8️⃣提出了一些开放性问题,例如大规模智能代理的集体智能,以及代理即服务等概念。

https://huggingface.co/papers/2309.09971

这篇论文介绍了一个名为MINDAGENT的多智能体协作基础架构,用于探索大型语言模型在游戏环境中的多智能体计划和协作能力。 💡主要内容和创新点包括: 1️⃣提出了一个新的基于虚拟厨房的文字游戏CUISINEWORLD,用于评估多智能体的计划和协调能力。游戏设计模块化,支持扩展。 2️⃣设计了MINDAGENT架构,将大型语言模型集成到游戏环境中,进行多智能体的计划和调度。该架构支持零样本计划,以及利用反馈进行在线学习来增强计划能力。 3️⃣在CUISINEWORLD游戏中进行了全面评估。结果显示GPT-4等模型拥有强大的零样本多智能体计划能力,并且可以利用极少的示例迅速适应更多智能体的协作。 4️⃣将该架构应用到Minecraft游戏中,展示了其适用性。该架构也支持人机协作,人类用户可以通过语音指令与游戏中的智能体进行协作。

#AIAgent# #智能代理# #智能体# #LLM# #论文#

[2308.03688] AgentBench: Evaluating LLMs as Agents

- 操作系统（OS）：考察 LLM 在 bash 环境进行文件操作、用户管理等能力。 - 数据库（DB）：考察 LLM 利用 SQL 对给定数据库进行操作的能力。 - 知识图谱（KG）：考察 LLM 利用工具从知识图谱中获取复杂知识的能力。 - 卡牌对战（DCG）：考察 LLM 作为玩家，根据规则和状态进行卡牌对战的策略决策能力。 - 情景猜谜（LTP）：这个游戏需要 LLM 针对谜题进行提问，从而猜出答案，能够考察 LLM 的横向思维能力。 - 家居（HH）：在模拟的家庭环境下，LLM 需要完成一些日常任务，主要考察 LLM 将复杂的高级目标拆解为一系列简单行动的能力。 - 网络购物（WS）：在模拟的在线购物环境中，LLM 需要按照需求完成购物，主要考察 LLM 的自主推理和决策能力。 - 网页浏览（WB）：在模拟网页环境中，LLM需要根据指令完成跨网站的复杂任务，考察 LLM 作为 Web agent的能力。

Reflexion：Language Agents with Verbal Reinforcement Learning 使用口头反馈来强化LLM的能力

这是一个为 AI Agents 提供动态记忆和自我反思能力，以提高推理能力的框架。该框架采用标准的强化学习设置，其中奖励模型提供简单的二元奖励（0/1），动作空间遵循 ReAct 中的设置，同时基于特定任务的行动空间，使用语言增强功能，以实现复杂的推理步骤。在每个动作之后，AI Agents 会计算一个启发式值，并根据自我反思的结果来选择是否重置环境以开始新的实验。

最重要的三个角色是actor、evaluator和self-refection。其中Actor是个LM，充当policy的作用，产生一个Trajectory动作，通过Evaluator来评估真实环境下的得分情况，根据这个反馈，通过self-refrection模块进行反思总结，通过口头反馈信号来描述任务情况和结果，并缓存在一个memory中。后面继续决策的时候就会依赖这个保存的信息做更好地决策。整个过程循环往复直到evaluator给出正确的反馈。

#AI agent# #多智体协作# #AI游戏# @a16z构建了AI Town,灵感来自斯坦福的Smallville。现已推出代码与可玩的demo 这是一个JS启动器工具包,可以处理全局状态和多Agent事务,帮助你构建自己的小型AI文明。我们可以想象,整个世界,包括像素艺术和地图,都可以通过AI生成。新的角色将自动生成,甚至游戏中的物理规则可能会即时重写。期待整个开源社区的创造力。代码：

GitHub - a16z-infra/ai-town: A MIT-licensed, deplo...

demo：

AI Town

- 游戏引擎和数据库（Game engine & Database）：Convex - 向量数据库（VectorDB）：Pinecone - 登录认证（Auth）：Clerk - 文本生成模型（Text model）：OpenAI - 部署（Deployment）：Fly - 像素图生成（Pixel Art Generation）：Replicate、Fal.ai

多智能体

使用大型语言模型模块化构建协作具体代理项目地址：

BuildingCooperativeEmbodiedAgentsModularlywithLarg...

大型语言模型（LLM）在跨各个领域的单代理具体任务中表现出了令人印象深刻的规划能力。（比如专业领域知识问答、方案规划等）然而，它们在多智能体合作中的规划和通信能力仍不清楚，尽管这些是智能实体的关键技能。（让机器智能与人类一样能协同工作）在本文中，研究者提出了一种利用 LLM 进行多智能体合作的新颖框架，并在各种具体环境中对其进行了测试。文章的框架使实体代理能够与其他实体代理或人类进行计划、沟通和合作，以有效地完成长期任务。研究证明，最近的LLM（例如 GPT-4）可以超越强大的基于规划的方法，并使用文中的框架展示实时有效的沟通，而无需微调或几次提示。研究还发现，以自然语言进行交流的基于LLM的代理可以赢得更多信任并与人类更有效地合作。研究强调了LLM在具体人工智能方面的潜力，并为未来多智能体合作的研究奠定了基础。

前端框架

在您的浏览器中运行Transformers

https://xenova.github.io/transformers.js/

数据导入

Parsio | Extract Data From Emails and Documents

帕西奥 |从电子邮件和文档中提取数据 (parsio.io) 自动从 PDF、电子邮件和其他文档中提取结构化数据，这个功能非常实用。 -- 名词解释：结构化数据是指具有明确格式和组织方式的数据，例如表格、数据库、XML文件等。这些数据通常可以轻松地被计算机程序读取、处理和分析，因为它们具有相同的字段和数据类型，以及明确的关系和层次结构。结构化数据通常用于商业应用、科学研究、金融分析等领域。与之相对的是非结构化数据，如文本、图像、音频等，这些数据没有明确的格式和组织方式，难以被计算机程序处理和分析。

无代码数据爬取

WebscrapeAi | Automate Your Data Collection With N...

使用无代码自动化您的数据收集 WebscrapeAi 是从网络收集数据的工具，无需手动抓取的麻烦。无需编码技能。