基于混合大语言模型与多模态的全过程通用AI Agent | OPENAIGC开发者大赛高校组金奖

2024-10-14 来源:互联网

在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。

无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！

创未来AI应用赛-高校组金奖

作品名称：基于混合大语言模型与多模态的全过程通用AI Agent（以数据科学全过程分析为例）

参赛团队：悉尼大学计算机学院斯塔克工业

作品简介

你能用ChatGPT进行完整的数据分析吗？可以。但如果我们使用语音命令而不是键盘来控制整个过程呢？这正是我们的目标。在漫威电影《钢铁侠》中，托尼·斯塔克用语音命令指示J.A.R.V.I.S.寻找新元素以供弧形反应堆使用。我们的项目虽然没有那么先进，但想象一下能够通过语音对话来指挥一个AI系统，并让它自动完成简单的机器学习数据分析，这将是多么激动人心！

该项目的当前阶段集中于设计和开发一个能够执行基于机器学习的任务（如通过数据分析预测天气状况或股票价格）的语音控制AI代理。该项目将涵盖数据科学生命周期的所有阶段，包括数据收集、清洗、分析和建模。

应用背景

该项目立足于当前市场上大模型的生产端与应用端缺乏供应链连接的问题，创新地引入AI工程化的概念，架起原生大模型与生产应用之间的桥梁。该项目目前正在第二阶段，展示项目为第一阶段，以数据科学分析任务为例。

技术架构和实现

1. 原生自研高级 RAG 技术，有效解决外部知识库数据理解和 Information retrieval（非采用 Langchain, LlamaIndex 等封装好的框架，使全流程透明可控） 2. LLM agnostic - 支持任何原生大模型的 Embedding 和 Text completion (HuggingFace Transformers、Sentence Transformer、GPT, Llama 等） 3. Database agnostic - 支持任何向量数据库和 Knowledge base 4. 增强版记忆机制 - 比 ChatGPT 的 memory 更有效更可控 5. 语音对话 - 基于先进的 TTS 和 STT 模型，整个对话过程可用语音控制 6. Agent - 自研 Agent 框架，在覆盖特定领域任务的全生命周期外，力求 Agent 在任务执行过程中对 Token 的消耗降本增效 ...

应用价值

本项目主要专注于基于 RAG 和 Agent 的基础技术研究，专注于通用之上的专用、隐私，并无特定的限制，理论上，当前大模型能够被应用到的地方（多种自然语言处理任务，如问答系统、文档生成、智能助手、信息检索和知识图谱填充等），本项目都可以用于加强现有大模型的能力。当前项目展示以数据科学的分析任务全流程为例，完全由 Agent 计划并执行，覆盖数据科学任务的全生命周期、支持对每个阶段内执行的任务进行调整并重新执行。未来会加入更多流程，如数学分析、化学分析、软件工程等。

未来发展

RAG 技术才刚刚开始兴起，与大语言模型相辅相成，即便是未来大模型支持的文本输入窗口无限增大，成本是需要考虑的，数据隐私也是需要考虑的，而 RAG 作为外部的知识检索和存取技术，支持本地部署，且不会消耗太多额外的算力，相比本地部署大模型，RAG 的性价比更高。借助于 RAG 的优势，加上我们与 Agent 的整合，我们希望该系统的能力会进一步增强，具体可以体现在：信息检索和召回更准确、token消耗量更小、每一步流程更透明可控。同时，语音交互也为未来的空间计算提供了基础。

标签：