Zhi Blog
  1. LLM&RAG&Agent
Zhi Blog
  • Zhi Blog
  • LLM&RAG&Agent
    • agent+大数据
    • deepseek的指令
    • 大模型控制电脑
    • 10.开发llm的两种方式
    • 11.展示写一个网站
    • 12.展示写一个reactflow前端
    • 13.大模型在反复迭代场景中的应用举例
    • 14.agent开发的workflow流程和自主编排
    • 15.利用大模型实现提示词的优化
    • 16.这就是为啥要学习提示词工程
    • 提示技巧
    • 17.提示词通用技巧以及提示词工程框架介绍
    • 18.Unsloth 大模型微调工具
    • autogen starter
    • MCP1:about MCP
    • MCP2: 如何用langchain创建自己的MCP server&client
    • 十分钟系列
      • 1.十分钟实现免费本地大模型对话框
      • 2.十分钟在本地部署大模型
      • 3.十分钟实现本地大模型部署并部署对话应用
      • 4.十分钟实现本地知识库部署
      • 5.十分钟在本地实现Deepseek R1 70B免费对话
      • 6.十分钟实现本地可视化开发Agent
      • 7.待补充
    • 参考
      • AI最大赛道Agent机遇全解析
      • 从第一性原理看大模型Agent技术
      • Agent项目
      • LLama部署和微调手册
      • Agent实战-JSON结构化智能
      • AI智能体卷爆大模型!AutoGPT等4大Agent打擂,「西部世界」谁将成为软件2.0
      • Agent调研--19类Agent框架对比
      • 国内近 50 款 AI Agent 产品问世,技术足够支撑应用可靠性了吗
      • 解析 AI Agent 的发展现状和技术难点
      • 清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力
      • Agent 还没出圈,落地先有了“阻力”:进入平台期,智力能否独立担事?
      • 钉钉卡位战:SaaS 挣不到的钱,Agent 会挣到
      • 近三代操作系统开发元老一起创业搞 AI Agent 操作系统
      • 从科幻走向现实,LLM Agent 做到哪一步了
  • Hudi
    • 1.hudi介绍和简单实践
    • 2.flink基于hudi的数据湖实践
    • 3.概说hudi
  • Iceberg
    • iceberg初步实践
  1. LLM&RAG&Agent

大模型控制电脑

1.Claude 3.5 Sonnet + streamlit 实现让Claude 3.5控制电脑完成某项工作,从根本上解放手和脑
2.Cradle
Cradle是一个多模态AI Agent框架,由昆仑万维、北京智源人工智能研究院、新加坡南洋理工大学、北京大学等机构推出。
Cradle使AI Agent无需训练便能像人一样直接控制键盘鼠标,实现任意开闭源软件交互。
官网链接:https://ai-bot.cn/cradle/
Cradle论文:https://arxiv.org/abs/2403.16971
3.ScreenAgent
ScreenAgent是一个由吉林大学人工智能学院开发的项目,利用视觉语言模型(VLM)直接控制电脑GUI,实现大模型直接操作电脑的目标。
项目链接:https://github.com/niuzaisheng/ScreenAgent
ScreenAgent论文:https://arxiv.org/abs/2402.07945
4.PyGPT
PyGPT是一个第三方软件,支持GPT-4、GPT-4V、GPT-3.5和DALL-E 3,以及Langchain/Llama-index提供的所有LLMs,如Llama 3、Mistral、Google Gemini和Anthropic Claude。
它具有内置的互联网搜索、语音合成和识别、预设提示、对话历史记录、插件支持等功能。
官网链接:https://pygpt.net/
项目链接:https://github.com/pygpt-net/PyGPT
5.DesktopGPT
DesktopGPT是由HIX.AI开发的一款桌面应用程序,它将ChatGPT的AI功能扩展到Windows操作系统,使用户能够在任何网站、应用程序、文档和电子邮件上利用人工智能。
该程序支持多种AI模型,包括GPT-3.5 Turbo和GPT-4,提供键盘快捷键和预设模板以简化任务。它还支持200多种语言,适用于Windows和macOS系统,并需要互联网连接。
这款应用程序旨在提高生产力,使用户能够快速、轻松地在桌面上使用AI辅助工具。
官网链接:https://desktopgpt.hix.ai/
6.Open Interpreter
Open Interpreter是一个开源项目,允许大型语言模型在本地计算机上执行多种编程语言代码,如Python、JavaScript和Shell。
它通过自然语言处理技术,将用户的日常语言指令转换为可执行的代码,实现文件操作、数据处理、编程教学等多种功能。
用户只需通过简单的语言输入,即可控制计算机完成复杂的任务。
Open Interpreter的安装和使用非常简便,通过pip安装后,在终端运行即可开始交互。
此外,它还支持交互式调试和智能上下文理解,提供实时反馈和多步骤任务执行能力。
项目链接:https://github.com/OpenInterpreter/open-interpreter
官网链接:https://www.openinterpreter.com/
7.Open-Interface
Open-Interface是一个基于大语言模型(LLM)的计算机自动化工具,它使计算机能够理解并执行自然语言指令,完成各种任务。
该工具支持多平台,包括MacOS、Linux和Windows,用户可以通过简单的安装步骤和配置API密钥来使用。
其核心功能包括将自然语言请求转化为操作步骤,并通过模拟输入执行这些步骤。它还具备根据屏幕截图进行纠错的能力,确保任务的准确性。
Open-Interface的系统架构设计使其能够处理复杂的用户请求,其成本效益和易于中断操作的特点,为用户提供了灵活的控制选项。
项目地址:https://github.com/AmberSahdev/Open-Interface
开发者博客: https://ambersah.dev/
8.还有微软的OmniParserV2
微软推出一款强大的新工具OmniParserV2,能让任何大模都化身为可操作电脑的智能体,GPT,Deepseek等AI模型能获得理解屏幕内容并执行操作能力,这个工具完全免费且开源
说明文档:
https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/
参考
https://m.thepaper.cn/newsDetail_forward_29136457
https://www.thoughtailab.com/article/claude-control-your-computer
修改于 2025-03-26 09:14:49
上一页
deepseek的指令
下一页
10.开发llm的两种方式
Built with