大模型控制电脑

1.Claude 3.5 Sonnet + streamlit 实现让Claude 3.5控制电脑完成某项工作,从根本上解放手和脑

2.Cradle
Cradle是一个多模态AI Agent框架，由昆仑万维、北京智源人工智能研究院、新加坡南洋理工大学、北京大学等机构推出。
Cradle使AI Agent无需训练便能像人一样直接控制键盘鼠标，实现任意开闭源软件交互。
官网链接：https://ai-bot.cn/cradle/
Cradle论文：https://arxiv.org/abs/2403.16971

3.ScreenAgent
ScreenAgent是一个由吉林大学人工智能学院开发的项目，利用视觉语言模型（VLM）直接控制电脑GUI，实现大模型直接操作电脑的目标。
项目链接：https://github.com/niuzaisheng/ScreenAgent
ScreenAgent论文：https://arxiv.org/abs/2402.07945

4.PyGPT
PyGPT是一个第三方软件，支持GPT-4、GPT-4V、GPT-3.5和DALL-E 3，以及Langchain/Llama-index提供的所有LLMs，如Llama 3、Mistral、Google Gemini和Anthropic Claude。
它具有内置的互联网搜索、语音合成和识别、预设提示、对话历史记录、插件支持等功能。
官网链接：https://pygpt.net/
项目链接：https://github.com/pygpt-net/PyGPT

5.DesktopGPT
DesktopGPT是由HIX.AI开发的一款桌面应用程序，它将ChatGPT的AI功能扩展到Windows操作系统，使用户能够在任何网站、应用程序、文档和电子邮件上利用人工智能。
该程序支持多种AI模型，包括GPT-3.5 Turbo和GPT-4，提供键盘快捷键和预设模板以简化任务。它还支持200多种语言，适用于Windows和macOS系统，并需要互联网连接。
这款应用程序旨在提高生产力，使用户能够快速、轻松地在桌面上使用AI辅助工具。
官网链接：https://desktopgpt.hix.ai/

6.Open Interpreter
Open Interpreter是一个开源项目，允许大型语言模型在本地计算机上执行多种编程语言代码，如Python、JavaScript和Shell。
它通过自然语言处理技术，将用户的日常语言指令转换为可执行的代码，实现文件操作、数据处理、编程教学等多种功能。
用户只需通过简单的语言输入，即可控制计算机完成复杂的任务。
Open Interpreter的安装和使用非常简便，通过pip安装后，在终端运行即可开始交互。
此外，它还支持交互式调试和智能上下文理解，提供实时反馈和多步骤任务执行能力。
项目链接：https://github.com/OpenInterpreter/open-interpreter
官网链接：https://www.openinterpreter.com/

7.Open-Interface
Open-Interface是一个基于大语言模型（LLM）的计算机自动化工具，它使计算机能够理解并执行自然语言指令，完成各种任务。
该工具支持多平台，包括MacOS、Linux和Windows，用户可以通过简单的安装步骤和配置API密钥来使用。
其核心功能包括将自然语言请求转化为操作步骤，并通过模拟输入执行这些步骤。它还具备根据屏幕截图进行纠错的能力，确保任务的准确性。
Open-Interface的系统架构设计使其能够处理复杂的用户请求，其成本效益和易于中断操作的特点，为用户提供了灵活的控制选项。
项目地址：https://github.com/AmberSahdev/Open-Interface
开发者博客: https://ambersah.dev/

8.还有微软的OmniParserV2
微软推出一款强大的新工具OmniParserV2,能让任何大模都化身为可操作电脑的智能体,GPT,Deepseek等AI模型能获得理解屏幕内容并执行操作能力,这个工具完全免费且开源
说明文档:
https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/

参考
https://m.thepaper.cn/newsDetail_forward_29136457

https://www.thoughtailab.com/article/claude-control-your-computer