大模型控制电脑
Cradle是一个多模态AI Agent框架,由昆仑万维、北京智源人工智能研究院、新加坡南洋理工大学、北京大学等机构推出。
Cradle使AI Agent无需训练便能像人一样直接控制键盘鼠标,实现任意开闭源软件交互。
官网链接:https://ai-bot.cn/cradle/
Cradle论文:https://arxiv.org/abs/2403.16971
ScreenAgent是一个由吉林大学人工智能学院开发的项目,利用视觉语言模型(VLM)直接控制电脑GUI,实现大模型直接操作电脑的目标。
项目链接:https://github.com/niuzaisheng/ScreenAgent
ScreenAgent论文:https://arxiv.org/abs/2402.07945
PyGPT是一个第三方软件,支持GPT-4、GPT-4V、GPT-3.5和DALL-E 3,以及Langchain/Llama-index提供的所有LLMs,如Llama 3、Mistral、Google Gemini和Anthropic Claude。
它具有内置的互联网搜索、语音合成和识别、预设提示、对话历史记录、插件支持等功能。
官网链接:https://pygpt.net/
项目链接:https://github.com/pygpt-net/PyGPT
DesktopGPT是由HIX.AI开发的一款桌面应用程序,它将ChatGPT的AI功能扩展到Windows操作系统,使用户能够在任何网站、应用程序、文档和电子邮件上利用人工智能。
该程序支持多种AI模型,包括GPT-3.5 Turbo和GPT-4,提供键盘快捷键和预设模板以简化任务。它还支持200多种语言,适用于Windows和macOS系统,并需要互联网连接。
这款应用程序旨在提高生产力,使用户能够快速、轻松地在桌面上使用AI辅助工具。
官网链接:https://desktopgpt.hix.ai/
Open Interpreter是一个开源项目,允许大型语言模型在本地计算机上执行多种编程语言代码,如Python、JavaScript和Shell。
它通过自然语言处理技术,将用户的日常语言指令转换为可执行的代码,实现文件操作、数据处理、编程教学等多种功能。
用户只需通过简单的语言输入,即可控制计算机完成复杂的任务。
Open Interpreter的安装和使用非常简便,通过pip安装后,在终端运行即可开始交互。
此外,它还支持交互式调试和智能上下文理解,提供实时反馈和多步骤任务执行能力。
项目链接:https://github.com/OpenInterpreter/open-interpreter
官网链接:https://www.openinterpreter.com/
Open-Interface是一个基于大语言模型(LLM)的计算机自动化工具,它使计算机能够理解并执行自然语言指令,完成各种任务。
该工具支持多平台,包括MacOS、Linux和Windows,用户可以通过简单的安装步骤和配置API密钥来使用。
其核心功能包括将自然语言请求转化为操作步骤,并通过模拟输入执行这些步骤。它还具备根据屏幕截图进行纠错的能力,确保任务的准确性。
Open-Interface的系统架构设计使其能够处理复杂的用户请求,其成本效益和易于中断操作的特点,为用户提供了灵活的控制选项。
项目地址:https://github.com/AmberSahdev/Open-Interface
开发者博客: https://ambersah.dev/
微软推出一款强大的新工具OmniParserV2,能让任何大模都化身为可操作电脑的智能体,GPT,Deepseek等AI模型能获得理解屏幕内容并执行操作能 力,这个工具完全免费且开源
说明文档:
https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/
https://m.thepaper.cn/newsDetail_forward_29136457
修改于 2025-03-26 09:14:49