Windows MCP正式開源,大模型能操控操作系統(tǒng)了

0 評(píng)論 2963 瀏覽 5 收藏 8 分鐘

Windows MCP 正式開源,大模型第一次拿到操作系統(tǒng)級(jí)“遙控器”——文件、注冊(cè)表、網(wǎng)絡(luò)端口,一條自然語言指令就能全鏈路操控。開發(fā)者用 200 行 Python 即可讓 AI 替你裝軟件、配環(huán)境、發(fā)郵件,甚至跨應(yīng)用完成“寫報(bào)告→生成圖表→PPT 排版”一條龍。Agent 時(shí)代的基礎(chǔ)設(shè)施已就位,下一個(gè)被自動(dòng)化“拿下”的,就是你的桌面。

講真的,現(xiàn)在的大模型,就像一個(gè)超級(jí)聰明的大腦,你問它什么它都知道。

但它一直有個(gè)痛點(diǎn),就是沒有手和腳,只能動(dòng)嘴皮子,沒法真的幫你做事。

為了解決這個(gè)問題,MCP(Model Context Protocol)應(yīng)運(yùn)而生,為大模型裝上了四肢,讓大模型可以方便調(diào)用外部工具和資源。

MCP 出來后,誕生出了非常多的 MCP 項(xiàng)目,統(tǒng)計(jì)了下光在 ModelScope 上就有多達(dá) 5157 個(gè)。

在 GitHub 上更是誕生了非常多基于 MCP 的優(yōu)質(zhì)工具,但可惜的是,大多是瀏覽器插件或者Web 自動(dòng)化的思路,只能在網(wǎng)頁上指點(diǎn)江山,系統(tǒng)層面上的操作相對(duì)較少。

恰巧,我今天在逛 GitHub 摸魚的時(shí)候,就發(fā)現(xiàn)了一個(gè)叫 Windows-MCP的開源項(xiàng)目,簡(jiǎn)直是給 Windows 系統(tǒng)量身定做的義體,讓我大開眼界。

這是項(xiàng)目地址:https://github.com/CursorTouch/Windows-MCP

Windows-MCP 牛逼的地方在于,它能直接操控你的操作系統(tǒng)!

這是什么概念?

別人家是給AI配了個(gè)瀏覽器擴(kuò)展,這家伙是直接把AI變成了你電腦的系統(tǒng)管理員。從文件管理器到Photoshop,從微信到你的代碼編輯器,任何桌面應(yīng)用它都能染指。

比如自動(dòng)打開瀏覽器搜索天氣,并智能抓取網(wǎng)頁

還比如可以讓 Claude 打開本地的 word 文檔。

還可以配合上 Gemini CLI,自動(dòng)打開瀏覽器,找下在 X 上誰最后關(guān)注了自己。

目前,Windows MCP 可以做到:自動(dòng)打開本地應(yīng)用、控制窗口、模擬用戶輸入有豐富的 UI 自動(dòng)化工具集:包括基本的鍵盤、鼠標(biāo)操作和捕獲窗口/UI 狀態(tài)的工具。可做到實(shí)時(shí)交互,從一次鼠標(biāo)點(diǎn)擊到下一次的典型延遲范圍為 0.7 到 2.5 秒

對(duì)應(yīng)的 MCP Tool 分別是:

  • Click-Tool:在給定的屏幕坐標(biāo)上進(jìn)行點(diǎn)擊。
  • Type-Tool:在某個(gè)元素上輸入文本(可選擇性地清除現(xiàn)有文本)。
  • Clipboard-Tool:使用系統(tǒng)剪貼板進(jìn)行復(fù)制或粘貼。
  • Scroll-Tool:在窗口或特定區(qū)域內(nèi)進(jìn)行垂直或水平滾動(dòng)。
  • Drag-Tool:從一個(gè)點(diǎn)拖拽到另一個(gè)點(diǎn)。
  • Move-Tool:移動(dòng)鼠標(biāo)指針。
  • Shortcut-Tool:按下鍵盤快捷鍵(如Ctrl+cAlt+Tab等)。
  • Key-Tool:按下單個(gè)按鍵。
  • Wait-Tool:暫停指定的時(shí)長(zhǎng)。
  • State-Tool:結(jié)合默認(rèn)語言、瀏覽器、活動(dòng)應(yīng)用、可交互/文本/可滾動(dòng)元素以及桌面截圖的綜合快照。
  • Resize-Tool:用于更改應(yīng)用的窗口大小或位置。
  • Launch-Tool:從開始菜單啟動(dòng)一個(gè)應(yīng)用程序。
  • Shell-Tool:用于執(zhí)行PowerShell命令。
  • Scrape-Tool:用于抓取整個(gè)網(wǎng)頁的信息。

看到這你肯定也心動(dòng)了,想知道這玩意兒怎么用吧?

別急,我看了下文檔,其實(shí)還挺簡(jiǎn)單的,可在任意 MCP 客戶端使用,官方推薦在 Gemini CLI 和 Claude Desktop 中效果更佳。

以 Claude Desktop 為例,分以下幾步:

第一步:下載項(xiàng)目找個(gè)地方,直接用git把項(xiàng)目克隆下來。

git?clone?https://github.com/CursorTouch/Windows-MCP.git

第二步:構(gòu)建擴(kuò)展文件進(jìn)入項(xiàng)目目錄構(gòu)建擴(kuò)展文件。

cd?Windows-MCP npx @anthropic-ai/dxt pack

第三步:Claude Desktop 中配置打開設(shè)置 → 擴(kuò)展 → 安裝擴(kuò)展,選擇生成的 DXT 文件即可完成安裝

添加到 Gemini CLI 也很簡(jiǎn)單,先在文件資源管理器中導(dǎo)航到 %USERPROFILE%/.gemini 并打開 settings.json。

然后在 settings.json 中添加 windows-mcp 配置并保存。

{??“theme”:?“Default”,? …

//MCP Server Config”mcpServers”: {

“windows-mcp”: {

“command”:?“uv”,

“args”: [

“–directory”,

“<path to the windows-mcp directory>”,

“run”,

“main.py”

]

}

}

}

就這么簡(jiǎn)單,一個(gè)能聽懂人話的 AI 電腦管家就誕生了。

說實(shí)話,這種操作系統(tǒng)級(jí)別的 MCP 開源出來,想象空間實(shí)在太大了。

以后我們衡量一個(gè)人會(huì)不會(huì)用電腦,可能不再是看他會(huì)不會(huì)用某個(gè)軟件,而是看他會(huì)不會(huì)給 AI 提需求。

我已經(jīng)把項(xiàng)目地址貼在下面了,感興趣的兄弟可以沖了!

https://github.com/CursorTouch/Windows-MCP

MCP 火過一陣后,現(xiàn)在仿佛過氣了,但其實(shí)也有不少公司在偷偷發(fā)力,紛紛把自己的工具或核心業(yè)務(wù) MCP 化。

就比如最近發(fā)現(xiàn)滴滴也發(fā)布了個(gè)滴滴 MCP。

好了,現(xiàn)在也可以把叫車交給大模型了,結(jié)合地圖和旅游信息,做出行管家,這會(huì)真可一條龍服務(wù)了。

在無數(shù)的熱度退卻后,留下的是更深的思考,如何結(jié)合自己的業(yè)務(wù)場(chǎng)景讓技術(shù)和工具發(fā)揮出最大的價(jià)值。

或許才是我們需要好好琢磨的地方。

另外你們覺得這個(gè) Windows MCP 項(xiàng)目最能解放雙手的場(chǎng)景是啥?評(píng)論區(qū)告訴我!

別忘了點(diǎn)贊關(guān)注,我研究透了就立馬出個(gè)視頻版保姆級(jí)教程!

本文由人人都是產(chǎn)品經(jīng)理作者【蒼何】,微信公眾號(hào):【蒼何】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!