Windows MCP正式開源,大模型能操控操作系統(tǒng)了
Windows MCP 正式開源,大模型第一次拿到操作系統(tǒng)級(jí)“遙控器”——文件、注冊(cè)表、網(wǎng)絡(luò)端口,一條自然語言指令就能全鏈路操控。開發(fā)者用 200 行 Python 即可讓 AI 替你裝軟件、配環(huán)境、發(fā)郵件,甚至跨應(yīng)用完成“寫報(bào)告→生成圖表→PPT 排版”一條龍。Agent 時(shí)代的基礎(chǔ)設(shè)施已就位,下一個(gè)被自動(dòng)化“拿下”的,就是你的桌面。
講真的,現(xiàn)在的大模型,就像一個(gè)超級(jí)聰明的大腦,你問它什么它都知道。
但它一直有個(gè)痛點(diǎn),就是沒有手和腳,只能動(dòng)嘴皮子,沒法真的幫你做事。
為了解決這個(gè)問題,MCP(Model Context Protocol)應(yīng)運(yùn)而生,為大模型裝上了四肢,讓大模型可以方便調(diào)用外部工具和資源。
MCP 出來后,誕生出了非常多的 MCP 項(xiàng)目,統(tǒng)計(jì)了下光在 ModelScope 上就有多達(dá) 5157 個(gè)。
在 GitHub 上更是誕生了非常多基于 MCP 的優(yōu)質(zhì)工具,但可惜的是,大多是瀏覽器插件或者Web 自動(dòng)化的思路,只能在網(wǎng)頁上指點(diǎn)江山,系統(tǒng)層面上的操作相對(duì)較少。
恰巧,我今天在逛 GitHub 摸魚的時(shí)候,就發(fā)現(xiàn)了一個(gè)叫 Windows-MCP的開源項(xiàng)目,簡(jiǎn)直是給 Windows 系統(tǒng)量身定做的義體,讓我大開眼界。
這是項(xiàng)目地址:https://github.com/CursorTouch/Windows-MCP
Windows-MCP 牛逼的地方在于,它能直接操控你的操作系統(tǒng)!
這是什么概念?
別人家是給AI配了個(gè)瀏覽器擴(kuò)展,這家伙是直接把AI變成了你電腦的系統(tǒng)管理員。從文件管理器到Photoshop,從微信到你的代碼編輯器,任何桌面應(yīng)用它都能染指。
比如自動(dòng)打開瀏覽器搜索天氣,并智能抓取網(wǎng)頁
還比如可以讓 Claude 打開本地的 word 文檔。
還可以配合上 Gemini CLI,自動(dòng)打開瀏覽器,找下在 X 上誰最后關(guān)注了自己。
目前,Windows MCP 可以做到:自動(dòng)打開本地應(yīng)用、控制窗口、模擬用戶輸入有豐富的 UI 自動(dòng)化工具集:包括基本的鍵盤、鼠標(biāo)操作和捕獲窗口/UI 狀態(tài)的工具。可做到實(shí)時(shí)交互,從一次鼠標(biāo)點(diǎn)擊到下一次的典型延遲范圍為 0.7 到 2.5 秒
對(duì)應(yīng)的 MCP Tool 分別是:
- Click-Tool:在給定的屏幕坐標(biāo)上進(jìn)行點(diǎn)擊。
- Type-Tool:在某個(gè)元素上輸入文本(可選擇性地清除現(xiàn)有文本)。
- Clipboard-Tool:使用系統(tǒng)剪貼板進(jìn)行復(fù)制或粘貼。
- Scroll-Tool:在窗口或特定區(qū)域內(nèi)進(jìn)行垂直或水平滾動(dòng)。
- Drag-Tool:從一個(gè)點(diǎn)拖拽到另一個(gè)點(diǎn)。
- Move-Tool:移動(dòng)鼠標(biāo)指針。
- Shortcut-Tool:按下鍵盤快捷鍵(如Ctrl+cAlt+Tab等)。
- Key-Tool:按下單個(gè)按鍵。
- Wait-Tool:暫停指定的時(shí)長(zhǎng)。
- State-Tool:結(jié)合默認(rèn)語言、瀏覽器、活動(dòng)應(yīng)用、可交互/文本/可滾動(dòng)元素以及桌面截圖的綜合快照。
- Resize-Tool:用于更改應(yīng)用的窗口大小或位置。
- Launch-Tool:從開始菜單啟動(dòng)一個(gè)應(yīng)用程序。
- Shell-Tool:用于執(zhí)行PowerShell命令。
- Scrape-Tool:用于抓取整個(gè)網(wǎng)頁的信息。
看到這你肯定也心動(dòng)了,想知道這玩意兒怎么用吧?
別急,我看了下文檔,其實(shí)還挺簡(jiǎn)單的,可在任意 MCP 客戶端使用,官方推薦在 Gemini CLI 和 Claude Desktop 中效果更佳。
以 Claude Desktop 為例,分以下幾步:
第一步:下載項(xiàng)目找個(gè)地方,直接用git把項(xiàng)目克隆下來。
git?clone?https://github.com/CursorTouch/Windows-MCP.git
第二步:構(gòu)建擴(kuò)展文件進(jìn)入項(xiàng)目目錄構(gòu)建擴(kuò)展文件。
cd?Windows-MCP npx @anthropic-ai/dxt pack
第三步:Claude Desktop 中配置打開設(shè)置 → 擴(kuò)展 → 安裝擴(kuò)展,選擇生成的 DXT 文件即可完成安裝
添加到 Gemini CLI 也很簡(jiǎn)單,先在文件資源管理器中導(dǎo)航到 %USERPROFILE%/.gemini 并打開 settings.json。
然后在 settings.json 中添加 windows-mcp 配置并保存。
{??“theme”:?“Default”,? …
//MCP Server Config”mcpServers”: {
“windows-mcp”: {
“command”:?“uv”,
“args”: [
“–directory”,
“<path to the windows-mcp directory>”,
“run”,
“main.py”
]
}
}
}
就這么簡(jiǎn)單,一個(gè)能聽懂人話的 AI 電腦管家就誕生了。
說實(shí)話,這種操作系統(tǒng)級(jí)別的 MCP 開源出來,想象空間實(shí)在太大了。
以后我們衡量一個(gè)人會(huì)不會(huì)用電腦,可能不再是看他會(huì)不會(huì)用某個(gè)軟件,而是看他會(huì)不會(huì)給 AI 提需求。
我已經(jīng)把項(xiàng)目地址貼在下面了,感興趣的兄弟可以沖了!
https://github.com/CursorTouch/Windows-MCP
MCP 火過一陣后,現(xiàn)在仿佛過氣了,但其實(shí)也有不少公司在偷偷發(fā)力,紛紛把自己的工具或核心業(yè)務(wù) MCP 化。
就比如最近發(fā)現(xiàn)滴滴也發(fā)布了個(gè)滴滴 MCP。
好了,現(xiàn)在也可以把叫車交給大模型了,結(jié)合地圖和旅游信息,做出行管家,這會(huì)真可一條龍服務(wù)了。
在無數(shù)的熱度退卻后,留下的是更深的思考,如何結(jié)合自己的業(yè)務(wù)場(chǎng)景讓技術(shù)和工具發(fā)揮出最大的價(jià)值。
或許才是我們需要好好琢磨的地方。
另外你們覺得這個(gè) Windows MCP 項(xiàng)目最能解放雙手的場(chǎng)景是啥?評(píng)論區(qū)告訴我!
別忘了點(diǎn)贊關(guān)注,我研究透了就立馬出個(gè)視頻版保姆級(jí)教程!
本文由人人都是產(chǎn)品經(jīng)理作者【蒼何】,微信公眾號(hào):【蒼何】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!