Claude 3 挑戰(zhàn) GPT-4 王者地位,教育行業(yè)迎來何種變革?
就在最近,Claude 3 系列模型發(fā)布了,且其多個領域的性能還超越了 OpenAI 的 GPT-4。在這樣的背景下,教育如何實現「AI+」的縱深發(fā)展?越來越強的基礎模型能力,對教育行業(yè)意味著什么?
3 月 5 日凌晨,OpenAI 的競爭對手、得到谷歌和亞馬遜投資支持的 Anthropic 公司發(fā)布了最新的 Claude 3 系列模型,其多個領域的性能超越了 OpenAI 的 GPT-4。
Claude 3 系列模型包括 Haiku、Sonnet 與 Opus 三款,恰如其名,這些文學名字都暗示了每個模型的能力,Opus 是最強大的,Haiku 是最輕快的。在推理、數學、編碼、多語言理解和視覺等領域的 20 項測試中,Claude 3 Opus 在 14 項性能指標上超越了 GPT-4 和谷歌 Gemini 等一系列模型。
Opus 和 Sonnet 現可在 claude.ai 和 Claude API 中使用,Haiku 也將于不久后推出。亞馬遜也第一時間宣布新模型登陸了 Amazon Bedrock。
一、大戰(zhàn) GPT-4,看看誰贏了
無論是 2023 年 3 月推出的 Claude,還是同年 7 月推出的 Claude 2,Anthropic 推出的模型似乎每次都稍微落后于 OpenAI 的最佳模型。
但 Claude 3 的發(fā)布,Anthropic 也許終于在性能上趕上了 OpenAI 發(fā)布的模型,盡管專家們還沒有達成共識,但跑分結果顯示,Claude 3 的確在多項指標上優(yōu)于 ChatGPT 和 Gemini。
1. 更強的理解和分析能力
如圖所示,Claude 3 在推理、數學、編碼、多語言理解和視覺方面展現了卓越的性能。盡管在大型語言模型中,「知道」與「推理」之間的區(qū)別尚無共識,但人工智能研究界通常采用這些術語。Anthropic 聲稱,Opus 模型是三個模型中最為強大的,它在處理復雜任務時展現出了接近人類水平的理解力和流暢性。
這種說法雖然令人振奮,但需要更細致的分析。Opus 在某些特定基準測試中可能接近人類的水平,但這并不意味著它具備了人類的普遍智能——例如,袖珍計算器在數學計算上也超越了人類。因此,這種說法可能是為了吸引注意而故意夸大的。
據 Anthropic 稱,Claude 3 Opus 在 10 項人工智能基準測試中超越了 GPT-4,這些測試包括 MMLU(大學本科生水平的知識)、GSM8K(小學數學)、HumanEval(編碼)以及被稱為 HellaSwag 的彩色常識測試。在這些測試中,Opus 的勝出率有的非常接近,如在 MMLU 測試中 Opus 的 86.8%對 GPT-4 的 86.4%,而有的差距則較大,如在 HumanEval 測試中 Opus 的 84.9%對 GPT-4 的 67.0%。然而,這些成績對客戶來說具體意味著什么,目前還不太明確。
人工智能領域學者西蒙-威利森(Simon Willison)在接受《Ars》采訪時談到,「Claude 3 在基準測試中的表現并不能說明這個模型的使用體驗是超越以往人工智能模型的,但這仍然是一件大事——沒有其他模型能像這樣在一系列廣泛的基準測試中擊敗 GPT-4。」
2. 更優(yōu)秀的視覺功能
與前代產品相比,Claude 3 型號在分析、預測、內容創(chuàng)建、代碼生成和多語言對話等方面都比 Claude 2 有所改進。同時,這些模型還具有強大的視覺功能,可以處理照片、圖表和圖解等可視化格式,類似于 GPT-4V(ChatGPT 的訂閱版本)和谷歌的 Gemini。
Anthropic 公司強調,與前幾代產品和競爭對手相比,Claude 3 的三個模型在速度和成本效益方面都有顯著提升,與之而來的是高定價。能力最強的 Claude 3 Opus 比 GPT-4 Turbo 要貴得多:GPT-4 Turbo 每百萬 token 輸入/輸出收費為 10/30 美元 ;而 Claude 3 Opus 為 15/75 美元。Claude 3 Sonnet 則是 3 美元/15 美元,Claude 3 Haiku 是 0.25 美元/1.25 美元。
當被問及對 Claude 3 性能的看法時,威利森表示他還沒有親身體驗,但各種型號的 API 定價已經引起了他的注意。威利森說:「尚未發(fā)布的最便宜型號看起來非常有競爭力。而性能最好的型號則非常昂貴。」
3. 更好的長上下文和近乎完美的召回能力
Claude3 也延續(xù)了長上下文窗口的強項,其初始階段支持 200K token 上下文窗口,Anthropic 考慮為需要更大上下文窗口的特定客戶開放 100 萬 token 的輸入。在 200K token 的「大海撈針」(NIAH)測試中,Claude 3 Opus 準確率超過 99%。
Claude 3 型號據說可以為定制客戶處理多達 100 萬個 token(類似于 Gemini Pro 1.5),Anthropic 聲稱 Opus 型號在一個基準測試中,在如此大的上下文規(guī)模下實現了近乎完美的召回率,準確率超過 99%。此外,該公司還表示,Claude 3 模型不太可能拒絕無害的提示,并在減少錯誤答案的同時表現出更高的準確性。
Anthropic 計劃在未來幾個月內持續(xù)發(fā)布 Claude 3 模型系列的更新,以及工具使用、交互式編碼和「高級代理能力」等新功能。該公司表示,它將繼續(xù)致力于確保安全措施與人工智能性能的進步保持同步,Claude 3 型號「目前帶來災難性風險的可能性微乎其微」。
Opus 和 Sonnet 模型現在可以通過 Anthropic 的 API 獲得,Haiku 也將很快推出。Sonnet 也可以通過亞馬遜 Bedrock 訪問,并在谷歌云的 Vertex AI Model Garden 上進行私人預覽。
二、只看「跑分成績」就夠了嗎?
在 Anthropic 的技術報告中提到,團隊增添了一項更具人性化的實踐環(huán)節(jié),邀請了金融、法律、醫(yī)學和哲學等領域的專家與 Claude 3 進行一對一的問答對話,并在對話結束后由這些專家對模型的表現進行評分。結果顯示,與之前的幾代 Claude 模型相比,新模型在性能上取得了顯著的進步。
此外,Anthropic 于社交媒體平臺分享了三個應用 demo,分別展示了 Claude 3 Opus 扮演經濟分析師,Claude 3 Haiku 轉換數據,以及 Claude 3 Sonnet 作為語言學習伙伴的使用過程和使用結果。
(視頻地址:https://www.youtube.com/watch?v=sjL6Gl6ZIqs)
(視頻地址:https://www.youtube.com/watch?v=UdMdFE36dog)
(視頻地址:https://www.youtube.com/watch?v=JTLLe6_6opk)
例如,向 Claude 3 Opus 展示一張描繪了美國過去二十多年 GDP 變化的圖表,并要求它預測未來幾年美國經濟的可能趨勢。在短短幾秒鐘內,它不僅迅速生成了預測結果,還提供了多種不同的經濟走向預測。
三、越來越強的基礎模型能力,對教育行業(yè)意味著什么?
在探索人工智能的未來時,Claude 3 模型家族的推出無疑是一個重要的里程碑。近年來,西方發(fā)達國家的一些工業(yè)界和學術界人士聲稱:人工智能將在未來十年提高效率一千倍,就是效率百分之十萬的提高。而且,任何一個企業(yè)和組織在未來十年的年均效益提升如果低于 20%,將大概率落后甚至被淘汰。因此,當智能技術成熟和普及之后,相對于新的社會知識基礎設施,屆時何謂知識?如何樹人?教育如何實現「AI+」的縱深發(fā)展?
1. 人機共生時代,教育大模型的機會長存
以通用大模型為基礎、以垂直行業(yè)為主體的大模型發(fā)展模式初現,并在多個重點領域快速發(fā)展。無論是專注人工智能搜索的 PerplexityAI,還是基于 GPT-4 技術的法律人工智能工具 Harvey,抑或是基于 ChatGPT 做藥物研發(fā)的平臺……他們的出現都揭示一個道理——應用場景至關重要。
AI 伴學、編程教育、語言教學……教育行業(yè)有垂類大模型應用有待開發(fā)。例如:
- 智能教育助手:通過語音或文本與學生進行交互,提供個性化的學習建議和答疑解惑;
- 智能作文批改助手:分析學生的語法、拼寫、邏輯和表達能力,對學生的作文進行自動評估和批改;
- 虛擬實驗室模型:通過虛擬現實和模擬技術,提供真實的實驗環(huán)境和體驗,提高學生實驗技能和科學思維能力;
- 智能學習評估模型:通過分析學生的學習行為和表現,進行自動化的學習評估和反饋;
- 智能導師模型:模擬人類導師的角色,與學生進行一對一的互動和輔導,針對學生的問題和需求,提供詳細的解答和指導……
2. 「后真相」時代,辨別力尤為重要
人工智能時代給教育最大挑戰(zhàn),是如何在人機共生環(huán)境下培養(yǎng)學生自己發(fā)現問題、自己組織信息、形成自我認知能力。技術允許人們搜索和獲取的知識越多,對知識的深刻理解與處理模棱兩可信息的能力就越重要。
在「后真相」時代,那些看似正確但實際上缺乏證據的斷言往往會被誤認為是事實。算法通過構建基于我們興趣的「社交媒體回聲室」,加強了這些觀點的影響力,使我們與那些可能挑戰(zhàn)我們信仰的相反觀點保持距離。
未來教育改革的方向應當是培養(yǎng)學生的高階思維能力,而非僅僅關注基礎技能。無論是學生還是教師,未來所需的能力將超越職業(yè)技能和文本模式知識,他們還需要具備評估和運用自動化工具所需的計算思維、創(chuàng)造性思維以及批判性思維。
3. 智能教育,實現以人為核心的「AI+」
從長期趨勢看,各行各業(yè)對掌握人工智能基本技能的人力需求正急劇增長,加強人工智能領域人才培養(yǎng),將成為我國產業(yè)持續(xù)升級的關鍵因素。
就在今年的兩會,全國人大代表、小米集團董事長兼 CEO 雷軍也帶來了《關于加強培養(yǎng)人工智能人才滿足科技變革需求的建議》,他建議將人工智能納入教育培養(yǎng)體系,一方面從義務教育階段普及人工智能素養(yǎng)教育,九年義務教育階段設置人工智能通識課程,同時將相關內容納入中小學社會實踐活動;另一方面大力推進高校人工智能相關專業(yè)的建設,加大對高校人工智能學科建設的投入,加強與世界一流科研機構的合作交流,擴大教學力量,拓展更多專業(yè),提供實習實踐機會,培養(yǎng)理論與實踐相融合的綜合型人才。
此外,雷軍還提出,鼓勵大型科技企業(yè)和社會教培機構開展人工智能應用型人才培訓,以適應人工智能領域技術快速迭代、人才需求量大、應用廣泛的特征。結合人工智能人才的供需情況,靈活培養(yǎng)多元化人工智能人才,滿足當前各領域對人工智能應用型需求。
從教育垂類大模型研發(fā),到教育目標更新,再到推動智能教育,在通用模型越來越強的當下,教育行業(yè)的發(fā)展關鍵便是找到小切口,推動「AI+」的縱深發(fā)展。
作者:多鯨編譯
來源公眾號:多鯨(ID:DJEDUINNO),產業(yè)視角下的教育行業(yè)研究。
本文由人人都是產品經理合作媒體@多鯨 授權發(fā)布,未經許可,禁止轉載。
題圖來自 Unsplash,基于CC0協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!