"產(chǎn)品評(píng)測(cè)"相關(guān)的文章
AI
AI產(chǎn)品經(jīng)理:如何評(píng)測(cè)模型的效果?建立目標(biāo),建立策略,推動(dòng)落地三步走!

AI產(chǎn)品經(jīng)理:如何評(píng)測(cè)模型的效果?建立目標(biāo),建立策略,推動(dòng)落地三步走!

大模型如同人一般有著不同 “性格”,比如 ChatGPT 像 “通才學(xué)霸”,Claude 似溫柔咨詢師。那為何要做模型效果評(píng)測(cè)?本文將詳細(xì)拆解模型評(píng)測(cè)的關(guān)鍵要點(diǎn)與實(shí)用方法,供大家參考。
AI,個(gè)人隨筆
大模型驅(qū)動(dòng)的產(chǎn)品評(píng)測(cè)方案(四):方法和工具

大模型驅(qū)動(dòng)的產(chǎn)品評(píng)測(cè)方案(四):方法和工具

隨著大模型能力的不斷演進(jìn),產(chǎn)品評(píng)測(cè)也進(jìn)入了“智能協(xié)同”新階段。本篇作為系列第四篇,將聚焦方法與工具的雙重升級(jí),系統(tǒng)梳理如何構(gòu)建可復(fù)用、可擴(kuò)展的大模型評(píng)測(cè)體系,為產(chǎn)品團(tuán)隊(duì)提供實(shí)操參考與認(rèn)知框架。
分析評(píng)測(cè)
美團(tuán)龍貓LongCat-Flash詳細(xì)報(bào)告

美團(tuán)龍貓LongCat-Flash詳細(xì)報(bào)告

LongCat-Flash 是美團(tuán)龍貓智能體體系中的關(guān)鍵一環(huán),承載著從任務(wù)執(zhí)行到系統(tǒng)協(xié)同的能力躍遷。本文將從架構(gòu)設(shè)計(jì)、能力演進(jìn)到落地場(chǎng)景,系統(tǒng)拆解 LongCat-Flash 的技術(shù)邏輯與產(chǎn)品價(jià)值,為理解企業(yè)級(jí)智能體的構(gòu)建路徑提供參考樣本。
業(yè)界動(dòng)態(tài)
大模型集體失智!9.11和9.9哪個(gè)大,幾乎全翻車了

大模型集體失智!9.11和9.9哪個(gè)大,幾乎全翻車了

最近,一個(gè)看似不言自明的問題——"9.11和9.9哪個(gè)大"——竟然讓眾多主流大模型紛紛"失智",給出了令人啼笑皆非的答案。從GPT-4o到谷歌Gemini,再到Claude 3.5 Sonnet,這些先進(jìn)的AI模型在這個(gè)問題上的表現(xiàn),不禁讓我們思考:在追求技術(shù)進(jìn)步的同時(shí),我們是否忽略了AI的"常識(shí)"教育?
你會(huì)用200萬字處理能力的AI做什么?

你會(huì)用200萬字處理能力的AI做什么?

自從生成式AI爆火之后,各個(gè)廠家都推出了自己的生成式AI產(chǎn)品。但大多數(shù)都是基于簡單的文字生成,少有處理文件和聯(lián)網(wǎng)的功能。前段時(shí)間Kimi Chat啟動(dòng)200萬字長文本的內(nèi)測(cè),經(jīng)過體驗(yàn)后,我有一些不一樣的心得。