
460萬美元訓練成本是真是假?K3何時發(fā)布?AGI還有多遠?楊植麟團隊一口氣回答了數(shù)十個問題。
最近AI圈又炸了!月之暗面的Kimi K2 Thinking模型一經(jīng)發(fā)布,就讓海外開發(fā)者社區(qū)徹底沸騰。
這款模型在Humanity's Last Exam、TAU-Bench等多項核心基準測試中超越了OpenAI的GPT-5和Anthropic的Claude Sonnet 4.5,而API調(diào)用價格遠低于兩者。
Hugging Face聯(lián)合創(chuàng)始人Thomas Wolf直接驚呼:"這是又一次DeepSeek式的輝煌時刻嗎?"

就在全球開發(fā)者熱議之際,北京時間11月11日凌晨,當國內(nèi)大部分人還在睡夢中時,月之暗面創(chuàng)始人楊植麟,以及聯(lián)合創(chuàng)始人周昕宇、吳育昕,在Reddit社群平臺進行了一場長達數(shù)小時的AMA(Ask Me Anything)問答。

這也是三位聯(lián)創(chuàng)首次共同露面,面對海外開發(fā)者的各種尖銳提問。
問答持續(xù)數(shù)小時,從460萬美元訓練成本傳聞到K3何時發(fā)布,從開源策略到行業(yè)競爭,從技術路徑到AGI時間表,楊植麟團隊一口氣回答了數(shù)十個問題。
460萬美元傳聞不實,真實成本難以量化
最受關注的問題莫過于傳聞中的460萬美元訓練成本。面對這個讓整個硅谷都震驚的數(shù)字,楊植麟直接回應:
"這不是官方數(shù)據(jù)。由于訓練成本中很大一部分是研究和實驗,所以很難量化具體數(shù)字。"

這一回應打破了業(yè)界對K2 Thinking"超低成本"的猜測。盡管具體數(shù)字未公布,但從技術實現(xiàn)來看,該模型確實在成本控制上有所突破:
K2 Thinking采用1萬億參數(shù)的混合專家架構,但每次推理僅激活320億參數(shù),并使用原生INT4量化技術,將推理速度提升約2倍。
在硬件配置方面,楊植麟透露團隊使用配備Infiniband的H800 GPU進行訓練。"雖然不如美國的高端GPU,我們在數(shù)量上也不占優(yōu)勢,但我們把每張顯卡的性能都榨取得淋漓盡致。"

據(jù)悉,K2 Thinking的API調(diào)用價格為每百萬token輸入1-4元,輸出16元,僅為GPT-5的四分之一,真正做到了性能與成本的完美平衡。
這種性價比優(yōu)勢,正在吸引越來越多的企業(yè)用戶從閉源模型轉(zhuǎn)向開源方案。
K2 Thinking過于“話癆”?專注Agent能力
面對眾多開發(fā)者關于K2 Thinking"過于話嘮"的質(zhì)疑,團隊給出了明確回應。

楊植麟表示:"當前版本中,我們更看重絕對性能而非token效率。后續(xù)會嘗試將效率納入獎勵機制,讓模型學會壓縮思考過程。"

這種設計理念反映了月之暗面的技術取舍:為了確保復雜任務的完成質(zhì)量,可以適當犧牲token效率。K2 Thinking能夠連續(xù)執(zhí)行200-300次工具調(diào)用來解決復雜問題,在"思考-工具-思考-工具"的交替模式中保持穩(wěn)定性。
開發(fā)過程中的最大挑戰(zhàn)
在技術實現(xiàn)上,團隊采用端到端智能體強化學習訓練方式,使模型在數(shù)百個步驟的工具調(diào)用以及包括檢索在內(nèi)的中間步驟中表現(xiàn)更佳。這種訓練方式的核心是讓AI模仿人類解決問題的過程,在反復迭代中逐步接近最優(yōu)解。
月之暗面聯(lián)合創(chuàng)始人吳育昕在回答中透露,支持交錯的"思考-工具-思考-工具"模式是開發(fā)過程中的主要挑戰(zhàn)之一,"這在LLM中是一種相對較新的行為,需要大量工作才能正確實現(xiàn)。"

K3什么時候發(fā)布?
當有網(wǎng)友問及K3的發(fā)布時間時,楊植麟給出了一個頗具幽默感的回答:
"在Sam(山姆·奧特曼)的萬億級數(shù)據(jù)中心建成之前。"

有人調(diào)侃:“所以,永遠等不到了,反正他永遠也搞不定那個爛尾工程?開個玩笑啦~”
為什么先推純文本模型?
對于多模態(tài)能力的發(fā)展,楊植麟表示:"訓練視覺語言模型需要時間獲取數(shù)據(jù)和調(diào)整訓練,所以我們決定先發(fā)布一個文本模型。"

AGI有那個范兒了
在開源動機方面,楊植麟給出了頗具理想主義色彩的回答:"我們擁抱開源,因為我們相信AGI應該是一種導致團結而不是分裂的追求。"

K2 Thinking采用Modified MIT許可證,在保留標準MIT許可證大部分自由的基礎上,添加了一項關鍵限制:當模型被用于超過一億月活用戶或2000萬美元月收入的商業(yè)產(chǎn)品時,需要注明使用了Kimi K2模型。
當被問及AGI時間線時,楊植麟給出了相對謹慎的回答:"AGI這件事很難定義,但大家已經(jīng)能感覺到那個范兒了,未來會有更多更強大的模型。"

是否會發(fā)布更大規(guī)模閉源模型?
對于是否會發(fā)布更大規(guī)模閉源模型的問題,楊植麟給出了一個耐人尋味的回答:"如果它變得太危險的話:)"

這既暗示了對模型安全性的考慮,也為未來的商業(yè)化策略留下了想象空間。
當前,K2 Thinking在發(fā)布后不到48小時內(nèi)下載量已超過5萬,成為Hugging Face最熱門的開源模型。
與DeepSeek的技術路徑分歧:OCR和KDA
面對不同技術路線的選擇,月之暗面團隊展現(xiàn)出了明確的技術偏好。對于DeepSeek近期備受關注的OCR路線,周昕宇表達了不同看法:
"我個人覺得這條路走得有點重了,我更傾向于繼續(xù)在特征空間里下功夫,去找到更通用、并且與具體模態(tài)無關的方法,來提升模型效率。"
在未來發(fā)展方向上,團隊透露KDA是他們最新的實驗性架構,相關理念很可能會應用于K3中。KDA采用3:1的比例將KDA和MLA路線混合,在傳統(tǒng)Transformer基礎上讓模型學會"抓重點信息",在性能、速度、顯存占用方面實現(xiàn)優(yōu)化。

楊植麟表示,團隊已內(nèi)部試驗Kimi Linear新結構(架構的核心是KDA,一種表達能力更強的線性注意力模塊),初步結果看起來有前景,并可進一步與稀疏化技術組合。

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據(jù)此投資,責任自負。
海量資訊、精準解讀,盡在新浪財經(jīng)APP
股票配資股票配資公司提示:文章來自網(wǎng)絡,不代表本站觀點。