奇米超碰,男男激情网站,少妇无码免费专区,九色视频老

<i id="5l71z"></i>

<ol id="5l71z"></ol>

<menu id="5l71z"></menu>

元宇宙
Blockchain
Blockchain資訊
DeepSeek新模型大揭秘：為何它能震動(dòng)全球AI圈

DeepSeek新模型大揭秘：為何它能震動(dòng)全球AI圈

2025年1月27日 20:41

作者：郝博陽(yáng)；來(lái)源：騰訊科技

本文關(guān)注DeepSeek-R1在技術(shù)上最重要的突破——用純深度學(xué)習(xí)的方法讓AI自發(fā)涌現(xiàn)出推理能力。這一研究可能會(huì)對(duì)模型推理訓(xùn)練后續(xù)的范式產(chǎn)生深刻影響。

時(shí)隔不到一個(gè)月，DeepSeek又一次震動(dòng)全球AI圈。

去年12月，DeepSeek推出的DeepSeek-V3在全球AI領(lǐng)域掀起了巨大的波瀾，它以極低的訓(xùn)練成本，實(shí)現(xiàn)了與GPT-4o和ClaudeSonnet3.5等頂尖模型相媲美的性能，震驚了業(yè)界。

騰訊科技曾對(duì)此模型進(jìn)行深度解讀，用最簡(jiǎn)單直白的語(yǔ)言闡釋其實(shí)現(xiàn)低成本和高效能的技術(shù)背景（點(diǎn)擊可查看）。

和上次不同的是，這次推出的新模型DeepSeek-R1不僅成本低，更是在技術(shù)上有了大福提升。

而且，它還是一個(gè)開(kāi)源模型。

這款新模型延續(xù)了其高性?xún)r(jià)比的優(yōu)勢(shì)，僅用十分之一的成本就達(dá)到了GPT-o1級(jí)別的表現(xiàn)。

所以，很多業(yè)內(nèi)人士甚至喊出了“DeepSeek接班OpenAI”的口號(hào)。

比如，前MetaAI工作人員、知名AI論文推特作者Elvis就強(qiáng)調(diào)，DeepSeek-R1的論文堪稱(chēng)瑰寶，因?yàn)樗剿髁颂嵘笳Z(yǔ)言模型推理能力的多種方法，并發(fā)現(xiàn)了其中更明確的涌現(xiàn)特性。

JimFan甚至認(rèn)為，它們做了OpenAI本來(lái)應(yīng)該做的事，開(kāi)源。

傳統(tǒng)的模型訓(xùn)練路徑

但DeepSeek-R1-Zero選擇了一條前所未有的路徑“純”強(qiáng)化學(xué)習(xí)路徑，它完全拋開(kāi)了預(yù)設(shè)的思維鏈模板（ChainofThought）和監(jiān)督式微調(diào)（SFT），僅依靠簡(jiǎn)單的獎(jiǎng)懲信號(hào)來(lái)優(yōu)化模型行為。

這就像讓一個(gè)天才兒童在沒(méi)有任何范例和指導(dǎo)的情況下，純粹通過(guò)不斷嘗試和獲得反饋來(lái)學(xué)習(xí)解題。

DeepSeek-R1-Zero有的只是一套最簡(jiǎn)單的獎(jiǎng)勵(lì)系統(tǒng)，來(lái)激發(fā)AI的推理能力。

這個(gè)規(guī)則就兩條：

1. 準(zhǔn)確性獎(jiǎng)勵(lì)：準(zhǔn)確性獎(jiǎng)勵(lì)模型評(píng)估響應(yīng)是否正確。對(duì)了就加分，錯(cuò)了扣分。評(píng)價(jià)方法也很簡(jiǎn)單：例如，在具有確定性結(jié)果的數(shù)學(xué)問(wèn)題中，模型需要以指定格式（如和間）提供最終答案；對(duì)于編程問(wèn)題，可以使用編譯器根據(jù)預(yù)定義的測(cè)試用例生成反饋。

2. 格式獎(jiǎng)勵(lì)：格式獎(jiǎng)勵(lì)模型強(qiáng)制要求模型將其思考過(guò)程置于和標(biāo)簽之間。沒(méi)這么做就扣分，做了就加分。

為了準(zhǔn)確觀察模型在強(qiáng)化學(xué)習(xí)（RL）過(guò)程中的自然進(jìn)展，DeepSeek甚至有意將系統(tǒng)提示詞僅約束限制在這種結(jié)構(gòu)格式上，來(lái)避免任何內(nèi)容特定的偏見(jiàn)——例如強(qiáng)制讓模型進(jìn)行反思性推理或推廣特定的問(wèn)題解決策略。

這種頓悟往往是模型思維能力躍升的時(shí)刻。

因?yàn)楦鶕?jù)DeepSeek的研究，模型的進(jìn)步并非均勻漸進(jìn)的。在強(qiáng)化學(xué)習(xí)過(guò)程中，響應(yīng)長(zhǎng)度會(huì)出現(xiàn)突然的顯著增長(zhǎng)，這些"跳躍點(diǎn)"往往伴隨著解題策略的質(zhì)變。這種模式酷似人類(lèi)在長(zhǎng)期思考后的突然頓悟，暗示著某種深層的認(rèn)知突破。

最有說(shuō)服力的或許是模型展現(xiàn)出的遷移學(xué)習(xí)能力。在完全不同的編程競(jìng)賽平臺(tái)Codeforces上，R1-Zero達(dá)到了超過(guò)96.3%人類(lèi)選手的水平。這種跨域表現(xiàn)表明，模型不是在死記硬背特定領(lǐng)域的解題技巧，而是掌握了某種普適的推理能力。一個(gè)聰明，但口齒不清的天才

盡管R1-Zero展現(xiàn)出了驚人的推理能力，但研究者們很快發(fā)現(xiàn)了一個(gè)嚴(yán)重的問(wèn)題：它的思維過(guò)程往往難以被人類(lèi)理解。

論文坦誠(chéng)地指出，這個(gè)純強(qiáng)化學(xué)習(xí)訓(xùn)練出來(lái)的模型存在"poorreadability"（可讀性差）和"languagemixing"（語(yǔ)言混雜）的問(wèn)題。

這個(gè)現(xiàn)象其實(shí)很好理解：R1-Zero完全通過(guò)獎(jiǎng)懲信號(hào)來(lái)優(yōu)化其行為，沒(méi)有任何人類(lèi)示范的"標(biāo)準(zhǔn)答案"作為參考。就像一個(gè)天才兒童自創(chuàng)了一套解題方法，雖然屢試不爽，但向別人解釋時(shí)卻語(yǔ)無(wú)倫次。它在解題過(guò)程中可能同時(shí)使用多種語(yǔ)言，或者發(fā)展出了某種特殊的表達(dá)方式，這些都讓其推理過(guò)程難以被追蹤和理解。

正是為了解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)開(kāi)發(fā)了改進(jìn)版本DeepSeek-R1。通過(guò)引入更傳統(tǒng)的"cold-startdata"（冷啟動(dòng)數(shù)據(jù)）和多階段訓(xùn)練流程，R1不僅保持了強(qiáng)大的推理能力，還學(xué)會(huì)了用人類(lèi)易懂的方式表達(dá)思維過(guò)程。這就像給那個(gè)天才兒童配了一個(gè)溝通教練，教會(huì)他如何清晰地表達(dá)自己的想法。

在這一調(diào)教下之后，DeepSeek-R1展現(xiàn)出了與OpenAIo1相當(dāng)甚至在某些方面更優(yōu)的性能。在MATH基準(zhǔn)測(cè)試上，R1達(dá)到了77.5%的準(zhǔn)確率，與o1的77.3%相近；在更具挑戰(zhàn)性的AIME2024上，R1的準(zhǔn)確率達(dá)到71.3%，超過(guò)了o1的71.0%。在代碼領(lǐng)域，R1在Codeforces評(píng)測(cè)中達(dá)到了2441分的水平，高于96.3%的人類(lèi)參與者。

然而，DeepSeek-R1Zero的潛力似乎更大。它在AIME2024測(cè)試中使用多數(shù)投票機(jī)制時(shí)達(dá)到的86.7%準(zhǔn)確率——這個(gè)成績(jī)甚至超過(guò)了OpenAI的o1-0912。這種"多次嘗試會(huì)變得更準(zhǔn)確"的特征，暗示R1-Zero可能掌握了某種基礎(chǔ)的推理框架，而不是簡(jiǎn)單地記憶解題模式。

論文數(shù)據(jù)顯示，從MATH-500到AIME，再到GSM8K，模型表現(xiàn)出穩(wěn)定的跨域性能，特別是在需要?jiǎng)?chuàng)造性思維的復(fù)雜問(wèn)題上。這種廣譜性能提示R1-Zero可能確實(shí)培養(yǎng)出了某種基礎(chǔ)的推理能力，這與傳統(tǒng)的特定任務(wù)優(yōu)化模型形成鮮明對(duì)比。

所以，雖然口齒不清，但也許DeepSeek-R1-Zero才是真正理解了推理的“天才”。純粹強(qiáng)化學(xué)習(xí)，也許才是通向AGI的意外捷徑

之所以DeepSeek-R1的發(fā)布讓圈內(nèi)人的焦點(diǎn)都投向了純強(qiáng)化學(xué)習(xí)方法，因?yàn)樗耆梢哉f(shuō)得上是打開(kāi)了AI進(jìn)化的一條新路徑。

R1-Zero——這個(gè)完全通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練出來(lái)的AI模型，展現(xiàn)出了令人驚訝的通用推理能力。它不僅在數(shù)學(xué)競(jìng)賽中取得了驚人成績(jī)。

更重要的是，R1-Zero不僅是在模仿思考，而是真正發(fā)展出了某種形式的推理能力。

因?yàn)樵谶^(guò)往的訓(xùn)練方法中，尤其在監(jiān)督微調(diào)中使用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)來(lái)評(píng)估質(zhì)量的話(huà)，模型可能學(xué)會(huì)觸發(fā)獎(jiǎng)勵(lì)模型的特定模式，生成對(duì)獎(jiǎng)勵(lì)模型"口味"的內(nèi)容，而不是真正提升推理能力。換句話(huà)說(shuō)，AI系統(tǒng)找到了獲得高獎(jiǎng)勵(lì)但實(shí)際上違背訓(xùn)練目標(biāo)的投機(jī)取巧方式。這就是我們常說(shuō)的獎(jiǎng)勵(lì)欺騙（rewardhacking）。但R1-Zero用極簡(jiǎn)的獎(jiǎng)勵(lì)規(guī)則基本避免了獎(jiǎng)勵(lì)欺騙的可能性——規(guī)則太簡(jiǎn)單了，沒(méi)有什么“口味”可以去模仿。模型在這個(gè)情況下發(fā)展出的推理能力更可信，也更自然。

這個(gè)發(fā)現(xiàn)可能會(huì)改變我們對(duì)機(jī)器學(xué)習(xí)的認(rèn)識(shí)：傳統(tǒng)的AI訓(xùn)練方法可能一直在重復(fù)一個(gè)根本性的錯(cuò)誤，我們太專(zhuān)注于讓AI模仿人類(lèi)的思維方式了，業(yè)界需要重新思考監(jiān)督學(xué)習(xí)在AI發(fā)展中的角色。通過(guò)純粹的強(qiáng)化學(xué)習(xí)，AI系統(tǒng)似乎能夠發(fā)展出更原生的問(wèn)題解決能力，而不是被限制在預(yù)設(shè)的解決方案框架內(nèi)。

雖然R1-Zero在輸出可讀性上存在明顯缺陷，但這個(gè)"缺陷"本身可能恰恰印證了其思維方式的獨(dú)特性。就像一個(gè)天才兒童發(fā)明了自己的解題方法，卻難以用常規(guī)語(yǔ)言解釋一樣。這提示我們：真正的通用人工智能可能需要完全不同于人類(lèi)的認(rèn)知方式。

這才是真正的強(qiáng)化學(xué)習(xí)。就像著名教育家皮亞杰的理論：真正的理解來(lái)自于主動(dòng)建構(gòu)，而不是被動(dòng)接受。

免責(zé)聲明:DeepSeek新模型大揭秘：為何它能震動(dòng)全球AI圈文章轉(zhuǎn)發(fā)自互聯(lián)網(wǎng)，版權(quán)歸其所有。
文章內(nèi)容不代表本站立場(chǎng)和任何投資暗示。加密貨幣市場(chǎng)極其波動(dòng)，風(fēng)險(xiǎn)很高，可能不適合所有投資者。在投資加密貨幣之前，請(qǐng)確保自己充分了解市場(chǎng)和投資的風(fēng)險(xiǎn)，并考慮自己的財(cái)務(wù)狀況和風(fēng)險(xiǎn)承受能力。此外，請(qǐng)遵循您所在國(guó)家的法律法規(guī)，以及遵守交易所和錢(qián)包提供商的規(guī)定。對(duì)于任何因使用加密貨幣所造成的投資損失或其他損失，本站不承擔(dān)任何責(zé)任。

Copyright © 2021.Company 元宇宙YITB.COM All rights reserved.元宇宙YITB.COM

日韩一区不卡| 亚洲砖区区免费| 慈溪市| 91神马久久| 少妇性爱30P| 天天色熟女| 国产av一区二区三区| 日本真人xXX在线看| 久久精品中文骚婦内射高清| 久久国产经典| 国产乱人伦偷精品视频免| 粉嫩在线| 四虎wa| 精品内射66偷拍| 无码少妇久久精品| 99国内精品久久久久久久软件| 爽妇女网S| 91最新福利| 欧美,。一级黄片| 伊人久久婷婷色综合98网| 巨大黑人极品VIDEOS精品| 国产大学生无码一区二区| 男人天堂无码在线| 少妇se| 国产精品国产三级国产aⅤ下载| 亚洲AV无码之日韩精品| 午夜福利无码视频免费看| A级成人免费毛片视频| 国产精品熟女亚洲AV| 亚日欧韩久久久| 欧美亚洲国产精品有字幕| 国产精品久在线观看| 欧美美丽少妇xxxx| 欧洲一码二码三码乱码| 久久精品波多野结衣中文字幕| 国产精品婷婷| 久久r视频综合| 97人人做人人添人人爱| 福利写真视频一区二区| 国产精品特级露脸视频| 亚洲精品无码喷白浆|

<center id="wtuzo"><legend id="wtuzo"></legend></center>

<mark id="wtuzo"><table id="wtuzo"></table></mark>