久九九久福利精品视频视频,99视频在线精品国自产拍,日韩精品亚洲日韩精品一区,精品免费观看-国产

<td id="noycl"><tbody id="noycl"></tbody></td>
<address id="noycl"></address>

    1. <th id="noycl"></th>
      <small id="noycl"></small>
    2. <legend id="noycl"><strong id="noycl"></strong></legend>
        首頁 > 新聞中心 > 城市新聞 > 上海 > 正文

        DeepSeek幻覺率達21%,今年WAIC研究勸退“一本正經胡說八道”

        文章來源:上觀新聞
        字體:
        發(fā)布時間:2025-07-28 09:13:25
          《新江南網》江南區(qū)域知名綜合門戶網站!
         追蹤網絡熱點,關注民生動態(tài),傳播江南文化,倡導網絡新時代!
        http://dasenanqing.com/歡迎您! 

        ☆ 新江南網 ☆歡迎您 

        愛江南,愛生活!歡迎訪問新江南網:dasenanqing.com

        2025年世界人工智能大會各大論壇的議題中,“安全治理”幾乎是繞不開的話題。記者在采訪中發(fā)現,“AI確定性”也常常被人提及。xov新江南網|江南區(qū)域知名綜合門戶網

        特別是DeepSeek-R1的橫空出世,給業(yè)界帶來震撼的同時,也引發(fā)了隱憂:推理能力越強,AI幻覺越高。在AI加速商業(yè)化落地的浪潮中,降低AI幻覺、提升輸出的確定性,已成為業(yè)界面臨的一道必答題。xov新江南網|江南區(qū)域知名綜合門戶網

        推理模型的幻覺更嚴重xov新江南網|江南區(qū)域知名綜合門戶網

        最近,一則“DeepSeek向王一博道歉”的消息沖上熱搜。而事實證明是,AI幻覺導致以訛傳訛,最終成了謠言。這無疑是AI時代的荒誕現實。xov新江南網|江南區(qū)域知名綜合門戶網

        所謂的AI幻覺,就是大模型在“一本正經地胡說八道”。中文通用大模型綜合性測評基準SuperCLUE的測評結果顯示,DeepSeek-R1模型幻覺率高達21.02%,遠遠低于豆包大模型的4.11%,也低于DeepSeek另一款大語言模型V3的13.83%。該測評結果還顯示,推理模型的幻覺比非推理模型更嚴重,推理模型平均幻覺率為22.95%,非推理模型的平均幻覺率為13.52%。xov新江南網|江南區(qū)域知名綜合門戶網

        xov新江南網|江南區(qū)域知名綜合門戶網

        或許是過高的幻覺率,勸退了很多用戶。第三方統(tǒng)計數據顯示,相較于年初,DeepSeek的月均下載量與使用率已大幅下降。xov新江南網|江南區(qū)域知名綜合門戶網

        DeepSeek也意識到這一問題。5月29日,DeepSeek在升級模型時,特意針對幻覺問題作出優(yōu)化。據官方文檔介紹,新版本模型在改寫潤色、總結摘要、閱讀理解等場景中,幻覺率降低 45%—50% ,輸出結果更為準確可靠。xov新江南網|江南區(qū)域知名綜合門戶網

        AI幻覺難以避免xov新江南網|江南區(qū)域知名綜合門戶網

        AI幻覺,本質上源于大模型的雙重技術局限:一是推理時編造內容,二是訓練數據不全。大模型只能靠訓練數據來理解世界,如果訓練數據漏掉了關鍵信息,或者有錯誤內容,大模型輸出的結果就容易出錯。xov新江南網|江南區(qū)域知名綜合門戶網

        遺憾的是,“愛編故事”是大模型的天生缺陷。拋開那些復雜的技術原理,大模型生成的內容,主要就靠“猜”——遇到沒學過的內容,會根據概率猜一個最可能的答案來補全,尤其是在回答開放性問題時,大模型常會編細節(jié)讓答案看起來更完整,即便這是一個錯誤的答案。xov新江南網|江南區(qū)域知名綜合門戶網

        另外,太多質量參差不齊的數據,也會讓大模型“犯迷糊”,這些數據很可能相互矛盾,訓練出來的大模型就容易說出前后矛盾或完全錯誤的話。xov新江南網|江南區(qū)域知名綜合門戶網

        但是,AI幻覺也并非洪水猛獸。很多人想不到的是,人類也會產生幻覺,甚至依賴幻覺做出決策。xov新江南網|江南區(qū)域知名綜合門戶網

        2025世界人工智能大會主論壇上,深度學習之父、2024年物理學諾獎得主杰弗里·辛頓語出驚人:人們理解語言的方式和大語言模型理解語言的方式幾乎一樣,人類有可能就是大語言模型,人類也會和大語言模型一樣產生幻覺。xov新江南網|江南區(qū)域知名綜合門戶網

        前不久,OpenAI的競爭對手Anthropic創(chuàng)始人公開表示,大模型產生幻覺的頻率可能比人類還低,只是它們出錯的方式經常出人意料。xov新江南網|江南區(qū)域知名綜合門戶網

        把“二次核查”權利交給用戶xov新江南網|江南區(qū)域知名綜合門戶網

        既然AI幻覺無法徹底消除,那么盡可能減少幻覺概率,成了大模型落地應用必須跨越的門檻。xov新江南網|江南區(qū)域知名綜合門戶網

        實踐證明,不斷優(yōu)化算法和構建可控信源,能有效降低AI幻覺的負面影響。例如,階躍星辰為大模型增加了“深入核查”的功能,保證模型輸出結果的可信性。xov新江南網|江南區(qū)域知名綜合門戶網

        階躍AI的“深入核查”功能。xov新江南網|江南區(qū)域知名綜合門戶網

        據階躍AI產品負責人陳男群告訴記者,“深入核查”能調用大模型自身的四種能力:強大的信息獲取引擎、交叉信源核查、信源權威性評估和提供引用來源。xov新江南網|江南區(qū)域知名綜合門戶網

        “階躍AI融合了各類搜索源和網頁信息解析工具,實時獲取互聯網上大量信息,以彌補信源不足的短板。同時還能追蹤事實陳述、數據引用等關鍵信息的來源,通過不同信息源進行交叉驗證。更關鍵的是,我們會盡可能找到一手的、具備權威性的專業(yè)信源,并讓模型理解不同信源渠道的可信度差異。”陳男群介紹,階躍AI的特別之處在于“不輸出‘事實’輸出證據”,不讓AI說“假、大、空”的定性結論,輸出內容的同時還提供多個引用來源、原始網頁、發(fā)布時間等詳細信息,為用戶提供“二次核查”的依據。xov新江南網|江南區(qū)域知名綜合門戶網

        據悉,階躍AI的“深入核查”獲取了2000多個優(yōu)質信源,文獻庫數量超過1000萬篇,試運行一周內就登上了海外AI產品榜單前十名,收到用戶正面反饋。xov新江南網|江南區(qū)域知名綜合門戶網

        愛江南,愛生活!歡迎訪問新江南網:dasenanqing.com
         

        聲明:
        本文僅代表作者個人觀點,與新江南網無關。其原創(chuàng)性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容,新江南網號系信息發(fā)布平臺,新江南網僅提供信息存儲空間服務。如有侵權請出示權屬憑證聯系管理員(yin040310@sina.com)刪除!

         

         

          匿名評論
        • 評論
        人參與,條評論