信任下滑!Salesforce因大模型 “幻覺”問題,已縮減使用 | T Insights

大模型多重缺陷暴露。
過去一年,Salesforce首席執行官馬克·貝尼奧夫(Marc Benioff)一直大力推廣公司的核心AI產品Agentforce,宣稱它能幫企業借助大型語言模型(LLM)實現工作自動化,從而節省開支。
然而最近,Salesforce高管卻向客戶傳遞了截然不同的信息:Agentforce在不那么依賴LLM(即生成式AI技術)時,有時表現會更好。
產品營銷高級副總裁Sanjna Parulekar表示,Salesforce已在Agentforce中采用了基礎的“確定性”自動化形式,以提升軟件的可靠性。這意味著它會根據預設指令做出決策,而非像AI模型那樣依賴推理和解讀。
從力捧到克制,LLM暴露多重痛點
“一年前,我們大家對LLM的信任度都更高,”她說。
該公司官網目前寫道,Agentforce能夠幫助消除LLM固有的隨機性,確保關鍵業務流程每次都嚴格遵循相同步驟。
盡管這一調整避免了聊天機器人等AI產品出現行為失控的情況,但也導致它們有時無法理解客戶問題背后的語境與深層訴求,或像ChatGPT那樣對復雜問題給出全面答案。
作為最具價值的軟件公司之一,Salesforce對LLM的部分回調可能會影響數千家使用該技術的企業。
源自OpenAI、Anthropic等AI提供商的LLM,能實現多場景自動化 —— 覆蓋軟件工程、數據分析、金融,再到營銷、銷售、客戶服務等領域。
雖然許多大型企業已發現LLM的實用價值,但要將其轉化為能處理多步驟任務的可靠AI代理,它們仍面臨諸多技術、財務和組織層面的挑戰。

大型語言模型(LLM)的工作機制與現存缺陷(圖片來源:YouTube@AndrejKarpathy)
一些企業發現,很難阻止LLM在回答中出現不當行為或做出錯誤猜測。
這對于需要精準處理的任務來說是個大問題,比如庫存跟蹤或客戶退款申請處理,否則可能導致糟糕的商業決策,引發員工或客戶不滿。
Salesforce在AI營銷方式上經歷了重大轉變——貝尼奧夫曾稱該產品的部署易如反掌。
例如,今年部分Agentforce客戶遭遇了被稱為“幻覺”的技術故障,不過公司表示產品正在快速優化完善。
作為少數披露AI專項收入的大公司之一,Salesforce稱Agentforce目前的年度收入有望突破5億美元。
確定性觸發機制
許多客戶需要AI提供商提供大量指導才能讓技術正常運行,部分客戶還對其運行成本頗有怨言。
Agentforce代理每處理一次對話收費2美元,此外公司還推出了預購積分、按實際使用量結算的付費方案。
Agentforce首席技術官Muralidhar Krishnaprasad表示,采用更基礎的自動化形式(比如為計算機編寫確定性指令,俗稱“如果A則B”的邏輯語句),降低了Agentforce的運營成本,也降低了客戶使用成本。

Agentforce的使用界面(圖片來源:Salesforce官網)
“如果給LLM下達超過8條左右的指令,它就可能開始遺漏指令,這可不是什么好事,”他說。
“有些環節需要絕對的確定性,我們沒必要為此浪費令牌……這不僅能節省LLM的使用成本,更重要的是能確保用戶得到準確答案。”
家庭安防公司Vivint的工程高級副總裁瑞安·吉表示,該公司此前嘗試自行開發AI聊天機器人未果,于去年開始使用Agentforce為250萬客戶提供客服支持。
Vivint在使用Agentforce初期遇到了一些問題,產品并非100%可靠。
例如,Vivint曾要求Agentforce在每次客戶互動結束后發送滿意度調查,但有時AI會無故不發送調查,具體原因始終不明。
他說,Vivint與Salesforce合作,在Agentforce中設置了“確定性觸發機制”,確保每次都能發出調查。
Salesforce另一高管菲爾·梅在10月的一篇博客中表示,公司已開發出Agentforce Script系統,通過識別哪些任務或任務環節可由不使用LLM的“代理”處理,來最大限度降低LLM的“不可預測性”。

Agentforce Script關鍵功能(圖片來源:YouTube@SalesforceDevs)
梅指出,Salesforce最資深客戶正受AI“偏移”問題困擾——當用戶提出無關問題時,代理會偏離預設目標。
比如,原本用于引導客戶填寫表單的AI聊天機器人,在客戶詢問與表單無關的問題時就會“分心”。
目前,Agentforce Script仍處于測試階段。
LLM縮減背后,是優化還是妥協?
Salesforce在營銷Agentforce時,著重強調了該產品如何改變了公司自身的運營。
例如,貝尼奧夫曾表示,部分依賴OpenAI LLM的Agentforce如今已承接了Salesforce的大部分客戶服務咨詢,幫助公司裁減了約4000名客服崗位。
然而,近幾個月來,Salesforce似乎減少了其Agentforce驅動的客服代理對LLM的使用。
比如上周,該公司在回應一項關于Agentforce技術問題的求助時,僅提供了一系列博客文章鏈接,而非詢問更多信息或就可能的問題進行溝通。
且列表中的第一個博客鏈接涉及今年6月影響Agentforce及其他多款Salesforce產品的一次宕機事件,對當前遇到問題的客戶來說幾乎沒有參考價值。
這樣的回應與多年來企業使用基礎聊天機器人處理客戶或網站訪客咨詢的方式頗為相似。
Salesforce發言人否認了公司為客服代理縮減LLM使用的說法。
他表示,針對客服代理,公司今年“優化了主題結構,加強了安全防護機制,提升了信息檢索質量,并優化了回應邏輯,使其更具體、更貼合語境、更符合客戶實際需求。
我們現在還擁有了更完善的可觀測性和反饋循環,能快速發現代理回應過于寬泛、偏離主題或表述不清的地方,并迅速迭代改進。
因此,從提供通用答案到給出結構化、針對性回應的轉變,完全是有意為之,也是優化代理的必要過程。”
該發言人補充道,客服代理“解決的客戶問題比以往任何時候都多”,預計在1月底結束的財年中,已解決的對話數量將增長90%。
“我們在客服場景中使用LLM的方式和場景上變得更加審慎,”他說。
對于其他AI提供商而言,LLM也被證明難以駕馭,它們常常偏離預設用途。例如,本月早些時候,由企業AI初創公司Sierra提供技術支持的蓋璞(Gap Inc.)聊天機器人,竟回答了有關情趣用品等敏感問題。
Sierra表示,已修復蓋璞聊天機器人的配置漏洞,并指出有“惡意分子”蓄意濫用該聊天機器人。
編輯:楊鷺婕
參考來源:The Information
END
原文標題 : 信任下滑!Salesforce因大模型 “幻覺”問題,已縮減使用 | T Insights
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 特斯拉Optimus Gen3量產在即,哪些環節最具確定性?
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 4 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 5 Tesla AI5芯片最新進展總結
- 6 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 7 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 8 2026,人形機器人只贏了面子
- 9 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 10 AI Infra產業鏈卡在哪里了?


分享













