半年多過去了,ChatGPT的排名快「墊底」了
今天,筆者無意中刷到一張圖片。
(資料圖)
據該圖片顯示,OpenAI的GPT-4在11個大模型中(*名序號為0),已經排到了最后。還有網友配上了“GPT4:我的冤屈怎么訴?”的字樣。
這不禁讓人好奇,今年年初,ChatGPT爆火以后,其他公司才開始提大模型的概念。
這才半年多,GPT就已經“墊底”了?
于是,筆者想看看GPT排名到底咋樣了。
01 測試時間不同,測試團隊不同,GPT-4排第十一
從前文中圖片上顯示的信息來看,這個排名是出自C-Eval榜單。
C-Eval榜單,全稱C-Eval全球大模型綜合性考試測試榜,是由清華大學、上海交通大學和愛丁堡大學合作構建的中文語言模型綜合性考試評估套件。
據悉,該套件覆蓋人文、社科、理工、其他專業四個大方向,包括52個學科,涵蓋微積分、線性代數等多個知識領域。共有13948道中文知識和推理型題目,難度分為中學、本科、研究生、職業等四個考試級別。
于是筆者查看了最新的C-Eval榜單。
C-Eval榜單的最新排名與前文中圖片所顯示的排名相符,排名前十一的大模型中,GPT-4排最后。
據C-Eval榜單介紹,這些結果代表zero-shot(零樣本學習)或者few-shot(少樣本學習)測試,但few-shot不一定比zero-shot效果好。
C-Eval表示,在其測試中發現許多經過指令微調之后的模型在zero-shot下更好。其測試的很多模型同時有zero-shot和few-shot的結果,排行榜中顯示了總平均分更好的那個設置。
C-Eval榜單還注明了,大模型名字中帶“*”的,表示該模型結果由C-Eval團隊測試得到,而其他結果是通過用戶提交獲得。
此外,筆者還注意到,這些大模型提交測試結果的時間有很大差別。
GPT-4的測試結果提交時間是5月15日,而位居榜首的云天書,提交時間為8月31日;排第二的Galaxy提交時間為8月23日;排第三的YaYi提交時間為9月4日。
并且,排名前16的這些大模型,只有GPT-4的名字加了“*”,是由C-Eval團隊測試的。
于是筆者又查看了完整的C-Eval榜單。
最新的C-Eval榜單一共收錄了66個大模型的排名。
其中,名字帶“*”,也就是由C-Eval團隊測試的,只有11個,且提交測試的時間均為5月15日。
這些由C-Eval團隊測試的大模型,OpenAI的GPT-4排第十一,ChatGPT排第三十六,而清華智譜AI的ChatGLM-6B排在第六十,復旦的MOSS排在了第六十四。
雖然這些排名可以看出國內的大模型發展勢頭的迅猛,但筆者認為,畢竟不是同一團隊在同一時間進行的測試,不足以完全證明這些大模型誰強誰弱。
這就好比,一個班的學生,每個人的考試時間不同,答的試卷也都不一樣,怎么能靠每個學生的分數比高低呢?
02 大模型開發者怎么說?多家表示在中文等能力上超過ChatGPT
最近,大模型的圈子相當熱鬧。
又是百度、字節等8家公司大模型產品通過了《生成式人工智能服務管理暫行辦法》備案,可正式上線面向公眾提供服務。又是其他公司相繼發布自家大模型產品。
那這些大模型的開發者又都是怎么介紹自家產品的呢?
7月7日,在2023世界人工智能大會“大模型時代的通用人工智能產業發展機遇以及風險”論壇上,復旦大學計算機科學技術學院教授、MOSS系統負責人邱錫鵬表示,復旦對話式大型語言模型MOSS在今年2月發布后,還在連續不停地迭代,“最新的MOSS已經能夠在中文能力上超過ChatGPT?!?/p>
7月底,網易有道上線翻譯大模型,網易有道CEO周楓公開表示,在內部的測試中,在中英互譯的方向上,已經超越ChatGPT的翻譯能力,也超過了谷歌翻譯的水準。
8月下旬,在2023年亞布力論壇夏季高峰會上,科大訊飛創始人、董事長劉慶峰發表演講時稱,“訊飛星火大模型的代碼生成和補齊能力已經超過了ChatGPT,其他各項能力正在快速追趕。當前代碼能力的邏輯、算法、方法體系、數據準備已就緒,所需要的就是時間和算力?!?/p>
商湯近期的新聞稿中稱,今年8月,新模型internlm-123b完成訓練,參數量提升至1230億。在全球51個知名評測集共計30萬道問題集合上,測試成績整體排名全球第二,超過gpt-3.5-turbo以及meta公司新發布的llama2-70b等模型。
據商湯介紹,internlm-123在主要評測中,有12項成績*。其中,在評測集綜合考試中的agieval分數為57.8,超越gpt-4位列*;知識問答commonsenseqa的評測分數為88.5,*;internlm-123b在閱讀理解的五項評測中成績全部居榜首。
此外,在推理的五項評測中成績*。
本月初,作業幫正式發布自研銀河大模型。
作業幫表示,銀河大模型在C-Eval、CMMLU兩大權威大語言模型評測基準的成績。數據顯示,作業幫銀河大模型以平均分73.7分位居C-Eval榜首;同時在CMMLU榜單Five-shot和Zero-shot測評中分別以平均分74.03分及73.85分位列*,成為*同時在上述兩大權威榜單平均分*的教育大模型。
昨天,百川智能宣布正式開源微調后的Baichuan 2-7B、Baichuan 2-13B、Baichuan 2-13B-Chat與其4bit量化版本。
百川智能創始人、CEO王小川稱,經過微調之后的Chat模型,在中文領域,在Q&A問答環境,或者摘要環境里面,評價它的實際性能已經超過ChatGPT-3.5這樣的閉源模型。
今天,在2023騰訊全球數字生態大會上,騰訊正式發布混元大模型。騰訊集團副總裁蔣杰稱,騰訊混元大模型中文能力已經超過GPT-3.5。
除了這些開發者的自我介紹,也有一些媒體和團隊對一種大模型進行評比。
8月上旬,清華大學新聞與傳播學院教授、博士生導師沈陽所在團隊發布了《大語言模型綜合性能評估報告》。報告顯示,百度文心一言在三大維度20項指標中綜合評分國內*,較優于ChatGPT,其中中文語義理解排名靠前,部分中文能力較優于GPT-4。
8月中旬,有媒體報道稱,8月11日,小米大模型MiLM-6B現身C-Eval、CMMLU大模型評測榜單。截至當前,MiLM-6B在C-Eval總榜單排名第10、同參數量級排名第1,在CMMLU中文向大模型排名第1。
8月12日,天津大學發布《大模型評測報告》。報告顯示,GPT-4和百度文心一言相較于其他模型綜合性能顯著*,兩者得分相差不大,處于同一水平。文心一言已經在大部分中文任務中實現了對ChatGPT的超越,并逐步縮小與GPT-4的差距。
8月下旬,有媒體報道稱,快手自研的大語言模型“快意”(KwaiYii)已開啟內測。在最新的CMMLU中文向排名中,快意的13B版本KwaiYii-13B同時位列five-shot和zero-shot下的*名,在人文學科、中國特定主題等方面較強,平均分超61分。
通過上述內容可以看出,這些大模型雖然紛紛號稱自己在某排名中居首,或者是在某某方面超越ChatGPT,但大多是在一些具體的領域表現優異。
另外,有一些綜合評分超過了GPT-3.5或GPT-4,但GPT的測試是停留在5月的,誰能保證這近3個月的時間里,GPT沒有進步呢?
03 OpenAI的處境
根據瑞銀集團2月的一份報告顯示,在ChatGPT推出僅兩個月后,它在2023年1月末的月活用戶已經突破了1億,成為史上用戶增長速度最快的消費級應用程序。
但ChatGPT的發展也不是那么順利。
今年7月,有不少GPT-4用戶吐槽,與之前的推理能力相比,GPT-4的性能有所下降。
有些用戶在推特以及OpenAI在線開發者論壇上指出了問題,集中于邏輯變弱、更多錯誤回答、無法跟蹤提供的信息、難以遵循指令、忘記在基本軟件代碼中添加括號,只能記得最近的提示等等。
8月,又有一份報告稱,OpenAi可能處于潛在的財務危機中,可能于2024年底破產。
報告中表示,OpenAI僅運行其人工智能服務ChatGPT每天就要花費約70萬美元。目前,該公司正試圖通過GPT-3.5和GPT-4實現盈利,但是還尚未產生足夠的收入實現收支平衡。
不過,OpenAI或許也有新的轉機。
日前,OpenAI宣布,將于11月舉辦首屆開發者大會。
雖然OpenAI表示不會發布GPT-5,但OpenAI稱將有來自世界各地的數百名開發人員與OpenAI團隊一起,提前一覽“新的工具”,并且交流想法。
這可能意味著,ChatGPT已經取得了新的進步。
另據澎湃新聞報道,8月30日,一位知情人士透露,通過銷售AI軟件和驅動其運行的計算能力,OpenAI預計將在未來12個月內實現超過10億美元的收入。
今天,又有媒體報道稱,本月晚些時候摩根士丹利將推出一款和OpenAI共同研發的生成式人工智能聊天機器人。
和摩根士丹利的銀行家打交道的人,非富即貴。如果這款即將推出的生成式人工智能聊天機器人能給摩根士丹的客戶帶來不同的體驗,對OpenAI來說,也許會是一個巨大的收獲。
人工智能時代的到來,已經勢不可擋。至于到底誰更勝一籌,不能光靠自己說,還得讓用戶來打分。我們也相信國內大模型一定會、一定能在各具體能力、綜合能力上趕超ChatGPT。
標簽:
您可能也感興趣:
為您推薦
軍隊抽組醫療力量承擔 武漢火神山醫院醫療救治任務
同馬來西亞總理馬哈蒂爾通電話 創造更多合作成果,造福兩國和兩國人民。
構筑起疫情防控的嚴密防線
排行
- 騰龍股份股東王柳芳減持302.01萬股 價格區間為14.81-15.90元/股
- 因個人資金需要 新泉股份實際控制人唐志華擬減持不超1124.54萬股
- 信捷電氣股東鄒駿宇減持50萬股 價格區間為60.41-67.50元/股
- 國家衛健委:湖北以30個省外新增病例17例
- 因自身資金需求 科森科技股東徐寧擬減持不超3.71萬股公司股份
- 中公高科股東潘玉利減持50萬股 價格區間為20-20.60元/股
- 多地患者治愈后“復陽” 對疫情防控提出新挑戰 五大焦點權威解析
- “精誠合作,打贏這一仗!”
- 生態環境部:自1月20日以來全國已累計處置醫療廢物12.3萬噸 ...
- 承諾兩年扭轉亂象 銀保監會加快推進意外險費率市場化改革 ...
精彩推送
- 減持中國制造的Lululemon,質量搖頭
- 半年多過去了,ChatGPT的排名快「墊底」了
- 未來職業速成班里,擠滿了「職場廢物」
- 日本高端泡面,被「補刀」了
- 華誼兄弟的不可能循環
- 每日匯市|創新低!離岸人民幣對美元匯率跌破7.35關口
- 安徽自貿試驗區蚌埠片區:帶動沿淮 輻射皖北 產業發展見成效
- 合肥市蜀山區榮獲“2023中國樓宇經濟創新生態示范城區”
- 安徽自貿試驗區蚌埠片區:帶動沿淮 輻射皖北 產業發展見成效
- 這誰能不累??!36歲梅西近1個多月一共踢了12場,1場沒輸!
- 成都入選新型顯示產業高質量發展十大城市
- 中央確定昆明為全國性中心城市,昭通玉溪曲靖等5大總部遷省會
- 君實生物(688180)2023年半年度報告點評:產品收入顯著增加 ...
- 醫藥研發百強榜,半年580億都花哪了
- 穩住《海賊王》真人劇的「三只桌腳」
- 蔚來想通了一半
- 「天津大爺」退出跳水,文旅部門如何承接長尾流量?
- 華熙生物嘴比業績硬,但依然說不清自己是誰
- 杭州晨星電力科技有限公司數顯繼電器(杭州晨星電力科技有限...
- 廣西羅城近5.6萬名脫貧勞動力外出務工穩增收
- 搭平臺推項目 讓民間資本“敢投、會投、能投”
- 長春入選!全國首批!東北第一!
- 新能源智能運維解決方案提供商「藍旭科技」完成數千萬元A輪融...
- 誰殺死了國貨彩妝?
- 投資界24h | 蘋果暴跌,兩日蒸發1900億美元;又一平價彩妝...
- 深圳北交所上市公司上半年營業收入增長27%
- “豫健”二十四節氣?白露丨露沾蔬草今夜白 “秋膘”科學“...
- 城鎮居民結余率:15城過半,僅46城在35%以下
- 城鄉收入差距:26城超3萬元,東北城鄉均衡發展
- 馬化騰還是急了
- 三個月融兩輪,膜科學平臺「關懷醫療」完成超億元C+輪融資
- 半年多過去了,ChatGPT的排名快「墊底」了
- 成本3至5元,半年開店1700多家,中式漢堡是門好生意嗎?
- 雷奧頂峰完成數千萬人民幣Pre-A輪融資,健壹資本領投
- 浙江省加快數字經濟健康發展研討班在義烏市舉辦
- 全省唯一!蜀山區榮獲“2023中國樓宇經濟創新生態示范城區”
- 金水區上榜中國樓宇經濟標桿城區十強 較去年提升兩個位次
- 出口開始回暖了嗎?光大宏觀:基數壓力開始緩解,外需下行壓...
- 河北數字經濟蓬勃發展
- 【每周經濟觀察】鼓勵引導民企用好政策創新工具
- 河北數字經濟蓬勃發展
- 金觀平:協同推進數字產業化和產業數字化
- 金水區上榜中國樓宇經濟標桿城區十強
- 豬價反彈疊加油價上漲!機構預計8月CPI回升
- 中國各省市的經濟實力究竟有何差距?
- 海關總署:前8月我國外貿進出口總值27.08萬億元
- 廣東整合助推經濟競爭力:五城GDP大漲
- 人民幣對土耳其里拉的匯率是多少?9月7日土耳其里拉匯率實時查詢
- 人民幣對盧布匯率是多少?9月7日盧布匯率實時查詢
- 人民幣對泰銖今日匯率多少?9月7日泰銖匯率實時查詢
- 人民幣對瑞典克朗匯率是多少?9月7日瑞典克朗匯率實時查詢
- 人民幣對韓元匯率是多少?9月7日韓元匯率實時查詢
- 廣東印發《促消費專項行動政策措施》對購買九大類家電給予補貼
- 2023中國百強縣:陜西上榜2席!
- 十城競爭“世界顯示之都”,合肥深圳成都三城暫時領先
- 山東省經濟發展的優勢和潛力
- 北京各區支柱產業結構差異及特點分析
- 服貿會釋放重要金融政策信號,廣東金融創新發展如何縱深推進?
- 我國已與29個國家建立雙邊電子商務合作機制
- 大鵬新區舉辦“躬耕教壇 強國有我”第39個教師節慶祝大會
- 以青春磅礴之力,寫新時代之答卷!深圳鵬城技師學院開學第一...
- 全國首批試點城市,長春入選
- 全球財經連線|全球環境科學家大會召開,共商全球環境治理
- 全球連線|國際人士熱議:中國仍是世界經濟“重要引擎”
- 中希航運金融研討會在希臘舉辦
- 當代年輕人:我不敢花錢,但也不想攢錢了
- 四大行明確存量首套住房貸款利率調整事項
- 8月末我國外匯儲備規模為31601億美元
- 大鵬新區葵涌街道舉辦2023年招商大會,“三大服務基地”揭牌亮相
- 南園小學“開學第一課”,點亮平安“開學季”
- 今年上半年廣東舉辦展覽會面積恢復,超過2019年同期水平
- 數據中看到發展 十年間我國金融業進一步擴大開放
- 數據中看到發展 十年間我國金融業進一步擴大開放
- 全國數字百強,粵東西北第一!湛江“數字化”風口上起舞
- 8月份進出口環比增長3.9%
- 科技融入煙火氣,智能桿助力深圳“外擺經濟”
- 經濟洞察(第18期)|生產端高頻數據表現趨穩,鋼材、農產品...
- 廣東經濟:守住第一還需破解隱憂
- 廣東省VS江蘇?。赫l是中國經濟新霸主?
- 廣東為何GDP增速低卻居全國首位?
- 四川省中等城市的潛力值得關注
- 跳水拜拜說「拜拜」, 天津的熱情不散
- 深圳保險業探索智能網聯汽車保險投保和理賠規范
- 羅永浩「真還傳」難收尾,投資人鄭剛死磕欲對簿公堂
- 海底撈「悄咪咪」開了家露營火鍋店
- 鳳凰街道職康中心開展培訓引導居民增強消防安全意識
- 多地分布式光伏頻現「急剎車」
- 普惠金融貸款余額達3200億元!深圳建行再推普百業惠萬企系列活動
- 焦慮的企服人,抱團治療內耗
- 碳訪錄|國家金融監督管理總局葉燕斐:可持續投資潛力最大的...
- 開放引領發展 合作共贏未來 2023年中國國際服務貿易交易會圓滿落幕
- 9.9元的咖啡時代,最慌的是「三頓半們」
- 熱錢涌向「直接空氣碳捕集」,是時候聊聊新一代CCUS了
- 誰在捧殺《逃出大英博物館》?
- 巴西稅改35天,拉美電商迎變局
- 我在澳洲送外賣:超時、差評不罰款
- 佛山建設銀行以強力金融服務支撐佛山推進現代化建設
- 全省唯一!青島市嶗山區榮膺“中國樓宇經濟營商環境示范城區”
- 經濟普查 |【統計微課堂】帶您了解五經普投入產出調查
- 商務部:我國數字經濟國際朋友圈不斷擴大