bitpie.com官網下載|剛剛,百川智能Baichuan2-192K發(fā)布,上下文窗口全球最長!一次讀完《三體》,拿下7個SOTA -

文章來源:新智元

圖片來源:由無界 AI生成

全球最長上下文窗口來了!今日,百川智能發(fā)布Baichuan2-192K大模型,上下文窗口長度高達192K(35萬個漢字),是Claude 2的4.4倍,GPT-4的14倍!

長上下文窗口領域的新標桿,來了!

今天,百川智能正式發(fā)布全球上下文窗口長度最長的大模型——Baichuan2-192K。

與以往不同的是,此次模型的上下文窗口長度高達192K,相當于約35萬個漢字。

再具體點,Baichuan2-192K能夠處理的漢字是GPT-4(32K上下文,實測約2.5萬字)的14倍,Claude 2(100K上下文,實測約8萬字)的4.4倍,可以一次性讀完一本《三體》。

Claude一直以來保持的上下文窗口記錄,在今天被重新刷新

把三體第一部《地球往事》丟給它,Baichuan2-192K稍加咀嚼,便立刻對整個故事了如指掌。

汪淼看到的倒計時里第36張照片上的數字是多少?答:1194:16:37。?他使用的相機是什么型號?答:徠卡M2。他和大史一共喝過幾次酒?答:兩次。

再看看第二部《黑暗森林》,Baichuan2-192K不僅一下就答出了地球三體組織建立了兩個紅岸基地,「水滴」是由強互作用力材料制作的。

而且,就連「三體十級學者」都未必能答上來的冷門問題,Baichuan2-192K也是對答如流,信手拈來。

誰的名字出現(xiàn)次數最多?答:羅輯。

可以說,當上下文窗口擴展到了35萬字,大模型的使用體驗,仿佛忽然打開了一個新世界!

全球最長上下文,全面領先Claude 2

大模型,會被什么卡脖子?

以ChatGPT為例,雖然能力讓人驚嘆,然而這個「萬能」模型卻有一個無法回避的掣肘——最多只支持32K tokens(2.5萬漢字)的上下文。而律師、分析師等職業(yè),在大部分的時間里需要處理比這長得多的文本。

更大的上下文窗口,可以讓模型從輸入中獲得更豐富的語義信息,甚至直接基于全文理解進行問答和信息處理。

由此,模型不僅能更好地捕捉上下文的相關性、消除歧義,進而更加精準地生成內容,緩解「幻覺」問題,提升性能。而且,也可以在長上下文的加持下,與更多的垂直場景深度結合,真正在人們的工作、生活、學習中發(fā)揮作用。

最近,硅谷獨角獸Anthropic先后獲得亞馬遜投資40億、谷歌投資20億。能獲得兩家巨頭的青睞,當然跟Claude在長上下文能力技術上的領先不無關系。

而這次,百川智能發(fā)布的Baichuan-192K長窗口大模型,在上下文窗口長度上遠遠超過了Claude 2-100K,而且在文本生成質量、上下文理解、問答能力等多個維度的評測中,也取得了全面領先。

10項權威評測,拿下7個SOTA

LongEval是由加州大學伯克利分校聯(lián)合其他高校發(fā)布的針對長窗口模型評測的榜單,主要衡量模型對長窗口內容的記憶和理解能力。

上下文理解方面,Baichuan2-192K在權威長窗口文本理解評測榜單LongEval上大幅領先其他模型,窗口長度超過100K后依然能夠保持非常強勁的性能。

相比之下,Claude 2窗口長度超過80K后整體效果下降非常嚴重。

此外,Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10項中英文長文本問答、摘要的評測集上表現(xiàn)同樣優(yōu)異。

其中,有7項取得了SOTA,性能顯著超過其他長窗口模型。

在文本生成質量方面,困惑度是一個非常重要的標準。

可以簡單理解為,將符合人類自然語言習慣的高質量文檔作為測試集時,模型生成測試集中文本的概率越高,模型的困惑度就越小,模型也就越好。

根據DeepMind發(fā)布的「語言建?;鶞蕯祿疨G-19」的測試結果,Baichuan2-192K的困惑度在初始階段便很優(yōu)秀,并且隨著窗口長度擴大,Baichuan2-192K的序列建模能力也持續(xù)增強。

工程算法聯(lián)合優(yōu)化,長度性能同步提升

雖然長上下文可以有效提升模型性能,但超長的窗口也意味著需要更強的算力,以及更多的顯存。

目前,業(yè)界普遍的做法是滑動窗口、降低采樣、縮小模型等等。

然而,這些方式都會在不同程度上,犧牲模型其他方面的性能。

為了解決這一問題,Baichuan2-192K通過算法和工程的極致優(yōu)化,實現(xiàn)了窗口長度和模型性能之間的平衡,做到了窗口長度和模型性能的同步提升。

首先,在算法方面,百川智能提出了一種針對RoPE和ALiBi動態(tài)位置編碼的外推方案——能夠對不同長度的ALiBi位置編碼進行不同程度的Attention-mask動態(tài)內插,在保證分辨率的同時增強了模型對長序列依賴的建模能力。

其次,在工程方面,百川智能在自主開發(fā)的分布式訓練框架基礎上,整合了包括張量并行、流水并行、序列并行、重計算以及Offload等市面上幾乎所有的先進優(yōu)化技術,獨創(chuàng)出了一套全面的4D并行分布式方案——能夠根據模型具體的負載情況,自動尋找最適合的分布式策略,極大降低了長窗口訓練和推理過程中的顯存占用。

內測正式開啟,一手體驗出爐

現(xiàn)在,Baichuan2-192K已經正式開啟內測!

百川智能的核心合作伙伴已經通過 API 調用的方式將Baichuan2-192K 接入到了自己的應用和業(yè)務當中,現(xiàn)在已有財經類媒體、律師事務所等機構和百川智能達成了合作。

可以想象,隨著Baichuan2-192K全球領先的長上下文能力應用到傳媒、金融、法律等具體場景中,無疑會給大模型落地拓展出更廣闊的空間。

通過API,Baichuan2-192K能有效融入更多垂直場景,與之深度結合。

以往,巨量內容的文檔,往往成為我們在工作、學習中難以跨越的大山。

而有了Baichuan2-192K,就能一次性處理和分析數百頁的材料,進行關鍵信息的提取和分析。

無論是長文檔摘要/審核,長篇文章或報告的編寫,還是復雜的編程輔助,Baichuan2-192K都將提供巨大的助力。

對于基金經理,它可以幫忙總結和解釋財務報表,分析公司的風險和機遇。

對于律師,它可以幫助識別多個法律文件中的風險,審核合同和法律文件。

對于開發(fā)者,它可以幫忙閱讀數百頁的開發(fā)文檔,還能回答技術問題。

而廣大科研人員,從此也有了科研利器,可以快速瀏覽大量論文,總結最新的前沿進展。

除此之外,更長的上下文還蘊涵著更加巨大的潛力。

Agent、多模態(tài)應用,都是當前業(yè)內研究的前沿熱點。而大模型有了更長的上下文能力,就能更好地處理和理解復雜的多模態(tài)輸入,實現(xiàn)更好的遷移學習。

上下文長度,兵家必爭之地

可以說,上下文窗口長度,是大模型的核心技術之一。

現(xiàn)在,許多團隊都開始以「長文本輸入」為起點,打造底座大模型的差異化競爭力。如果說參數量決定了大模型能做多復雜的計算,上下文窗口長度,則決定了大模型有多大「內存」。

Sam Altman就曾表示,我們本以為自己想要的是會飛的汽車,而不是140/280個字符,但實際上我們想要的是32000個token。

國內外,對擴大上下文窗口的研究和產品可謂是層出不窮。

今年5月,擁有32K上下文的GPT-4,就曾引發(fā)過激烈的討論。

當時,已經解鎖這一版本的網友大贊稱,GPT-4 32K是世界上最好的產品經理。

很快,初創(chuàng)公司Anthropic宣布,Claude已經能夠支持100K的上下文token長度,也就是大約75,000個單詞。

換句話說就是,一般人用時大約5個小時讀完等量內容后,還得用更多的時間去消化、記憶、分析。對于Claude,不到1分鐘就搞定。

在開源社區(qū),Meta也提出了一種可以有效擴展上下文能力的方法,能夠讓基礎模型的上下文窗口達到32768個token,并在各種合成上下文探測、語言建模任務上都取得了顯著的性能提升。

結果表明,70B參數量的模型就已經在各種長上下文任務中實現(xiàn)了超越gpt-3.5-turbo-16k的性能。

論文地址:https://arxiv.org/abs/2309.16039

港中文和MIT團隊研究人員提出的LongLoRA方法,只需兩行代碼、一臺8卡A100機器,便可將7B模型的文本長度拓展到100k tokens,70B模型的文本長度拓展到32k tokens。

論文地址:https://arxiv.org/abs/2309.12307

而來自DeepPavlov、AIRI、倫敦數學科學研究所的研究人員則利用循環(huán)記憶Transformer(RMT)方法,將BERT的有效上下文長度提升到「前所未有的200萬tokens」,并且保持了很高的記憶檢索準確性。

不過,雖然RMT可以不增加內存消耗,能夠擴展到近乎無限的序列長度,但仍然存在RNN中的記憶衰減問題,并且需要更長的推理時間。

論文地址:https://arxiv.org/abs/2304.11062

目前,LLM的上下文窗口長度主要集中在4,000-100,000個token這個范圍之間,并且還在持續(xù)增長。

通過AI產業(yè)界和學術界對上下文窗口的多方面研究,足見其對于LLM的重要性。

而這一次,國內的大模型迎來了最長上下文窗口的歷史高光時刻。

刷新行業(yè)紀錄的192K上下文窗口,不僅代表著百川智能這家明星公司在大模型技術上又一次突破,也是大模型發(fā)展過程中的又一里程碑式進展。而這,必然會給產品端形態(tài)改革帶來新一輪的震動。

成立于2023年4月的百川智能,用了僅僅6個月的時間,便接連發(fā)布了Baichuan-7B/13B,Baichuan2-7B/13B四款開源可免費商用大模型,以及Baichuan-53B、Baichuan2-53B兩款閉源大模型。

這么算來,基本上是一月一更LLM。

現(xiàn)在,隨著Baichuan2-192K的發(fā)布,大模型長上下文窗口技術也將全面走進中文時代!