市場信息:中大賈佳亞團隊聯合MIT 發布全球首個70B長文本大語言模型

分享

進行AI文字對話,文本輸入長度備受限制,想要討論稍長的內容,往往需要分拆輸入,但大模型卻會忽略了前面輸入的要點。

【Presented by:WAW Creation


香港中文大學賈佳亞團隊日前宣布聯合MIT發布超長文本擴展技術LongLoRA,只需兩行代碼、一台8卡A100機器,便可將7B模型的文本長度拓展到100k tokens,將70B模型的文本長度拓展到32k tokens。

在此之前,以AI社區著名的開源大語言模型為例,LLaMa支持2k tokens的文本長度、Llama2也僅僅支持4k tokens的文本長度。LongLoRA的發布,令全球大語言模型對話缺陷第一次得到解决。同時,該研究團隊還基於LongLoRA技術,發布了全球首個擁有70B參數量的長文本對話大語言模型LongAlpaca。目前,LongLoRA技術和LongAlpaca已開源,並獲得熱烈回響,迅速登上Hugging Face熱榜第一、Papers With Code熱度第一,Github全部Python項目熱度第五,Github Stars也在一周內成功破千。

市場信息:中大賈佳亞團隊聯合MIT 發布全球首個70B長文本大語言模型

賈佳亞(圖)是香港中文大學終身教授,電機及電子工程師學會(IEEE)院士,計算機視覺、人工智能與計算機影像學等領域頂尖專家,全球計算機視覺和人工智能領域頂級期刊《TPAMI》首位視覺領域華人副主編、《IJCV》編委,擁有廣泛的國際影響力。他於2019年創立的思謀科技,總部位於香港科學園,是一家專注於智能製造領域的標準軟硬一體化產品及解決方案供應商,亦是香港有名的獨角獸公司。