市场信息:中大贾佳亚团队联合MIT 发布全球首个70B长文本大语言模型

分享

进行AI文字对话,文本输入长度备受限制,想要讨论稍长的内容,往往需要分拆输入,但大模型却会忽略了前面输入的要点。

【Presented by:WAW Creation


香港中文大学贾佳亚团队日前宣布联合MIT发布超长文本扩展技术LongLoRA,只需两行代码、一台8卡A100机器,便可将7B模型的文本长度拓展到100k tokens,将70B模型的文本长度拓展到32k tokens。

在此之前,以AI社区著名的开源大语言模型为例,LLaMa支持2k tokens的文本长度、Llama2也仅仅支持4k tokens的文本长度。 LongLoRA的发布,令全球大语言模型对话缺陷第一次得到解决。同时,该研究团队还基于LongLoRA技术,发布了全球首个拥有70B参数量的长文本对话大语言模型LongAlpaca。目前,LongLoRA技术和LongAlpaca已开源,并获得热烈回响,迅速登上Hugging Face热榜第一、Papers With Code热度第一,Github全部Python项目热度第五,Github Stars也在一周内成功破千。

市场信息:中大贾佳亚团队联合MIT 发布全球首个70B长文本大语言模型

贾佳亚(图)是香港中文大学终身教授,电机及电子工程师学会(IEEE)院士,计算机视觉、人工智能与计算机影像学等领域顶尖专家,全球计算机视觉和人工智能领域顶级期刊《TPAMI》首位视觉领域华人副主编、《IJCV》编委,拥有广泛的国际影响力。他于2019年创立的思谋科技,总部位于香港科学园,是一家专注于智能制造领域的标准软硬一体化产品及解决方案供应商,亦是香港有名的独角兽公司。