千亿级参数大语言模型“书生·浦语”在沪发布

2023-06-08 富美财经浏览量：次

6月7日，上海人工智能实验室（上海AI实验室）、商汤科技联合香港中文大学、复旦大学及上海交通大学发布千亿级参数大语言模型“书生·浦语”（InternLM）。“书生·浦语”具有1040亿参数，是在包含1.6万亿token的多语种高质量数据集上训练而成。全面评测结果显示，“书生·浦语”不仅在知识掌握、阅读理解、数学推理、多语翻译等多个测试任务上表现优秀，而且具备很强的综合能力，因而在综合性考试中表现突出，在多项中文考试中取得超越ChatGPT的成绩，其中就包括中国高考各科目的数据集（GaoKao）。

“书生·浦语”联合团队选取了20余项评测对其进行检验，其中，包含全球最具影响力的四个综合性考试评测集：由伯克利加州大学等高校构建的多任务考试评测集MMLU；微软研究院推出的学科考试评测集AGIEval（含中国高考、司法考试及美国SAT、LSAT、GRE和GMAT等）；由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval；以及由复旦大学研究团队构建的高考题目评测集Gaokao。

实验室联合团队对“书生·浦语”、GLM-130B、LLaMA-65B、ChatGPT和GPT-4进行了全面测试，结果显示，“书生·浦语”不仅显著超越了GLM-130B和LLaMA-65B等学术开源模型，还在AGIEval、C-Eval、以及Gaokao等多个综合性考试中领先于ChatGPT；在以美国考试为主的MMLU上实现和ChatGPT持平。这些综合性考试的成绩反映出“书生·浦语”扎实的知识掌握程度和优秀的综合能力。

虽然“书生·浦语”在考试评测上取得优秀成绩，但在测评中也可以看到，大语言模型仍然存在不少能力局限性。“书生·浦语”受限于2K的语境窗口长度（GPT-4的语境窗口长度为32K），在长文理解、复杂推理、撰写代码以及数理逻辑演绎等方面还存在明显局限。另外，在实际对话中，大语言模型还普遍存在幻觉、概念混淆等问题；这些局限使得大语言模型在开放场景中的使用还有很长的路要走。

目前，“书生·浦语”相关技术报告已在网上公开：https://github.com/InternLM/InternLM-techreport，报告对模型的技术特点以及测试结果进行了详细阐述。（经济日报记者李景）

为你推荐

优秀！祝贺空军首批“双学籍”女飞
近日由空军和清华大学北京大学联合培养的首批“双学籍”女飞行学员顺利完...

国内财经 2024-05-09
负面情绪正持续发酵多国计划加强对ChatGPT监管
图为2023年11月7日，在第五届进博会技术装备展区的人工智能专区，体验者借...

国内财经 2024-05-09
强降雨引发洪水江西安远紧急避险200余户村民
4月5日凌晨，江西赣州安远县遭遇突发恶劣的强降水、雷雨天气，引发洪水，...

国内财经 2024-05-09
第20届中国-东盟博览会新加坡巡展开幕
第20届中国-东盟博览会新加坡巡展暨国际陆海贸易新通道、“桂品出海”开幕...

国内财经 2024-05-09
江苏发布海域海浪Ⅳ级蓝色警报
江苏省海洋环境监测预报中心根据《江苏省海洋灾害应急预案》发布江苏海域...

国内财经 2024-05-09
印度一百年老树因暴雨倒塌已致7死30伤
据《印度论坛报》4月10日报道，受到暴雨影响，当地时间4月9日晚，印度马哈...

国内财经 2024-05-09