大模型在工业领域探索仍处于初级阶段-消息
(资料图片)
图片来源:中国工业互联网研究院
近日,中国工业互联网研究院(以下简称“工联院”)针对人工智能大模型在中文工业领域的应用性能、技术架构、标准体系进行系统性评测,并发布系列报告。评测对象涵盖GPT-4、GPT-3.5、文心一言、ChatGLM等国内外具有代表性的头部大模型。
本次工业知识问答测试主要分为客观题与主观题两大类,总计超过1100个问题。主观题主要考察四大维度:基础能力、语句能力、概括能力和逻辑能力。评测结果显示,GPT-4表现最佳。国内头部大模型表现亮眼,整体与GPT-3.5相当。其中百度文心一言在国内大模型中排名第一。
在客观题方面,GPT-4与文心一言表现优于其他大模型。但评测结果也同时指出,大模型在准确率方面有较大的提升空间。在主观题方面,国内大模型的基础能力、语句能力与GPT-4接近,概括能力、逻辑能力与GPT-4存在一定差距。
评测数据集由工业领域八大行业的相关数据构成。包括电子设备制造业、装备制造业、钢铁行业、采矿行业、电力行业、石化化工行业、建材行业和纺织行业。工联院根据工业经验,结合外部数据源,按行业构建行业知识测试集。
从行业维度看,大模型在八个行业知识问答能力上差异明显,个别行业需进一步优化提升。其中,电子、装备行业评价指数较高,纺织、采矿行业综合评价指数相对较低。
分析大模型落地垂直行业痛点,丰富特定行业专业知识。虽然国内大模型在本次评测中表现较好,甚至在部分行业评分优于GPT-3.5,但工联院评测报告指出,国内外通用大模型在工业知识问答领域探索仍处于初级阶段,国内大模型与GPT-4有差距,行业间的泛化能力有待加强。对此,工联院评测报告给出的建议是进一步丰富相关专业领域的数据训练集,进行专业化的微调。
关键词:
- 大模型在工业领域探索仍处于初级阶段-消息
- 李玟从没忘记自己是“武汉伢”,去年回汉出席百花奖时高喊:武汉姑娘回家了-全球快资讯
- 市场人士:铝市呈现供增需弱格局|环球讯息
- 新时代 新征程 新伟业丨金融添薪“炒香”预制菜
- 14岁贝儿身高近175!只比陆毅矮半头,打扮帅气像极爸爸年轻模样
- 世界热文:生日快乐!乔丹前三连冠的得力助手,不止有皮蓬!
- 妻子的娘家侄子考上985,竟和丈夫提出离婚,丈夫:想不到会这样
- 全球要闻:模拟城市4攻略秘籍(模拟城市4攻略)
- 每日热议!明天,兰州市这条隧道单向通行!
- 中国国航:2023年业绩预计会好于2022年 快资讯
-
长盛轴承:上半年净利预增42%-67%|世界微速讯
金融界7月5日消息长盛轴承公告,预计2023年半年度归母净利1 1亿元-1 3
-
【调研快报】恒帅股份接待海通证券等多家机构调研 动态焦点
恒帅股份7月5日发布消息,2023年7月4日-7月5日,公司接待海通证券等多
-
北水成交净买入92.41亿 内资全天抢筹港股ETF 买入盈富基金超43亿
7月5日港股市场,北水成交净买入92 41亿,其中港股通(沪)成交净买入45
-
龙虎榜 | 昊志机电今日跌16.09%,上榜营业部席位合计净卖出9615.97万元|全球时讯
7月5日,昊志机电今日跌16 09%,龙虎榜数据显示,上榜营业部席位全天成
-
西藏:夏日普莫雍错美景如画
西藏:夏日普莫雍错美景如画
-
分享菠萝蜜干怎么做窍门, 吃不了的菠萝蜜别着急放冰箱里
最近买了一个超级甜的,但是,哎呀熟的有点儿过了,吃又吃不完,新闻不
-
暑期游井喷,日薪2500招不到导游
这是疫情放开后的*个暑期旅游高峰,旅游消费迎来了井喷式爆发,旅游从
-
世界速读:电影《封神第一部》全新预告片出炉:商王布杀局 质子热血出征
电影《封神第一部》全新预告片出炉:商王布杀局质子热血出征
-
环球观焦点:11:30在岸人民币兑美元报7.2334,较上一交易日涨39点
7月5日,11:30在岸人民币兑美元报,较上一交易日涨39个基点。免责声明
-
每日快报!“A拆A”热度不减 谋求业务扩张
恒力石化拟分拆子公司康辉新材独立上市,“A拆A”模式再添新案例。业内
X 关闭
战时防疫用!宝安首批667间集中居住板房移交管理
西安新增本土确诊病例150例 详情发布
广东最低气温跌至-6℃现冰挂 部分道路及海上交通受影响
“2022科学跨年系列活动”启动 提高公众对科学类流言“免疫力”
珠科院多举措助力大湾区抗旱防咸保供水
X 关闭
得知西安疫情防控“升级” 男子夜骑共享单车回咸阳淳化
中国医生将任SIU主席背后:从追随者同行者到引领者
海南省通报政法队伍教育整顿成果
云南两地发现核酸阳性人员 西安实行最严格的社会面管控
广东梅州大埔中央红色交通线沿线发现多株百岁古树