解决AI高分低能需要升级的是考核机制。
目前一些人工智能沉迷于刷榜,高分通过基准测试,表现良好,但在实际应用中还是会犯一些非常基础的错误。
最近几天有媒体报道,目前一些人工智能沉迷于刷榜,通过了基准测试,成绩很高,表现也不错,但在实际应用中还是会犯一些非常基础的错误这种沉迷于刷榜而忽视实用性的行为,造成了部分AI模型高分低能的现象那么,AI开发是否有必要进行基准测试在实际应用中,基准测试有哪些问题需要改进
哪个AI模型好,基准测试会说话。
AI模型应该如何衡量其性能。
目前AI模型的能力依赖于数据,因为AI的本质是学习数据,输出算法模型为了公平地衡量AI能力,很多机构,企业甚至科学家都会收集和设计不同的数据集,其中一部分会馈入AI训练得到AI模型,另一部分用于评估AI模型的能力,也就是基准测试最近几天,西安电子科技大学电子工程学院教授吴嘉基在接受科技日报记者采访时表示
吴佳吉表示,机器学习越来越多地应用于各种实际应用场景,比如图像和语音识别,自动驾驶汽车,医疗诊断等等因此,了解其在实践中的行为和表现是非常重要的对其鲁棒性和不确定性的高质量估计对于许多函数来说是至关重要的,尤其是在深度学习领域为了掌握模型的行为,研究人员应该根据目标任务的基线来衡量其性能
2010年,基于ImageNet数据集的计算机视觉大赛启动,刺激了深度学习领域的一场算法和数据革命自此,基准测试成为衡量AI模型性能的重要手段微软的计算机科学家Marcelo Ribeiro说,基准测试应该是从业者工具箱中的一个工具人们用基准来代替他们对模型的理解,通过基准数据集来测试模型的行为
例如,在自然语言处理领域,GLUE研究人员在包含数千个句子的数据集上训练AI模型,并在九项任务上进行测试,以确定一个句子是否符合语法,分析情感,或判断两个句子之间是否存在逻辑蕴涵,这些都曾让AI模型感到困惑随后,研究人员提高了基准测试的难度一些任务要求AI模型不仅要处理句子,还要处理来自维基百科或新闻网站的段落,以回答阅读理解问题仅经过一年的发展,AI模型的性能从不到70分轻松达到90分,超越人类
吴嘉基说:科学研究要有科学问题,方法,计算,实验比较等要素因此,在科学研究中,包括人工智能研究,必须有计算和实验的对比,也就是说,AI算法的能力应该是可测量的,才能验证研究方法的可行性和有效性所以基准测试是必要的,这样才能公平地验证AI算法的能力,也可以避免各说各话
算法最终服务于实践,而不是刷榜。
有人说高分是AI模型的兴奋剂于是,一些人工智能为了取得好成绩,频繁刷单
根据微软2020年发布的报告,包括微软,谷歌,亚马逊在内的各种sota模型都包含很多隐性错误,比如把一句话中的what's改成what is,模型的输出结果会完全不同以前,从来没有人意识到,这些被评价很好的商业模式,在应用中可以如此糟糕显然,这样培养出来的AI模型,就像一个只会考试,成绩优秀的学生他可以成功通过科学家设定的各种基准测试,但他不知道为什么
为了获得良好的结果,研究人员可能会使用特殊的软件和硬件设置来调整和处理模型,使AI在测试中表现良好,但这些表现无法在现实世界中显示出来西安电子科技大学研究员尚坤指出
在智能手机领域,当我们谈到手机的体验时,必然会涉及到手机的性能,通常用跑分来表示但是我们经常会遇到一款跑分在榜单中处于领先水平的手机,但是在实际使用过程中却出现了动画掉帧,页面滑动卡顿,应用假死等现象全球顶级评测网站AnandTech的一份报告就曾对这一现象提出质疑,指出某品牌手机在运行时开启了性能模式,但在正常使用中很少调用性能模式这种处理方式虽然可以获得很高的跑分,但是无法模拟用户真实的使用情况,使得基准测试没有参考意义
据尚坤介绍,要解决上述问题,改进基准主要有以下几种方法:一是增加更多的数据集,使基准更加困难用你从未见过的数据进行测试,从而判断AI模型能否避免过拟合研究人员可以创建一个动态数据收集和基准平台对于每个任务,他们提交他们认为人工智能模型会被众包错误分类的数据,成功骗入模型的样本加入基准测试如果我们动态地收集数据,添加注释,迭代地训练模型,而不是使用传统的静态方法,那么AI模型应该能够实现更实质性的进化
尚坤说,另一个是缩小实验室数据和真实场景之间的差距无论基线的评分有多高,仍然需要通过实际场景中的数据来检验,因此通过增强和扩展更接近真实场景的数据集,基准测试更接近真实场景如ImageNet—C数据集,可以根据16种不同的实际损伤程度对原始数据集进行扩展,可以更好地模拟实际数据处理场景
广泛应用,有必要尽快建立国家标准。
根据麻省理工学院Cleanlab实验室的研究,十个常用的基准数据集有超过3%的标注错误,基于这些基准的结果没有参考意义。
如果基准测试可以称为人工智能领域的‘科举制度’,那么‘唯分数论’无论输赢,都不可能培养出真正好的模型要打破这种现象,一方面需要采用更全面的评价方法,另一方面可以考虑分而治之,比如用多个AI模型解决复杂问题,把复杂问题变成简单确定的问题简单和优化的基线模型通常比更复杂的方法要好谷歌的研究人员为常见的人工智能任务引入了不确定性基线库,以更好地评估人工智能应用的鲁棒性和处理复杂不确定性的能力Far智库人工智能事业部总监,图灵机器人首席战略官谭维洲指出
虽然业界正在改变对标杆的态度,但是标杆研究目前还是小众研究谷歌在一项研究中采访了53名工业和学术界的人工智能从业者他们中的许多人指出,改善数据集不如设计模型有成就感
谭维洲表示,AI应用基准研究是构建国内统一市场的内在需要目前,AI已经广泛应用于国计民生的各个领域,更需要设立标准对AI模型进行全面有效的评价片面追求和采用高分AI模型,可能导致模型在复杂和极端场景下出现智障行为,并可能因训练和推理表现效率低下而造成不良社会影响,经济损失和环境破坏
谭维洲强调,AI应用基准研究事关国家战略鉴于重要领域,迫切需要建立我们自己的AI基准测试标准,AI数据集和AI模型评估标准
根据消息显示,西安电子科技大学的DvcLab也在AI基准测试领域进行了前瞻性研究,特别是针对AI应用基准测试中的数据集整体质量和动态扩展两个关键问题,正在开发在线协同数据标注和AI模型研发托管项目,并计划在今年陆续开源,为构建国家AI基准评测标准体系进行积极探索。