【综述专栏】关于AI大模型的一点思考和讨论.docx
《【综述专栏】关于AI大模型的一点思考和讨论.docx》由会员分享,可在线阅读,更多相关《【综述专栏】关于AI大模型的一点思考和讨论.docx(4页珍藏版)》请在优知文库上搜索。
1、【综述专栏】关于AI大模型的一点思考和讨论三问大模型,AI的路在何方近日内部有关大模型的讨论比较多,也组织了几次内部的分析和研讨,有赞同、有批判、有质疑、有期许,抱着略懂的心态,本着胡说八道的精神,借着弹窗的周末时间,谈谈对大模型的一些看法。想到哪里就写到哪里,比较细碎,由于胡说八道所以就以字为主,方便讨论,省流的话直接看加粗字体部分。2022年11月5日1.大模型到底大在哪里?要想回答这个问题,首先要思考大模型到底是什么,只有定义好这个边界,我们才能有所有后续的胡说八道。大模型这个关键词的热度在学术界应该起于两篇论文GPT-31和ViT2o(注:由于我以前的研究背景都在视觉上,所以对GPT相
2、关的工作是真的胡说,后文的思考还是以CV领域的感受为主)GPT-3给大家的直观感受就是参数量暴涨、计算量暴涨、数据量和性能暴涨,很强!ViT给做视觉的同学们带来的感受有点文艺复兴的意思,因为把图像切成很多块的方式是深度学习之前的视觉最基本的操作,不规则的就是传统的SIFT3,规则的切patch方式就是HoG4,在十年前的很多比赛中也都取得了不错的结果(CV和NLP领域经常互相借鉴,Bag-Of-Visual-Words也是从NLP领域借鉴过来的)。话又说回来,ViT对视觉领域的从业人员来说,更直接的感受像让子弹飞中的张麻子(枪在手,跟我走),新架构终于来了,赶紧跟!谁下手快谁引用高!那么,以视
3、觉为例,到底什么是大模型呢?大是一个形容词,比较出来的结果,如果拿ViT与也是基于谷歌的工作卷积网络(CNN)架构FixEfficientNetV2-L2(480M参数,585G计算量)做对比,ViT-Large(307M参数,190.7G计算量,很多人其实没有细想过,我有时候会觉得,ViT这种架构只是在不想增加FLOPS的情况下,努力增加参数量,能吃下更多数据的一种方案)似乎也没有特别大6o不过,由于架构的不一致,ViT这种具有更高参数容量的模型在更大的数据集(谷歌JFT,也有一种说法这个数据集一定程度包含了ImageNet,所以结论存疑)上做预训练可以达到更好的性能。此外,之前在智源的一次
4、活动中跟山世光等老师们讨论过,视觉跟语言的模型不一样,视觉模型的输入维度很高,比如经典的ReSNet系列,输入数据的维度是一张有224*224*3个像素的图像,所以大不大其实也要看计算量,比如上面提到的94B已经非常恐怖了。结合最近的一些论文、公众号、讲座、内部研讨、访谈,我总试图想定义一下,到底什么是大模型,可行的有两个可以量化的角度:a)100M参数以上,在多个任务(不同lossI不同dataset|不同task)上进行预训练的模型就叫大模型。正例很多,ViT和各种变种,也有我们自己鼓捣出来的底层视觉大模型IPT5o不过,这个结论很快被组里的一位机智的小伙伴推翻了,因为EfficientN
5、et或者某些CVbackbone经过放大之后可以轻易超过100M参数,并且在ImageNet上预训练之后可以在检测、分割等任务上做出很好的表现,不是新东西。b)用到了Transformer的架构,支持预训练就叫大模型。本来以为这个定义似乎清晰了一些,但是又想到大家开始在ViT架构中猛插卷积(convolution)并且取得了更好的效果,所以大模型似乎也不应该跟Transformer绑定。所以,这一环节的结论,仍然是无法清晰地给定,什么是大模型。或许,在技术上就不存在这样一个新概念,只要随着数据不断增长,算力持续提升,优化手段越来越好,模型总是会越来越大的。2.大模型到底解决了什么大问题?既然有
6、大模型,我想,其他的AI模型都应该是小模型了吧,那我们需要思考的就是大模型在关键的问题上真的全面超过小模型了没有?感觉前面啰嗦了太多,当然问题定义也比较重要,我们沿用La的定义去思考,大模型与小模型的对比。a)在ImageNet这种大规模数据集上,或者更大的数据集,目前的证据确实是越大的模型(尤其引入了Transformer和切patch之后),精度越来越高。不过限定的一些实际用到的数据集往往也会发现,小容量(100M)的网络也能摸到数据集的极限,小模型还有速度、内存.功耗.训练成本等优势。所以,越复杂的任务,参数越多,模型越大,作用越大,也有点胜读一席话的意思了。b)多个任务一起预训练,这么
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 综述专栏 综述 专栏 关于 AI 模型 一点 思考 讨论