
Datawhale干货作者:平凡@知乎,诺桑比亚大学,在读博士今天晚上,花了一点儿时间看了两篇文章:《Emergent
程序员客栈 2023-05-23 15:45:14
Datawhale干货
作者:平凡@知乎,诺桑比亚大学,在读博士
【资料图】
今天晚上,花了一点儿时间看了两篇文章:
《Emergent Abilities of Large Language Models》[1]
《PROGRESS MEASURES FOR GROKKING VIA MECHANISTIC INTERPRETABILITY》[2]
这两篇讲的都是emergent behavior,即涌现现象。
大规模神经网络下的涌现现象在机器学习中使用大规模神经网络时,由于增加了参数数量、训练数据或训练步骤等因素,出现了定性上的新能力和性质,这些能力和性质在小规模神经网络中往往是不存在的。
第一篇文章举了这个例子,每个图都可以理解为一个任务,横轴是神经网络的规模,而纵轴是准确率,可以理解为模型的性能。
我们拿图一来看,在10的22次方前,这些模型基本上的性能基本上都很稳定在0附近,而在10的22以后,突然在10的24次方上获得了很大的性能提升,在其他的几个任务上都表现出类似的特征。
意想不到的效果第二篇文章更是有趣,我直接把推特一位博主的评论引用在这里:
作者发现,当我们训练用网络计算同余加法 a+b = ? (mod c) 时,网络在某个时间突然获得了 100% 准确率。分析发现,神经网络实际上“顿悟”了使用傅立叶变换来计算同余加法!这个算法可以证明是正确的, 反人类直觉的。
从这俩例子里面我的感受是,只要数据量足够且真实,且模型没有硬错误的前提下,不断的训练说不定真的能够产生一些意想不到的效果。
还有就是我觉得人类现在积累的知识并不少,但是系统的少,零星的多,如果类似ChatGPT这样的大模型可以拿所有的人类已有知识进行不断学习的话,我觉得有很大概率会让它涌现出意想不到的能力。
甚至可能把人类的生产力解放提前很多。
参考
1.https://arxiv.org/pdf/2206.07682.pdf2.https://arxiv.org/pdf/2301.05217.pdfDatawhale干货作者:平凡@知乎,诺桑比亚大学,在读博士今天晚上,花了一点儿时间看了两篇文章:《Emergent
今天,Capcom公布了《街头霸王6》经典角色本田的角色指南,本田仍然是前冲的力量型角色,他能用相扑
5月23日盘中消息,14点12分乐凯新材(300446)触及涨停板。目前价格14 22,上涨20 0%。其所属行业电子化学
一、工伤赔偿的钱什么时候可以拿到工伤赔偿的钱两个月可以拿到,通常工伤赔偿会在工伤待遇递交审核之后两个
这些发动机将为大众集团旗下包括大众、奥迪和库普拉在内的七个品牌的50条车型线提供动力。斯柯达目前负责EA
2023年养老金调整最新消息来了!2023养老金能涨多少元呢?下文就随着社保君一起去看看吧。一、2023养老金能
5月22日,读客文化(301025)融资买入1002 53万元,融资偿还1236 64万元,融资净卖出234 11万元,融资余额7052 64万元。
茶叶是我国重要的经济作物,绿茶是我国主要的茶类,2021年我国绿茶出口量为31 23万吨,占茶叶总出口量的84
黄河新闻网讯(记者钱龙通讯员武亚亮)5月21日,2023太原马拉松赛鸣枪开赛。太原邮政开发了大赛纪念封、明
证券时报网讯,wind统计显示,5月22日共有226只科创板个股融资余额环比增加。其中,17股融资余额增幅超过10%。融
前几年,“炒股不如买基金”成为公募的宣传口号,在基金赚钱效应驱使下,投资者蜂拥入市。如今缘何事与愿违
扬州世博园-----北京园同月共济一河相牵北京园主题为“同月共济一河相牵”表达了扬州与北京深度交融,同月
戳视频,查收手机充电的正确打开方式。
山阴县网格治理擦亮群众幸福底色,主流媒体,山西门户。山西新闻网是经国务院新闻办审核批准,由山西日报报业
由中国残疾人联合会主办,中国残疾人辅助器具中心、北京市残疾人联合会承办,广州市保利锦汉展览有限公司协