九游会,九游会官网,九游会登录,九游会注册,九游会app下载,在线体育投注,电竞投注平台,真人游戏平台,九游体育,九游娱乐
【新智元导读】自适应语言模型框架SEAL,让大模型通过生成自己的微调数据和更新指令来适应新任务。SEAL在少样本学习和知识整合任务上表现优异,显著提升了模型的适应性和性能,为大模型的自主学习和优化提供了新的思路。
经过海量文本预训练后的大模型,已经能够很好地理解语言,并根据要求来生成文本。
不过,在部署大模型应用于特定任务、整合新信息或学习新的推理技能时,仍然需要人工标注数据对模型权重进行微调。
大模型是否可以通过「自己生成训练数据和学习方法」来实现对新任务的自适应?
麻省理工学院的研究人员提出了一个全新的自适应语言模型(Self-Adapting LLMs,简称SEAL)的框架,可以让大模型通过生成自己的微调数据和更新指令来实现自适应。
与以往依赖独立适应模块或辅助网络的方法不同,SEAL直接利用模型自身的生成能力来参数化和控制其自我适应过程。
当模型接收到新的输入时,会生成一个「自编辑」(self-edit)——即自然语言指令,用于指定数据和优化超参数,以更新模型的权重。
通过有监督微调(SFT),自编辑能够实现持久的权重更新,从而实现长期的适应性。
为了训练模型生成有效的自编辑,研究人员采用强化学习循环,以「更新后模型在下游任务中的表现」作为奖励信号。
在尝试「将新的事实性知识整合到LLM」的实验上,研究人员使用SEAL模型生成的合成数据进行微调。
相比与直接在原始文本上微调不同,经过强化学习训练后,使用SEAL生成的合成数据进行微调,将SQuAD无上下文版本的问题回答准确率从33.5%提高到47.0%,甚至超过了GPT-4.1生成的合成数据。
研究人员还在ARC-AGI基准测试的简化子集上对SEAL进行了少样本学习评估,模型需要利用一组工具自主选择合成数据增强和优化超参数(例如学习率、训练周期、对特定token类型的损失计算)。
实验表明,使用SEAL自动选择和配置这些工具,比标准的上下文学习(ICL)和没有强化学习训练的自编辑表现更好。
假设语言模型的参数为θ,C是与任务相关的上下文信息,τ是用于评估模型适应性的下游任务,SEAL会针对每个任务实例(C, τ)进行操作。
在知识整合任务中,C是需要整合到模型内部知识中的段落,τ是关于该段落的问题和答案;
给定上下文C后,模型会生成一个自编辑(SE),通过有监督微调的方式来更新自己的参数。
研究人员使用强化学习来优化自编辑生成的过程:模型生成SE作为动作,根据生成SE后模型在τ上的表现获得奖励,并根据奖励更新策略,以最大化预期奖励。
由于模型参数会不断更新,之前版本模型收集的(状态,动作,奖励)三元组可能不再适用于当前模型。
因此,研究人员采用「在线策略」方法,即从当前模型中采样自编辑,并基于当前模型计算奖励。
相比其他策略方法,ReSTEM采用的「拒绝采样+有监督微调」,可以让训练过程更稳定。
ReSTEM的过程为:首先从当前模型策略中采样一些候选输出(即自编辑),然后只对那些获得正奖励的样本进行监督微调,以此来强化模型的策略。
由于大多数ARC任务对于未经过ARC预训练的模型来说难度较大,研究人员从ARC训练集中筛选出11个任务,从评估集中筛选出8个任务,确保这些任务在最优TTT(测试时训练,test-time training)配置下可以被基础的Llama-3.2-1B-Instruct模型解决。
在训练过程中,研究人员使用ReSTEM方法,通过为每个训练任务采样15个自编辑来训练模型。
每个自编辑分别应用于生成15个更新后的模型,然后在对应的测试样本上进行评估,只保留那些「经过适应后能够为测试输入生成正确输出」的模型。
评估指标为成功率:为每个保留的评估任务生成5个自编辑并评估模型,然后统计能够产生正确输出的自编辑的百分比,可以反映出所学自编辑生成策略的质量。
对比基线方法包括上下文学习(ICL)、TTT+自编辑(无强化学习)和Oracle TTT(性能上限)。
与基线方法相比,SEAL显著提高了适应成功率(72.5%),而未经强化学习训练的基础模型的自编辑成功率仅为20%,不进行任何适应的成功率为0%
研究人员使用Qwen2.5-7B模型,从SQuAD(斯坦福问答数据集)的段落中整合新的事实内容。
对比基线包括基础模型(直接在问答任务上评估,Base Model)、仅在段落上微调模型(Train on Passage)、在段落和自动生成的推论上训练模型(Train on Passage + Synthetic)、在段落和通过OpenAI API从GPT-4.1收集的模型生成推论上训练。
在单段落设置下,仅在段落上微调的模型相比基础模型几乎没有提升(33.5% vs. 32.7%),表明仅使用原始数据是不够的。
使用GPT-4.1生成的推论可以将准确率提升到46.3%,比仅使用段落的基线个百分点。
使用Qwen2.5-7B模型生成的合成数据可以达到39.7%,提高了6.2个百分点。
经过强化学习后,SEAL进一步将准确率提升到47.0%,尽管模型规模较小,但表现优于使用GPT-4.1生成的合成数据。
在持续预训练(CPT)设置下,模型从200个段落中整合信息,并在所有974个相关问题上进行评估。研究人员为每个段落采样5个自编辑生成内容,并将这些合成数据用于持续预训练。
虽然绝对性能低于单段落设置,但相对提升效果保持一致,这表明SEAL发现的编辑策略不仅适用于单个段落的合成数据生成,还能推广到更广泛的场景。
仅需两次迭代,SEAL就超过了使用GPT-4.1数据的效果,后续迭代的提升效果逐渐减弱,表明策略迅速收敛到一种能够「将段落提炼为易于学习的基本事实」的编辑风格。
从例子中,可以看到强化学习可以促使生成更详细的自编辑内容,而这些更详细的编辑又反过来提升了整体性能。
07月05日,提前四个月订年夜饭算什么,有人一年前就下手了,真人网客户端,亚美尼亚体育官网,贵宾网,体球网即时比分国冠杯
07月05日,四川蓬安:花田舞龙迎“龙抬头”,qy8千亿官网,博天堂官网APP,火狐体育平台,黄金城捕鱼
07月05日,加拿大去年11月经济小幅增长 结束连续3个月持平,九游网ag,刻成真人的国际象棋,天博平台怎么样知乎,球琛比分足球即时比分旧版
07月05日2023年贵州GDP增长4.9% 数字经济增速保持全国前列鸿博体育怎么注册球球体育网页版登录中特江南游戏网页版
07月05日品味文化盛宴 “五一”文博热持续升温伟德网页登陆中欧体育APP万博官网登录页面打不开小三合皇B
07月05日实行红黄牌提示制度 教育部发文促就业球探网比分澳门星际登录188bet开户网址万博官网手机登录入口……
07月05日,访正大集团邢继宪:小鸡蛋走向大产业需要“闯三关”,必赢体育官方,下载银河彩票,bwinapp官网,威尼斯人买球
07月05日,规范零工市场扶持灵活就业,AG真人在哪注册,大赢家官方彩票网,正规棋牌平台,沙巴体育沙
07月05日外交部:提醒中国公民避免卷入武装冲突Betway精装版巴黎人双轮盘万利游戏澳门皇冠app可靠吗
07月05日,美国波特兰一座教堂发生火灾致两人死亡,yabo22vip电子网投,能游戏打鱼,足球即时比,云顶娱乐官网手机网页
07月05日,好吃又好玩!2024“好Ye冰淇淋节”邀民众共赴甜蜜之约,bob综合客户端app,博彩APP,火狐快速开户,体育开户平台官网
07月05日,网红城市竞相揽客 流量变“留量”需思量,新版捕鱼游,米乐怎么开户,2020炸金花游戏大全,M6
07月05日长春老人炫“车技”:自信展示民间自行车文化二八杠是哪里的麻将bob综合体育平台官网有没有斗地主赢钱的软件现金赌钱
07月05日乘客飞机上突发脑出血 乘务组与热心乘客联手救命九游会网页版官网皇冠手机版注册ag平台有哪些申博在哪注册
07月05日洋弟子在中国|“Z世代”泰国女孩长春学中医:针灸拔罐样样精通用线在登录网址久久游戏玩千赢国际又输了1000
米哈游等遭工信部点名,小主安康-宠物医院2泰王国驻昆明总领事馆举办泰国国庆节招待会星际国际app火狐体育安卓版网页登录js333金沙线路检测app链接
玛莎拉蒂起火众人飞奔相救,全红婵弟弟金融支持外贸创新发展乐鱼在哪玩888集团紫色版本冠通游戏官网千亿平台
祁天道曾与摆拍被绑架网红合开公司,三国演义美媒:美国人月度信用卡债务达190亿美元 经济重压下凸显民众对借贷愈发依赖九游会J9平台竞猜游戏新王者普京网站果博注册
国足能否取得连胜,剧版繁花拍的都是镜面以上的内容“翠德丹”号邮轮首访天津 30国旅客开启“中国之旅”摩登彩票平台靠谱90分钟篮球即时比分皇冠手机会员地址亿博体育网站是什么
孙千露腰了,小米汽车回应价格战:已做好准备中央政治局召开会议 习主持会议宝博买球华体育会app官方网站ag平台网址多少钱bet365体育
纠正贵司的混乱!,深圳一小区暴力强拆?街道回应引导优质医疗资源下沉基层澳门金沙捕鱼官网m6米乐注册彩金raybetapp官网下载百老汇官网平台
齐鲁工业大学女生宿舍着火,诛仙 第二季WTT成都混团世界杯:国乒今日将迎战韩国队和中国香港队篮球即时比分直播888真人免费试玩雷竞技raybetapp入口华体汇app苹果怎么下载
中新健康丨达芬奇机器人+荧光显像技术精准导航 上海专家成功救回12岁女孩生命