應(yīng)yl7703永利官網(wǎng)概率統(tǒng)計(jì)研究所邀請(qǐng),南方科技大學(xué)荊炳義教授將于2024年7月25日上午進(jìn)行學(xué)術(shù)報(bào)告,歡迎全校師生參加。
報(bào)告題目:大模型訓(xùn)練中的數(shù)據(jù)選擇
時(shí) 間:7月25日(星期四)上午11:20
地點(diǎn):騰訊會(huì)議(會(huì)議ID:317523597)
報(bào)告摘要:大模型的訓(xùn)練通常需要使用互聯(lián)網(wǎng)級(jí)別的海量數(shù)據(jù)。然而,Scaling Law表明,數(shù)據(jù)質(zhì)量對(duì)模型性能至關(guān)重要。因此,如何從這些海量數(shù)據(jù)中篩選出高質(zhì)量的樣本成為一個(gè)關(guān)鍵問題。為了解決這一挑戰(zhàn),我們從底層訓(xùn)練框架出發(fā),重新設(shè)計(jì)了數(shù)據(jù)在訓(xùn)練過程中的生命周期。這使得我們能夠在訓(xùn)練的不同階段引入不同的數(shù)據(jù)選擇策略,以便模型能夠選擇最適合的數(shù)據(jù)。此外,我們還實(shí)現(xiàn)了一種基于學(xué)習(xí)的探索策略,使得模型能夠自主進(jìn)行數(shù)據(jù)篩選,從而進(jìn)一步提高訓(xùn)練效率和模型性能。這些改進(jìn)優(yōu)化了數(shù)據(jù)篩選過程,同時(shí)為大模型訓(xùn)練提供了更加靈活和智能的解決方案。
歡迎廣大師生參加!
報(bào)告人簡(jiǎn)介
荊炳義,南方科技大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)系講席教授,國(guó)家特聘專家,國(guó)家自然科學(xué)獎(jiǎng)二等獎(jiǎng)獲得者,教育部長(zhǎng)江學(xué)者講座教授,及兩年度(2010,2015)獲教育部高等學(xué)校自然科學(xué)獎(jiǎng)二等獎(jiǎng)。荊炳義教授是美國(guó)統(tǒng)計(jì)學(xué)會(huì)(ASA)和國(guó)際數(shù)理統(tǒng)計(jì)學(xué)會(huì)(IMS)會(huì)士(Fellow),國(guó)際統(tǒng)計(jì)學(xué)會(huì)(ISI)推選會(huì)員(ElectedMember),泛華統(tǒng)計(jì)協(xié)會(huì)理事會(huì)成員。他是中國(guó)現(xiàn)場(chǎng)統(tǒng)計(jì)研究會(huì)多元分析應(yīng)用專業(yè)委員會(huì)理事長(zhǎng),并先后分別擔(dān)任Ann Appl Probab, JBES,《中國(guó)科學(xué)》等七家國(guó)際學(xué)術(shù)期刊副主編。荊教授研究興趣廣泛,主要研究領(lǐng)域?yàn)椋簭?qiáng)化學(xué)習(xí)、機(jī)器學(xué)習(xí)與人工智能、社交網(wǎng)絡(luò)、生物信息、金融統(tǒng)計(jì)、概率論與數(shù)理統(tǒng)計(jì),他在各領(lǐng)域中有許多開創(chuàng)性研究,取得了很多突破性科研成果,已在Annals of Statistics, Annals of Probability, Journal of American Statistical Association, Journal of Royal Statistical Society Series B, Biometrika, Journal of Econometrics, Journal of Business and Economic Statistics, Bioinformatics,Journal of Machine Learning Research,《中國(guó)科學(xué)》,NeurIPS等頂級(jí)期刊及頂會(huì)發(fā)表論文100余篇。此外,荊教授與產(chǎn)業(yè)界合作緊密,于2023年獲華為“火花獎(jiǎng)”。
甘肅應(yīng)用數(shù)學(xué)中心
甘肅省高校應(yīng)用數(shù)學(xué)與復(fù)雜系統(tǒng)省級(jí)重點(diǎn)實(shí)驗(yàn)室
蘭州大學(xué)大數(shù)據(jù)科學(xué)研究中心
yl7703永利官網(wǎng)
蘭州大學(xué)萃英學(xué)院
二〇二四年七月二十二日