浙江杭州宣布每年“算力券”總額提升至2.5億元;內(nèi)蒙古烏蘭察布正打造“全國算力保障基地”綠色低碳先行示范區(qū);江蘇選擇為數(shù)據(jù)立法,擬明確支持經(jīng)營主體開放數(shù)據(jù);湖南發(fā)布工作要點(diǎn),擬釋放數(shù)據(jù)要素價(jià)值……近段時(shí)間,各地相繼推出政策措施,搶抓風(fēng)口,聚焦“算力”和“數(shù)據(jù)”。伴隨人工智能進(jìn)入競速跑階段,上述兩大關(guān)鍵詞將成為推動(dòng)產(chǎn)業(yè)發(fā)展的關(guān)鍵基礎(chǔ)設(shè)施和基本要素。
構(gòu)建新質(zhì)算力基礎(chǔ)設(shè)施
作為人工智能發(fā)展的重要“底座”,2024年世界人工智能大會(huì)匯聚了諸多頭部企業(yè),并帶來最新智算成果。接受半月談?dòng)浾卟稍L的業(yè)內(nèi)人士認(rèn)為,算力市場將在很長一段時(shí)間內(nèi)呈現(xiàn)供不應(yīng)求態(tài)勢(shì),構(gòu)建新質(zhì)算力基礎(chǔ)設(shè)施將成為未來必爭之地,能—算—數(shù)—網(wǎng)(即能源、算力、數(shù)據(jù)、網(wǎng)絡(luò))一體化發(fā)展時(shí)代或?qū)砼R。
商湯智能產(chǎn)業(yè)研究院院長田豐認(rèn)為,隨著各種垂類、端類大模型成比例地增加,市場對(duì)算力的需求將處于井噴狀態(tài)。算力在短期或者中期都將是新質(zhì)生產(chǎn)力。一位行業(yè)資深人士對(duì)半月談?dòng)浾哒f:“在國內(nèi)通用大模型還未出現(xiàn)絕對(duì)領(lǐng)先者的當(dāng)下,產(chǎn)業(yè)各方對(duì)垂直模型的應(yīng)用市場更加關(guān)注。從新近通過模型備案的數(shù)量看,垂直模型的比例越來越高。如何率先進(jìn)入應(yīng)用市場,搶占先機(jī),后續(xù)再迭代升級(jí),是當(dāng)前的關(guān)注重點(diǎn)。對(duì)于算力的需求將會(huì)更貼近用戶,使用邊緣算力池實(shí)現(xiàn)應(yīng)用推理將成為常態(tài)。”
7月6日,世界人工智能大會(huì)參觀者在訊飛星火大模型演示屏前體驗(yàn)交流。新華社記者 方喆 攝
更加普惠和綠色環(huán)保的算力將快速增長,像水和空氣一樣賦能千行百業(yè)。
不少公司近期推出的智算產(chǎn)品都與此息息相關(guān)。商湯科技帶來國內(nèi)訓(xùn)練大模型的先進(jìn)基礎(chǔ)設(shè)施,SenseCore商湯大裝置總算力規(guī)模高達(dá)12000petaFLOPS(算力單位:每秒千萬億次浮點(diǎn)運(yùn)算),可支撐超過20個(gè)千億超大模型同時(shí)訓(xùn)練。中國電信推出云驍智算平臺(tái),實(shí)現(xiàn)了A100 93%的算效。無問芯穹發(fā)布了大規(guī)模模型的異構(gòu)分布式混合訓(xùn)練系統(tǒng),千卡異構(gòu)混合訓(xùn)練集群算力利用率最高達(dá)到了97.6%。
田豐表示,市場上將出現(xiàn)越來越多的節(jié)能芯片和更高密度芯片,算力將更加綠色環(huán)保。人工智能行業(yè)從單純的模型計(jì)算步入實(shí)打?qū)嵉膽?yīng)用階段,對(duì)于新質(zhì)算力基礎(chǔ)設(shè)施的需求也在不斷增加。
高質(zhì)量數(shù)據(jù)打下底座
未來,AI模型趨于復(fù)雜,并開始處理文本、音頻、圖像和視頻等各種類型數(shù)據(jù),對(duì)快速數(shù)據(jù)處理的需求變得更加迫切。多家企業(yè)對(duì)此已提出相應(yīng)方案。如星環(huán)科技的企業(yè)級(jí)多模態(tài)知識(shí)存儲(chǔ)與服務(wù),包括大數(shù)據(jù)與云平臺(tái)、星環(huán)分布式交易型數(shù)據(jù)庫(Transwarp KunDB)、分布式分析型數(shù)據(jù)庫(Transwarp ArgoDB)等,助力企業(yè)打造新一代一站式多模型數(shù)字底座。
中國電信則為此打造了數(shù)鏈智網(wǎng)(DCAN)。半月談?dòng)浾攉@悉,數(shù)鏈智網(wǎng)是指中國電信依托云、網(wǎng)、數(shù)、智、安資源稟賦和基礎(chǔ)優(yōu)勢(shì),統(tǒng)一構(gòu)建的數(shù)據(jù)要素能力體系,涵蓋“星海”大數(shù)據(jù)產(chǎn)品矩陣、“靈澤”數(shù)據(jù)要素鏈服務(wù)、“銀河”數(shù)據(jù)跨境流通解決方案等三大板塊。
值得注意的是,當(dāng)下,大模型在垂直行業(yè)應(yīng)用時(shí),許多企業(yè)通過私有化部署來應(yīng)對(duì)數(shù)據(jù)安全挑戰(zhàn),這不僅增加企業(yè)的運(yùn)維和服務(wù)成本,還影響對(duì)外服務(wù)的效率和質(zhì)量,且不利于多方數(shù)據(jù)跨領(lǐng)域、跨行業(yè)高效融合。
6月26日,上海,2024MWC上海世界移動(dòng)通信大會(huì)。
在螞蟻集團(tuán)副總裁兼首席技術(shù)安全官、螞蟻密算董事長韋韜看來,數(shù)據(jù)供給決定了大模型應(yīng)用能力的上限,而隱私計(jì)算技術(shù)決定了數(shù)據(jù)跨域供給的上限。當(dāng)大模型從通用走向?qū)I(yè)應(yīng)用,從技術(shù)想象力走向產(chǎn)業(yè)的生產(chǎn)力,必須解決高質(zhì)量數(shù)據(jù)集稀缺與專業(yè)數(shù)據(jù)阻滯的挑戰(zhàn),否則,大模型作為“智力引擎”,只會(huì)陷入空轉(zhuǎn)。今后,高價(jià)值數(shù)據(jù)要深度融合,須以密態(tài)方式進(jìn)行安全流轉(zhuǎn)。“我們希望聯(lián)合產(chǎn)業(yè)合作伙伴,把螞蟻集團(tuán)多年來在密態(tài)計(jì)算技術(shù)上的探索和創(chuàng)新,以開源和產(chǎn)品化的形式對(duì)外開放,為實(shí)體經(jīng)濟(jì)和中小微企業(yè)創(chuàng)造新的價(jià)值,讓數(shù)據(jù)價(jià)值的流動(dòng)像自來水一樣即開即用。”韋韜說。
星環(huán)科技創(chuàng)始人、CEO孫元浩表示,為了解決AI大模型中文語料治理等數(shù)據(jù)問題、大模型安全可控的問題,以及垂類全流程安全可控問題等,星環(huán)科技推出大模型運(yùn)營平臺(tái)(Sophon LLMOps),提供一站式的大模型基礎(chǔ)平臺(tái)。同時(shí)加快模型和語料研發(fā),推出大模型“無涯”,形成了大語言模型在行業(yè)的落地與合規(guī)安全的方法和實(shí)踐。此外,星環(huán)科技還積極推進(jìn)數(shù)據(jù)要素相關(guān)研發(fā),數(shù)據(jù)要素流通平臺(tái)Navier和數(shù)據(jù)安全管理平臺(tái)Defensor等都已投入應(yīng)用。
警惕數(shù)據(jù)瓶頸與算力浪費(fèi)
目前,我國算力布局仍較為分散。一位行業(yè)資深專家表示,除了模型訓(xùn)練之外,異構(gòu)芯片單集群以及跨集群的聯(lián)合訓(xùn)練是當(dāng)前算力領(lǐng)域重要的堵點(diǎn)問題,也是熱點(diǎn)問題。如果把閑散算力綜合利用,解決中國算力布局分散、芯片企業(yè)多點(diǎn)分布的現(xiàn)狀,需要產(chǎn)業(yè)各方大力推進(jìn)。核心問題是異構(gòu)芯片的聯(lián)合訓(xùn)練效率如何逼近單類芯片的訓(xùn)練效率。
這背后顯示出全國一體化算力市場建設(shè)的緊迫性。半月談?dòng)浾甙l(fā)現(xiàn),一些公司已通過自身平臺(tái),探索局部一體化。無問芯穹宣布,其Infini-AI云平臺(tái)已集成大模型異構(gòu)千卡混訓(xùn)能力,是全球首個(gè)可進(jìn)行單任務(wù)千卡規(guī)模異構(gòu)芯片混合訓(xùn)練的平臺(tái),具備萬卡擴(kuò)展性,支持包括AMD、華為昇騰、天數(shù)智芯、沐曦、摩爾線程、NVIDIA六種異構(gòu)芯片在內(nèi)的大模型混合訓(xùn)練。
7月5日,上海浦東,2024世界人工智能大會(huì),星環(huán)科技展出其全系列的AI+Infra平臺(tái)及工具,無涯大模型。
大模型向下深入扎根行業(yè),必須破解高質(zhì)量數(shù)據(jù)供給的挑戰(zhàn)。專業(yè)數(shù)據(jù)往往分散在不同的機(jī)構(gòu)、企業(yè)中,并且由于價(jià)值大、保密要求高而難以流動(dòng)。此外,在企業(yè)、大模型廠商和用戶之間存在信任壁壘,企業(yè)擔(dān)心數(shù)據(jù)對(duì)外泄露,大模型廠商擔(dān)心模型資產(chǎn)安全,用戶擔(dān)心個(gè)人數(shù)據(jù)和隱私風(fēng)險(xiǎn)。
中金公司的報(bào)告認(rèn)為,數(shù)據(jù)很可能是人工智能發(fā)展的瓶頸。一方面,大模型越來越依賴數(shù)據(jù)。大模型所使用的數(shù)據(jù)量已經(jīng)從GB級(jí)別增長到TB(1TB=1024GB)級(jí)別。截至2024年3月,大模型使用的詞元數(shù)量已達(dá)到40萬億級(jí)別。另一方面,對(duì)于大模型訓(xùn)練,不僅需要一般的數(shù)據(jù),高質(zhì)量數(shù)據(jù)更不可或缺。高質(zhì)量數(shù)據(jù)一般具有完整性、一致性、有效性、準(zhǔn)確性、及時(shí)性,是更加結(jié)構(gòu)化、有邏輯性的數(shù)據(jù),如書籍、報(bào)告等。中金公司認(rèn)為,高質(zhì)量數(shù)據(jù)可以更好地模擬客觀世界,使模型預(yù)測(cè)的分布更加接近真實(shí)世界的數(shù)據(jù)分布,從而提升模型的效果。而使用低質(zhì)量的數(shù)據(jù)會(huì)產(chǎn)生“垃圾進(jìn),垃圾出”的效果,對(duì)于模型能力沒有提升,反而可能有害。
除此以外,金融方面的支持仍有較大空間。田豐表示,相比美國新一波的AI云計(jì)算公司,國內(nèi)金融市場對(duì)本土AI算力企業(yè)的支持還非常薄弱,但這也是機(jī)會(huì)。一旦有了大金融加持,中國的算力基礎(chǔ)設(shè)施將日新月異,“算賦百業(yè)”不再只是設(shè)想。