來源標(biāo)題:油氣大模型破局需從三方面發(fā)力
在人工智能技術(shù)日新月異的今天,生成式人工智能的代表——ChatGPT的橫空出世,不僅在短時(shí)間內(nèi)吸引了全世界關(guān)注的目光,更激發(fā)了各行業(yè)對大型預(yù)訓(xùn)練模型的無限遐想。油氣行業(yè)作為國民經(jīng)濟(jì)的支柱之一,同樣期待它能為油氣勘探、開發(fā)帶來新變革。尤其是隨著國內(nèi)油氣資源品質(zhì)逐步劣質(zhì)化,油氣勘探開發(fā)難度逐漸加大,亟須運(yùn)用新技術(shù)提質(zhì)增效。
油氣大模型應(yīng)用面臨挑戰(zhàn)
數(shù)據(jù)、算力和算法是大模型發(fā)展的核心要素。其中,數(shù)據(jù)是大模型應(yīng)用的基石,算力是大模型應(yīng)用的保障,算法是大模型應(yīng)用的工具。由于油氣行業(yè)具有特殊性,在上述三個(gè)層面,油氣大模型開發(fā)都面臨著諸多挑戰(zhàn)。
在數(shù)據(jù)方面,油氣大模型應(yīng)用面臨數(shù)據(jù)稀缺、復(fù)雜和安全性的挑戰(zhàn)。一是油氣行業(yè)的數(shù)據(jù)涵蓋了地質(zhì)勘探、鉆井、生產(chǎn)和運(yùn)輸?shù)榷鄠€(gè)環(huán)節(jié),每個(gè)環(huán)節(jié)的數(shù)據(jù)采集都伴隨高昂的成本,樣本數(shù)量少且獲取非常困難,采集回的數(shù)據(jù)還具有多解性和不可驗(yàn)證性的特點(diǎn)。二是油氣行業(yè)的數(shù)據(jù)類型非常多樣化,處理這些不同種類、不同版本、不同結(jié)構(gòu)的數(shù)據(jù)本身就充滿挑戰(zhàn)。三是大模型需要學(xué)習(xí)海量數(shù)據(jù),但油氣行業(yè)對數(shù)據(jù)的安全性和保密性有著極高的要求,數(shù)據(jù)不能上傳公有云,且必須防止泄露,因此普遍存在“數(shù)據(jù)孤島”問題。這一現(xiàn)狀使得如何在保障數(shù)據(jù)安全前提下,整合分散的數(shù)據(jù)并訓(xùn)練行業(yè)基礎(chǔ)模型,成為油氣行業(yè)大模型應(yīng)用的關(guān)鍵難題。
在算力方面,油氣大模型的訓(xùn)練和優(yōu)化也面臨著算力資源不足的挑戰(zhàn)。大模型的訓(xùn)練和優(yōu)化通常需要巨大的算力資源,這往往伴隨著相當(dāng)高的投入成本。自建算力中心需要巨額資金投入,而租賃算力又存在數(shù)據(jù)安全和隱私保護(hù)的問題。目前,國內(nèi)油氣行業(yè)僅具備有限的微調(diào)算力,普遍不具備訓(xùn)練行業(yè)基礎(chǔ)模型所需的高水平算力。此外,由于各種原因,國內(nèi)油氣行業(yè)在短期內(nèi)很難建立起滿足大模型需求的算力資源。這一問題進(jìn)一步加劇了算力資源的短缺,使得大模型的應(yīng)用和發(fā)展受到嚴(yán)重制約。
在算法方面,油氣大模型也面臨版權(quán)糾紛等挑戰(zhàn)。算法的優(yōu)劣直接影響大模型的實(shí)際應(yīng)用效果。相較于傳統(tǒng)深度學(xué)習(xí)等算法,大模型的技術(shù)門檻更高,目前的發(fā)展主要依賴少數(shù)高端算法人才推動(dòng)。盡管許多開源大模型算法可以作為研發(fā)基礎(chǔ),但它們可能缺乏必要的技術(shù)支持和安全保障,存在商業(yè)機(jī)密泄露的風(fēng)險(xiǎn),且其能力往往不如閉源算法。此外,開源算法的版權(quán)協(xié)議中存在諸多限制條款,使得基于開源算法進(jìn)行研發(fā)時(shí)可能面臨版權(quán)糾紛。如果選擇使用閉源算法,則難以實(shí)現(xiàn)核心算法的自主可控。
從數(shù)據(jù)、算力和算法入手推動(dòng)大模型應(yīng)用
油氣大模型應(yīng)用并非坦途,需要在數(shù)據(jù)、算力和算法等方面破局。
首先,數(shù)據(jù)之困需破冰。面對數(shù)據(jù)采集高成本與復(fù)雜性并存的挑戰(zhàn),破解數(shù)據(jù)之困,要以大模型應(yīng)用為契機(jī),推動(dòng)數(shù)據(jù)治理,確保數(shù)據(jù)的全面性、準(zhǔn)確性和時(shí)效性。油氣行業(yè)在大模型方面的核心競爭力是“行業(yè)數(shù)據(jù)”,要做好“訓(xùn)練樣本庫”的基本功。油氣企業(yè)必須強(qiáng)化數(shù)據(jù)全生命周期管理,從數(shù)據(jù)源頭、數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)融合和匹配、數(shù)據(jù)完整性增強(qiáng)、數(shù)據(jù)標(biāo)注等環(huán)節(jié)嚴(yán)格規(guī)范,建立高質(zhì)量的訓(xùn)練樣本庫,提升數(shù)據(jù)治理能力,為模型提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。同時(shí),應(yīng)通過數(shù)據(jù)脫敏、數(shù)據(jù)加密、訪問控制和審計(jì)、合規(guī)性審查等方式加強(qiáng)數(shù)據(jù)安全和隱私性保護(hù)。如設(shè)置合適的權(quán)限和用戶角色,限制用戶對數(shù)據(jù)庫的訪問和操作,保護(hù)數(shù)據(jù)的安全性。還需進(jìn)行數(shù)據(jù)庫的維護(hù)和優(yōu)化工作,包括定期備份、數(shù)據(jù)清理、性能監(jiān)控等。在此前提下,構(gòu)建一批高質(zhì)量開源數(shù)據(jù)集,推動(dòng)油氣大模型研發(fā)生態(tài)建設(shè)。
其次,算力建設(shè)應(yīng)靈活。面對資金投入與隱私保護(hù)之間平衡的挑戰(zhàn),破解算力之困,應(yīng)以油氣大模型為契機(jī),推動(dòng)融合算力建設(shè)??刹扇∽赓U與自建相結(jié)合的方式,注重智算能力建設(shè)的同時(shí),加強(qiáng)數(shù)據(jù)安全與隱私保護(hù)。例如,企業(yè)應(yīng)根據(jù)自身業(yè)務(wù)需求、成本預(yù)算和技術(shù)實(shí)力,靈活選擇算力獲取方式。對于常規(guī)的計(jì)算任務(wù),可通過租賃公有云資源快速響應(yīng);而對于涉及敏感數(shù)據(jù)或需長期穩(wěn)定運(yùn)行的任務(wù),則可考慮自建或合作共建數(shù)據(jù)中心,確保數(shù)據(jù)安全與算力的可持續(xù)供給。在算力設(shè)施規(guī)劃上,應(yīng)注重長遠(yuǎn),實(shí)現(xiàn)通用計(jì)算、智能計(jì)算和高性能計(jì)算的融合布局,通用計(jì)算滿足日常運(yùn)營的基本計(jì)算需求,智能計(jì)算側(cè)重于深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等智能算法的高效執(zhí)行,高性能計(jì)算則針對大規(guī)??茖W(xué)計(jì)算和復(fù)雜模擬,滿足不同場景的需求,顯著提高算力資源的利用效率。
此外,算法創(chuàng)新勿盲從。面對大模型訓(xùn)練周期長與迭代速度快的雙重考驗(yàn),破解算法之困,應(yīng)量身定做適合行業(yè)特性的算法模型,避免盲目跟風(fēng)。應(yīng)理性認(rèn)識大模型的價(jià)值,優(yōu)先實(shí)施場景模型和數(shù)據(jù)質(zhì)量優(yōu)良的L2行業(yè)基礎(chǔ)模型,重點(diǎn)應(yīng)放在微調(diào)和適配下游任務(wù)上,避免盲目投入通用基礎(chǔ)模型的研發(fā),確保技術(shù)棧的自主可控。油氣行業(yè)應(yīng)秉持資源優(yōu)化配置的原則,聚焦油氣主營業(yè)務(wù),從投入成本、產(chǎn)出效益、技術(shù)成熟度,以及穩(wěn)定性、行業(yè)聚焦、核心競爭力等方面慎重考慮。在巖心分析、地震資料處理解釋、測井?dāng)?shù)據(jù)分析等特定領(lǐng)域,大模型能發(fā)揮顯著作用,但不可過度依賴,應(yīng)明確模型的適用范圍。
為了推動(dòng)大模型技術(shù)的自主可控,還需加強(qiáng)“AI+能源”復(fù)合團(tuán)隊(duì)的建設(shè)。訓(xùn)練、應(yīng)用大模型不能閉門造車,要打破傳統(tǒng)行業(yè)壁壘,注重聯(lián)合研發(fā)生態(tài)的建設(shè),例如推動(dòng)油氣行業(yè)與互聯(lián)網(wǎng)企業(yè)、高校等的合作,促進(jìn)跨學(xué)科人才整合,形成產(chǎn)學(xué)研用緊密結(jié)合的創(chuàng)新體系,為油氣大模型應(yīng)用構(gòu)建可持續(xù)的人才保障。同時(shí),可通過項(xiàng)目合作、人才培養(yǎng)、共建研發(fā)平臺等方式加強(qiáng)大模型算法等方面的合作交流,并明確合作目標(biāo)與分工,以及知識產(chǎn)權(quán)分配與管理、數(shù)據(jù)保密和隱私保護(hù)等制度和規(guī)范。
大模型必將推動(dòng)油氣行業(yè)新質(zhì)生產(chǎn)力發(fā)展,未來可期,但道阻且長。油氣行業(yè)要充分認(rèn)識油氣大模型的特殊性,從數(shù)據(jù)、算力、算法等方面做好工作,穩(wěn)扎穩(wěn)打,逐步推進(jìn),讓AI成為推動(dòng)油氣行業(yè)轉(zhuǎn)型升級的重要驅(qū)動(dòng)力。