|
|
|
構(gòu)建專業(yè)數(shù)據(jù)集 支撐電力科研更好應(yīng)用人工智能技術(shù) |
|
發(fā)布者: 發(fā)布時間:2025-3-18 閱讀:79次 |
數(shù)據(jù)集是一組相關(guān)數(shù)據(jù)的集合,通常以結(jié)構(gòu)化形式(如表格、數(shù)據(jù)庫)或非結(jié)構(gòu)化形式(如文本、圖像、音頻)存在,是數(shù)據(jù)分析、機器學(xué)習(xí)和數(shù)據(jù)挖掘的基礎(chǔ)。而科研數(shù)據(jù)集是指在科學(xué)研究中用于分析、實驗和驗證假設(shè)的數(shù)據(jù)集合,通常經(jīng)過精心收集、整理和標注,以支持特定研究領(lǐng)域的問題探索和解決。電力數(shù)據(jù)涉及生產(chǎn)、運行、維護和經(jīng)營管理等多個領(lǐng)域。構(gòu)建電力科研數(shù)據(jù)集為算法研究和模型驗證提供了統(tǒng)一的基準,可支持負荷預(yù)測、需求響應(yīng)優(yōu)化、分布式能源管理、電力市場分析等相關(guān)任務(wù),助力電力領(lǐng)域科學(xué)研究。電力科研數(shù)據(jù)集應(yīng)具備高質(zhì)量、多維度和高時效等特性在我國,隨著用能需求的不斷增長以及可再生能源的快速發(fā)展,電力系統(tǒng)正面臨前所未有的挑戰(zhàn)。人工智能技術(shù)可推動構(gòu)建新型電力系統(tǒng),而海量數(shù)據(jù)是人工智能模型擁有強大能力的關(guān)鍵要素。依靠人工智能技術(shù)開展模擬、訓(xùn)練、推演和驗證等工作,需要大量完整、真實的數(shù)據(jù)集來檢驗方法和模型的有效性。2024年12月,國家數(shù)據(jù)局等部門印發(fā)的《關(guān)于促進企業(yè)數(shù)據(jù)資源開發(fā)利用的意見》提出,支持企業(yè)面向人工智能發(fā)展,開發(fā)高質(zhì)量數(shù)據(jù)集。在科研、制造、農(nóng)業(yè)、能源、交通、金融、通信、廣電、醫(yī)療、教育、商貿(mào)流通、文化旅游等重點行業(yè)領(lǐng)域,打造一批示范帶動性強的人工智能創(chuàng)新應(yīng)用,深化“人工智能+”應(yīng)用賦能千行百業(yè)。電力科研數(shù)據(jù)集應(yīng)具備高質(zhì)量、多維度和高時效性等特性,能夠覆蓋輸電、變電、配電及調(diào)度等多個領(lǐng)域,并確保數(shù)據(jù)的全面性和可用性。同時,電力科研數(shù)據(jù)集應(yīng)支持多種應(yīng)用場景,如模型開發(fā)、系統(tǒng)優(yōu)化、故障診斷、仿真模擬和應(yīng)用評測等,還需具備動態(tài)更新、標準化管理、跨平臺兼容及隱私保護等功能,以確保數(shù)據(jù)的時效性、安全性和復(fù)用性。我國構(gòu)建電力科研數(shù)據(jù)集存在多種需求結(jié)合我國電力行業(yè)發(fā)展實際情況,借鑒國外電力科研數(shù)據(jù)集構(gòu)建經(jīng)驗,本文認為國內(nèi)電力科研數(shù)據(jù)集構(gòu)建存在以下需求:高效的多源數(shù)據(jù)融合與數(shù)據(jù)治理體系。電力科研數(shù)據(jù)源自多個領(lǐng)域,且數(shù)據(jù)形式多樣。不同來源的數(shù)據(jù)維度不統(tǒng)一,跨源數(shù)據(jù)之間語義不一致,增加了數(shù)據(jù)融合的難度。數(shù)據(jù)治理缺乏標準化流程,數(shù)據(jù)清洗、標注、增廣等操作不統(tǒng)一,導(dǎo)致數(shù)據(jù)集治理周期長、效率低,影響數(shù)據(jù)有效集成與分析。因此,需要開展數(shù)據(jù)融合,構(gòu)建完善的治理體系。適應(yīng)快速變化的數(shù)據(jù)平臺管理機制。科研數(shù)據(jù)集往往滯后于實際需求。在快速變化的實驗環(huán)境中,如果數(shù)據(jù)集缺乏動態(tài)更新機制,就難以及時反映最新的實驗條件和設(shè)備狀態(tài),影響模型訓(xùn)練和實驗分析的效果。鑒于以上情況,需要及時更新數(shù)據(jù)集,并構(gòu)建多層級數(shù)據(jù)管理機制與版本控制機制,以滿足電力科研實驗按數(shù)據(jù)粒度提取樣本、回溯問題版本的需求。安全可控與高效復(fù)用的數(shù)據(jù)統(tǒng)一管理機制。科研數(shù)據(jù)集通常由不同的研究團隊獨立構(gòu)建。在分散式的管理模式下,每個數(shù)據(jù)集的構(gòu)建標準、數(shù)據(jù)格式、采集頻率、數(shù)據(jù)質(zhì)量控制等方面的差異較大,導(dǎo)致數(shù)據(jù)整合和復(fù)用困難。因此,需要開展數(shù)據(jù)統(tǒng)一管理,構(gòu)建數(shù)據(jù)安全共享和快速復(fù)用機制。可覆蓋電力行業(yè)各類場景的稀缺數(shù)據(jù)采集方式。某些關(guān)鍵工況或極端條件下的稀缺數(shù)據(jù)在電力科研實驗過程中難以獲得,且受氣候、地理、設(shè)備狀態(tài)等因素影響,這些數(shù)據(jù)的質(zhì)量和完整性參差不齊。此類數(shù)據(jù)的缺少將影響在特殊場景下對模型的評估,并影響模型的應(yīng)用效果。所以,需要拓展稀缺數(shù)據(jù)采集方式,快速歸集電力行業(yè)全場景科研數(shù)據(jù),為電力科研打好數(shù)據(jù)基礎(chǔ)。從數(shù)據(jù)融合、更新、共享等方面提升科研數(shù)據(jù)集構(gòu)建能力針對現(xiàn)階段我國電力科研對數(shù)據(jù)集的需求,建議通過探索多源數(shù)據(jù)融合方法、建立動態(tài)更新機制、構(gòu)建統(tǒng)一數(shù)據(jù)共享平臺、利用仿真技術(shù)與實驗?zāi)M彌補稀缺數(shù)據(jù)等方式提升科研數(shù)據(jù)集構(gòu)建能力。在多源數(shù)據(jù)融合和數(shù)據(jù)治理體系方面,建議建立統(tǒng)一的數(shù)據(jù)治理框架并推行標準化的數(shù)據(jù)清洗與預(yù)處理流程。針對電力科研數(shù)據(jù)的多樣性,制訂統(tǒng)一的數(shù)據(jù)格式和數(shù)據(jù)結(jié)構(gòu)規(guī)范,使不同來源的數(shù)據(jù)能夠無縫對接和集成。建立跨團隊的數(shù)據(jù)治理協(xié)作機制,確保數(shù)據(jù)標注、清洗、增廣等操作規(guī)范化、標準化,提高數(shù)據(jù)處理的效率和一致性。建立基于元數(shù)據(jù)的管理系統(tǒng),使各個環(huán)節(jié)的數(shù)據(jù)處理流程透明化和可追溯,提升數(shù)據(jù)的質(zhì)量和可靠性。在數(shù)據(jù)更新和數(shù)據(jù)平臺管理方面,建立自動化的數(shù)據(jù)更新系統(tǒng),依據(jù)設(shè)備狀態(tài)變化、實驗進程等動態(tài)因素,自動采集并上傳最新的數(shù)據(jù),確保數(shù)據(jù)集反映現(xiàn)實情況。設(shè)計基于云平臺的多層級數(shù)據(jù)管理體系,按照數(shù)據(jù)的不同粒度進行管理,實現(xiàn)數(shù)據(jù)集的分層存儲和按需提取。建立數(shù)據(jù)版本控制機制,記錄和管理每次數(shù)據(jù)更新的歷史,以便科研人員根據(jù)實際需要提取最合適的數(shù)據(jù)集,建立數(shù)據(jù)異常時的回滾及容災(zāi)機制。在數(shù)據(jù)共享與復(fù)用方面,建立統(tǒng)一的數(shù)據(jù)共享平臺管理科研數(shù)據(jù)集,推動跨領(lǐng)域、跨團隊的數(shù)據(jù)協(xié)作。依托數(shù)據(jù)共享平臺,科研人員可獲取各類電力科研數(shù)據(jù)。同時,數(shù)據(jù)共享平臺應(yīng)引入嚴格的權(quán)限控制機制,對用戶進行訪問控制,確保特殊數(shù)據(jù)的隱私性與安全性。在稀缺數(shù)據(jù)采集方面,通過加強仿真數(shù)據(jù)生成與實驗?zāi)M來彌補現(xiàn)實數(shù)據(jù)的不足。可利用高性能計算和物理模型,結(jié)合氣候、地理等因素開展多場景、多工況的仿真實驗,生成極端條件下的稀缺數(shù)據(jù)。探索與設(shè)備供應(yīng)商、氣象機構(gòu)等合作,推動現(xiàn)場數(shù)據(jù)的采集與共享。采用數(shù)據(jù)增強技術(shù),將已有數(shù)據(jù)生成不同的變種,進一步擴展數(shù)據(jù)覆蓋范圍,確保模型訓(xùn)練的全面性和準確性。
本文來源:國家電網(wǎng)報;作者單位:國家電網(wǎng)有限公司大數(shù)據(jù)中心;作者:陳振宇,杜建光,楊詩語 |
|
|
|
|