

在數(shù)據(jù)要素價值加速釋放的背景下,科學(xué)數(shù)據(jù)的開放共享與協(xié)作正成為破解科研難題、推動產(chǎn)業(yè)升級的核心引擎。4月29日,第八屆數(shù)字中國建設(shè)峰會科學(xué)數(shù)據(jù)合作分論壇在福州數(shù)字中國會展中心舉行。論壇以“開放科學(xué)數(shù)據(jù),共筑數(shù)字未來”為主題,由復(fù)旦大學(xué)主辦,上海科學(xué)智能研究院(下稱上智院)承辦,華為云計算技術(shù)有限公司、中國聯(lián)通上海分公司、中國電信上海分公司、阿里云計算有限公司共同協(xié)辦,吸引了各界代表共議科學(xué)數(shù)據(jù)生態(tài)建設(shè)。
福建省政協(xié)副主席劉獻祥,復(fù)旦大學(xué)副校長、中國科學(xué)院院士馬余剛,先后進行了致辭。復(fù)旦大學(xué)校長助理、上智院理事長吳力波,復(fù)旦大學(xué)浩清特聘教授、復(fù)旦大學(xué)人工智能創(chuàng)新與產(chǎn)業(yè)研究院院長、上智院院長漆遠,分別發(fā)表開幕演講。上海市數(shù)據(jù)科學(xué)重點實驗室主任肖仰華,上海數(shù)據(jù)研究院有限公司學(xué)術(shù)副院長朱揚勇,上海財經(jīng)大學(xué)數(shù)字經(jīng)濟研究院院長高紅冰,上海庫帕思科技有限公司董事長山棟明,聯(lián)通(上海)產(chǎn)業(yè)互聯(lián)網(wǎng)有限公司總經(jīng)理、研究院院長堵煒煒,中國電信上海公司云技術(shù)總監(jiān)、集團高級專家沈鳴,華為云數(shù)據(jù)要素業(yè)務(wù)總經(jīng)理、首席專家劉萬來,英矽智能中國區(qū) IT 負責(zé)人沙林,阿里云智能政企業(yè)事業(yè)部大模型智算產(chǎn)品與研發(fā)負責(zé)人王浩等產(chǎn)學(xué)研代表發(fā)表主題演講。上智院首席戰(zhàn)略官、復(fù)旦大學(xué)兼職教授楊燕青主持論壇。
會上,復(fù)旦大學(xué)人工智能創(chuàng)新與產(chǎn)業(yè)研究院副院長、上智院院長助理程遠作為代表發(fā)布了三項科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施——生命流體數(shù)據(jù)集、催化化學(xué)反應(yīng)活性數(shù)據(jù)集及科學(xué)數(shù)據(jù)標(biāo)注平臺。由復(fù)旦大學(xué)和上智院共建的系列科學(xué)數(shù)據(jù)新基建旨在通過數(shù)據(jù)開放共享與智能化工具,破解科研效率瓶頸,推動跨學(xué)科創(chuàng)新。
三項科學(xué)數(shù)據(jù)基建成果發(fā)布
血流動力學(xué)研究是生物醫(yī)學(xué)領(lǐng)域的重要組成部分,它幫助科學(xué)家深入理解生物體內(nèi)的運動規(guī)律,有助于理解心血管系統(tǒng)的功能和疾病機制。通過分析血液在血管中的流動特性及其與血管內(nèi)壁的相互作用,研究人員能夠識別出血壓、血管直徑、血液粘度等影響血流的因素,這對高血壓、心力衰竭、顱內(nèi)動脈瘤等心腦血管疾病的預(yù)防和治療至關(guān)重要。其中,顱內(nèi)動脈瘤是一類腦部血管畸變,通常無癥狀,但是一旦破裂卻可能導(dǎo)致嚴(yán)重的蛛網(wǎng)膜下腔出血(SAH)。盡管臨床實踐通常基于動脈瘤的個體因素和形態(tài)特征,但其病理生理和血流動力學(xué)機制仍存在爭議。
生命流體數(shù)據(jù)集Aneumo基于466個真實顱內(nèi)動脈瘤的幾何形狀開發(fā),通過切除和變形操作生成超10000個合成幾何形狀(含 466 個無動脈瘤幾何和 9534 個變形動脈瘤幾何),涵蓋流速、壓力、壁面切應(yīng)力等關(guān)鍵參數(shù),為研究動脈瘤的發(fā)病機制和臨床預(yù)測提供了寶貴資源。
該數(shù)據(jù)集將為顱內(nèi)動脈瘤破裂風(fēng)險預(yù)測提供多場景模擬支持,還可基于血流動力學(xué)原理助力優(yōu)化血管支架、人工血管等醫(yī)療設(shè)備的設(shè)計流程。這將有助于加深對顱內(nèi)動脈瘤病理特征和血流動力學(xué)機制的理解,并支持相關(guān)領(lǐng)域的深入研究,加速心腦血管疾病診療方案的臨床轉(zhuǎn)化。
催化化學(xué)反應(yīng)活性數(shù)據(jù)集
聚焦于解決化學(xué)研發(fā)中的關(guān)鍵挑戰(zhàn)
化學(xué)文獻中反應(yīng)數(shù)據(jù)的記錄方式存在顯著差異,特別是產(chǎn)率計算標(biāo)準(zhǔn)、催化劑命名規(guī)則等關(guān)鍵信息往往缺乏統(tǒng)一規(guī)范。通過開發(fā)專用的化學(xué)信息提取算法與人工校驗流程,團隊實現(xiàn)了對海量非結(jié)構(gòu)化數(shù)據(jù)的標(biāo)準(zhǔn)化重構(gòu),基于該數(shù)據(jù)集訓(xùn)練的催化反應(yīng)預(yù)訓(xùn)練模型在Buchwald-Hartwig、Suzuki-Miyaura等關(guān)鍵交叉偶聯(lián)反應(yīng)上能實現(xiàn)反應(yīng)活性的精準(zhǔn)預(yù)測,預(yù)測誤差低于10%。
該數(shù)據(jù)集在微觀層面完整記錄了反應(yīng)底物、催化劑、溶劑、添加劑等關(guān)鍵組分,在宏觀層面系統(tǒng)整合了制藥、化工催化及電池研發(fā)等領(lǐng)域的近30類反應(yīng)類型,包括經(jīng)典的偶聯(lián)反應(yīng)、環(huán)加成反應(yīng)以及前沿的碳氫鍵活化反應(yīng)等。數(shù)據(jù)集提供了超過100萬條經(jīng)過嚴(yán)格校驗的反應(yīng)記錄,并建立了從實驗室小試到工業(yè)化放大的標(biāo)準(zhǔn)化數(shù)據(jù)橋梁。
會上發(fā)布的另一項科學(xué)數(shù)據(jù)成果——科學(xué)數(shù)據(jù)標(biāo)注平臺,則旨在通過人工智能與專業(yè)標(biāo)注工具的結(jié)合,提升科研數(shù)據(jù)處理效率,加速科學(xué)發(fā)現(xiàn)進程。平臺打造了端到端智能文獻提取方案,實現(xiàn)自動化采集,加工,標(biāo)注和落庫的一站式自動化方案,大幅度提高質(zhì)量數(shù)據(jù)集加工效率。
該平臺將提供化學(xué)分子式標(biāo)注
文獻表格提取
及2D/3D醫(yī)療影像標(biāo)注等
多模態(tài)工具
通過AI輔助標(biāo)注功能
大幅縮短標(biāo)注周期
降低專業(yè)門檻
并構(gòu)建安全可信可審計的
數(shù)據(jù)標(biāo)注環(huán)境
平臺配備50人以上
專業(yè)化標(biāo)注團隊
以低培訓(xùn)門檻
和高效率服務(wù)支持科研需求
上述成果基于上智院和復(fù)旦大學(xué)共建的高質(zhì)量科學(xué)語料平臺開發(fā)。該平臺具備從數(shù)據(jù)采集、加工到管理和建模的全鏈路能力,目前已匯聚超10PB高質(zhì)量科學(xué)數(shù)據(jù),支持多學(xué)科研究效率躍升。
學(xué)界業(yè)界共話數(shù)據(jù)開放生態(tài)
吳力波在演講中指出,語料和數(shù)據(jù)是未來AI發(fā)展的戰(zhàn)略性資源,但當(dāng)前數(shù)據(jù)價值評估體系與開放治理機制仍不完善。她說:“為了科學(xué)和社會的利益,當(dāng)下需要探索能夠針對科學(xué)數(shù)據(jù)非實體性、場景特異性、加工難度大、價值易變等特征,構(gòu)建結(jié)合成本特征、公共屬性與市場屬性的定價機制,同時通過可信、可追溯的智能合約增進科學(xué)合作和信息共享。政府、NGO、大型企業(yè)和科研機構(gòu)是全球開放數(shù)據(jù)的主要來源,亟待各方共同推動多層級數(shù)據(jù)開放體系,夯實開放科學(xué)的數(shù)據(jù)基石。
吳力波
“大模型是對互聯(lián)網(wǎng)的壓縮,而數(shù)據(jù)決定了接下來人工智能能力的上限。”漆遠在演講中強調(diào),“領(lǐng)域-模型-工程”的開放合作是科學(xué)智能發(fā)展的核心驅(qū)動力,相對Deepseek等大語言模型,垂直領(lǐng)域科學(xué)大模型更多樣化,尤其需要工程力和基礎(chǔ)設(shè)施的支撐。他表示,此次復(fù)旦大學(xué)和上智院聯(lián)合發(fā)布的科學(xué)數(shù)據(jù)基礎(chǔ)建設(shè)成果就是對此模式的實踐,將以標(biāo)準(zhǔn)化數(shù)據(jù)和工具助力科研人員專注創(chuàng)新。
漆遠
在后續(xù)的主題演講環(huán)節(jié),肖仰華聚焦科學(xué)數(shù)據(jù)的價值變現(xiàn),呼吁通過碎片化信息的關(guān)聯(lián)與融合等方式來激活數(shù)據(jù)價值;朱揚勇分析了數(shù)據(jù)跨境的歷史和現(xiàn)狀,從多個維度探討了科學(xué)數(shù)據(jù)跨境流通的技術(shù)與政策平衡點;高紅冰從數(shù)據(jù)、信息、知識、智慧四個層面出發(fā),提出基于D-I-K-W模型的實施框架來促進科學(xué)數(shù)據(jù)合作與應(yīng)用;山棟明從產(chǎn)業(yè)視角分享AI技術(shù)重構(gòu)科研底層邏輯的實踐;堵煒煒提出通信運營商在科學(xué)數(shù)據(jù)生態(tài)中的AI新基座方案;沈鳴解析了教育科研新基建對開放科學(xué)的助推作用;劉萬來展示了云平臺如何融合各類流通利用技術(shù),實現(xiàn)數(shù)據(jù)跨主體、跨邊界流通的可信、可控、可證;沙林分享了新藥研發(fā)中通過AI 自動化實驗室主動創(chuàng)造高質(zhì)量數(shù)據(jù)等方面的經(jīng)驗;王浩則展望了大模型時代下的科研創(chuàng)新與產(chǎn)業(yè)升級,闡釋了以“云+AI”推動科技創(chuàng)新的優(yōu)勢。
肖仰華
作為推進數(shù)字中國建設(shè)的重要載體,自2018年起,數(shù)字中國建設(shè)峰會每年春天在福建福州召開。本屆峰會由國家發(fā)展改革委、國家數(shù)據(jù)局、國家網(wǎng)信辦、工業(yè)和信息化部、福建省人民政府共同主辦,福州市人民政府和相關(guān)單位承辦,超過800位企業(yè)家、超100名院士專家以及社會各界人士齊聚,持續(xù)為數(shù)字中國戰(zhàn)略注入創(chuàng)新動能。
(記者 王至瑩)