中國經(jīng)濟網(wǎng)編者按:隨著技術的進步,有人指出2024年大模型應用將迎來巨大機會。文化有大模型嗎?文化大模型的應用條件是否具備?近日,中央宣傳部原文改辦副主任、一級巡視員,中國公共關系協(xié)會文化大數(shù)據(jù)產(chǎn)業(yè)委員會副主任高書生以《文化大模型 蓄勢待發(fā)》一文回應了這些問題。本文經(jīng)作者授權發(fā)布,略有刪減,轉載請注明來源“中國經(jīng)濟網(wǎng)”。
2023年的最后一天,國家數(shù)據(jù)局聯(lián)合16個部門印發(fā)了《“數(shù)據(jù)要素×”三年行動計劃(2024—2026年)》,文件提出:挖掘文化數(shù)據(jù)價值,貫通各類文化機構數(shù)據(jù)中心,關聯(lián)形成中華文化數(shù)據(jù)庫,鼓勵依托市場化機制開發(fā)文化大模型。文件剛剛對外公布,參與文化大模型研發(fā)的中國公共關系協(xié)會文化大數(shù)據(jù)產(chǎn)業(yè)委員會(以下簡稱“專委會”)成員單位群情激動,紛紛表示要將文化大模型打造成為“數(shù)據(jù)要素×”三年行動計劃的“樣本項目”。
中國經(jīng)濟網(wǎng)資料圖 成琪/攝
文化大模型研發(fā)進程
美國OpenAI公司研發(fā)的ChatGPT在全球范圍所產(chǎn)生的沖擊波,不可避免波及到意識形態(tài)領域,對青少年價值觀認同產(chǎn)生直接影響。專委會征詢了相關專家意見,認為應當充分運用文化數(shù)字化建設積累的數(shù)據(jù),同科技公司聯(lián)手研發(fā)文化大模型。
2023年5月,專委會同華為云計算技術有限公司(以下簡稱“華為云”)就聯(lián)合研發(fā)文化大模型和應用場景問題進行了深入溝通,華為云認同專委會提出的人工智能大模型是文化和科技深度融合產(chǎn)物的觀點,雙方應當發(fā)揮各自優(yōu)勢、實現(xiàn)強強聯(lián)合,充分運用文化數(shù)字化建設成果,發(fā)揮華為云在人工智能大模型領域的技術優(yōu)勢和研發(fā)能力,聯(lián)合研發(fā)文化大模型和應用場景,探索人工智能時代維護意識形態(tài)和文化安全的有效途徑。
文化大模型是基于華為盤古大模型而開發(fā)的。華為的盤古大模型是一個基礎大模型,主要作用就是做好海量基礎知識的學習,可以形象地理解為“讀萬卷書”。在此基礎上依托行業(yè)伙伴的專業(yè)數(shù)據(jù)打造行業(yè)模型和場景模型,可以稱作“行萬里路”。文化大模型是在基礎大模型的基礎上形成的行業(yè)模型,文化機構再基于文化大模型開發(fā)專業(yè)模型,也就是場景模型。
2023年8月,專委會邀請20余家成員單位、國家文化大數(shù)據(jù)標識基地負責人,在北京召開文化大模型評測工作座談會,就文化大模型如何賦能文化數(shù)字化建設進行深入研討:
——針對文化企事業(yè)單位在文化數(shù)字化建設中面臨的數(shù)據(jù)體量大、處理成本高、數(shù)據(jù)處理效率低等問題,通過文化大模型的自動智能化標識、圖像元素自動提取、文生圖和圖生文的多模態(tài)能力可以有效解決。文化大模型幫助文化機構在多個應用場景高效完成各種工作,包括數(shù)字人對話、基于NLP的知識問答和搜索、多模態(tài)知識圖譜生成、AIGC文生圖自動標注、畫作鑒真、長視頻拆條自動處理等。
——針對文化機構自有數(shù)據(jù)量多、但因大模型投入大而裹足不前,專委會和華為云可以提供安全且自主可控的基礎設施平臺,保障數(shù)據(jù)端到端的安全處理,文化機構不需要投入巨額資金建立自己的算力存儲基礎設施和工具鏈,就可以使用自有數(shù)據(jù)擁有專業(yè)模型。
2023年9月,文化大模型開發(fā)應用大會在中國(南京)文化和科技融合成果展覽交易會期間舉行,大會展示了基于文化大模型開發(fā)應用的示范案例和相關工具等。
經(jīng)文化機構的評測,文化大模型基本達到了設計目標,能夠滿足實施國家文化數(shù)字化戰(zhàn)略中AI能力建設的各類應用場景,包括但不限于:自然語言處理能力(NLP),圖片自動分類聚類能力,自動化標簽能力,長視頻切片能力,知識圖譜(語義識別、概念抽。,AIGC能力,賦能數(shù)字人等。
文化大模型大規(guī)模開發(fā)應用的基礎條件已具備
《“數(shù)據(jù)要素×”三年行動計劃(2024—2026年)》對文化大模型開發(fā)應用指出了清晰的路徑:一是挖掘文化數(shù)據(jù)價值,二是貫通各類文化機構數(shù)據(jù)中心,三是關聯(lián)形成中華文化數(shù)據(jù)庫。自2020年成立以來,專委會積極組織成員單位協(xié)同推進國家文化大數(shù)據(jù)體系建設,為實施上述路徑奠定了堅實的基礎:
1、布局國家文化大數(shù)據(jù)標識基地。大模型時代,數(shù)據(jù)是人工智能的三大核心要素之一。優(yōu)質(zhì)的數(shù)據(jù)集直接決定了大模型的競爭力,要把文化大模型打造為便捷、好用的文化數(shù)字化生產(chǎn)工具,離不開高質(zhì)量數(shù)據(jù)。數(shù)據(jù)不標注,等于沒內(nèi)涵;數(shù)據(jù)不標識,等于沒身份。為提升文化數(shù)據(jù)的供給規(guī)模和質(zhì)量,專委會自2023年起布局國家文化大數(shù)據(jù)標識基地,旨在對文化資源數(shù)據(jù)進行分類、編目、標引和賦碼。目前,國家文化大數(shù)據(jù)標識基地已有11個,分布于文化、藝術、電影、出版、廣電網(wǎng)絡、文化投資等細分行業(yè)。
2、推動建設國家文化大數(shù)據(jù)體系省域中心。中辦、國辦印發(fā)的《關于推進實施國家文化數(shù)字化戰(zhàn)略的意見》指出:依托現(xiàn)有有線電視網(wǎng)絡設施、廣電5G網(wǎng)絡和互聯(lián)互通平臺,部署提供標識編碼注冊登記和解析服務的技術系統(tǒng),完善結算支付功能,形成國家文化專網(wǎng)以及國家文化大數(shù)據(jù)體系的省域中心和區(qū)域中心,服務文化資源數(shù)據(jù)的存儲、傳輸、交易和文化數(shù)字內(nèi)容分發(fā)。
國家文化大數(shù)據(jù)體系省域中心的主要職能,就是按照物理分布、邏輯關聯(lián)原則,貫通文化機構數(shù)據(jù)中心。目前,全國11個省級廣電網(wǎng)絡公司已建成國家文化大數(shù)據(jù)省域中心,能夠為文化機構接入國家文化專網(wǎng)提供網(wǎng)絡服務,其中四川廣電網(wǎng)絡公司承建的省域中心,已為全省314個文化、圖書、博物、旅游等機構提供國家文化專網(wǎng)接入服務。
3、推動建設標識解析體系。不同于互聯(lián)網(wǎng)的域名解析,文化數(shù)字化采用的是標識解析。
2015年,國際標準化組織(ISO)發(fā)布了由我國提案創(chuàng)建的信息與文獻領域國際標準,中文叫國際標準關聯(lián)標識符,英文簡稱ISLI(International Standard Link Identifier)。依托這項國際標準進行技術架構,即在廣電網(wǎng)絡公司機房部署提供標識編碼注冊登記和解析服務的技術系統(tǒng)、在文化機構數(shù)據(jù)中心部署底層關聯(lián)服務引擎和應用軟件,就可以形成了標識解析體系,數(shù)據(jù)即使在分布式存儲的狀態(tài)下,依然可以互聯(lián)互通,實現(xiàn)“物理分布、邏輯關聯(lián)”,把零散的文化資源數(shù)據(jù)關聯(lián)起來,把思想理論、文化旅游、文物、新聞出版、電影、廣播電視、網(wǎng)絡文化文藝等不同領域的文化資源數(shù)據(jù)關聯(lián)起來,把文字、音頻、視頻等不同形態(tài)的文化資源數(shù)據(jù)關聯(lián)起來,最終形成中華文化數(shù)據(jù)庫。
4、推動建設國家文化大數(shù)據(jù)交易體系。在國家文化大數(shù)據(jù)體系架構上,交易扮演著十分重要的角色——既是資源與生產(chǎn)的中介,又是生產(chǎn)與消費的中介。針對目前數(shù)據(jù)交易所存在的交易不活躍等問題,文化數(shù)據(jù)交易倡導“一碼通”,即交易主體及其交易標的被賦予唯一的關聯(lián)標識符(ISLI碼),憑碼交易、拼碼結算。
文化數(shù)據(jù)交易由買賣雙方在“數(shù)據(jù)超市”完成交易,文化產(chǎn)權交易所提供第三方交割,交割完成后“點對點”交付數(shù)據(jù),以確保數(shù)據(jù)安全。目前,由深圳文化產(chǎn)權交易所承建的全國文化大數(shù)據(jù)交易中心和由江蘇文化產(chǎn)權交易所承建的華東區(qū)域交易平臺均已上線運行。
5、組織開展文化元宇宙試驗。文化大模型具有領域寬、應用廣的特點。中辦、國辦印發(fā)的《關于推進實施國家文化數(shù)字化戰(zhàn)略的意見》明確,集成全息呈現(xiàn)、數(shù)字孿生、多語言交互、高逼真、跨時空等新型體驗技術,大力發(fā)展線上線下一體化、在線在場相結合的數(shù)字化文化新體驗。
數(shù)字化文化新體驗,是文化大模型最重要的應用場景。專委會正在組織開展文化元宇宙試驗,旨在培育文化數(shù)據(jù)要素應用場景,基本思路是把電視機作為文化元宇宙的入口,路徑是將機頂盒升級為文化元宇宙發(fā)射器,機構和個人進入文化元宇宙需進行身份認證,即被賦予唯一的關聯(lián)標識符(ISLI碼),作為生產(chǎn)者或消費者的憑證。目前,文化元宇宙發(fā)射器已研發(fā)出來,正在貴州、遼寧、寧夏等地進行測試。
6、合作研發(fā)文化大模型一體機。對計算資源的需求、超百億甚至千億級的參數(shù)規(guī)模、體系架構設計的高難度,提升了中小機構其開發(fā)應用大模型的門檻。為加速大模型的行業(yè)落地,針對百億級模型應用,華為公司打造了大模型一體機系列,免去大量適配調(diào)優(yōu)、系統(tǒng)搭建的成本,為大模型伙伴提供“拎包入住”式的部署體驗,2小時內(nèi)即可完成部署。
為加速推進國家文化大數(shù)據(jù)體系建設,專委會組織成員單位同華為公司合作研發(fā)出國家文化大數(shù)據(jù)一體化機柜,機柜內(nèi)部實現(xiàn)了專業(yè)機房環(huán)境,裝配了服務器、交換機等硬件設備,配置文化數(shù)據(jù)標識服務系統(tǒng),對機柜微環(huán)境參數(shù)實施實時監(jiān)控,由各級廣電網(wǎng)絡公司負責運維。隨著文化大模型的開發(fā)應用,專委會同華為公司達成共識,將國家文化大數(shù)據(jù)一體化機柜升級為文化大模型一體機,底層算力全部采用華為昇騰AI芯片,配備推理等功能,實現(xiàn)“一機在手,開發(fā)場景模型不愁”。
文化大模型作為智能化工具,應用范圍很廣泛,涵蓋了宣傳思想文化全戰(zhàn)線。文化大模型的文化,是“大文化”或跨部門范疇,從部門講包括宣傳、網(wǎng)信、文旅、新聞出版、電影、廣播電視、網(wǎng)絡文化文藝,從領域上講包括思想理論、文化旅游、文物、新聞出版、電影、廣播電視和網(wǎng)絡文化文藝。大模型時代,文化機構一定要跟上科技發(fā)展步伐,否則就會落伍甚至被邊緣化。文化機構無論規(guī)模多大,擁有的數(shù)據(jù)量多么龐大,如果游離于體系之外,僅僅靠自身的實力開發(fā)文化大模型,都會很吃力。在文化大模型開發(fā)應用上,“抱團取暖”,“眾人拾柴火焰高”,依然是共贏的法寶。
更多精彩內(nèi)容,請點擊進入文化產(chǎn)業(yè)頻道>>>>>
(責任編輯:成琪)