日本一本正道综合久久dvd_亚洲综合图_色综合久久天天_亚洲综合图色国模40p_国产精品嘿咻嘿咻

 
首頁 > 熱點(diǎn) >
 
 

環(huán)球微資訊!專訪華傲數(shù)據(jù)董事長賈西貝:數(shù)據(jù)是大模型的勝負(fù)手|AI地理圖鑒

2023-06-30 18:05:40  來源:科創(chuàng)板日報(bào)

財(cái)聯(lián)社6月30日訊(記者 付靜)近日深圳市重磅發(fā)布的《深圳市加快推動(dòng)人工智能高質(zhì)量發(fā)展高水平應(yīng)用行動(dòng)方案(2023—2024年)》(以下簡稱《行動(dòng)方案》)強(qiáng)調(diào),支持本地龍頭企業(yè)加大人工智能投入。

深圳AI產(chǎn)業(yè)鏈企業(yè)研發(fā)/應(yīng)用進(jìn)展如何?各企業(yè)對(duì)于深圳AI產(chǎn)業(yè)發(fā)展有哪些看法及建議?帶著這些問題,財(cái)聯(lián)社記者與深圳市人大代表、國內(nèi)頭部公共數(shù)據(jù)加工治理企業(yè)華傲數(shù)據(jù)董事長賈西貝進(jìn)行了深度對(duì)話,以下為采訪實(shí)錄。


(資料圖)

深圳數(shù)據(jù)和人工智能產(chǎn)業(yè)有哪些優(yōu)勢?

財(cái)聯(lián)社:您認(rèn)為深圳數(shù)據(jù)和人工智能領(lǐng)域的發(fā)展水平在一線城市中排在怎樣的位置?

賈西貝:目前一線城市對(duì)人工智能都比較重視,北京、上海、深圳、廣州各有千秋。北京有百度、頭條等一些大型科技企業(yè)總部和曠視、第四范式等專業(yè)人工智能頭部公司,也是很多央企總部、國家級(jí)科研機(jī)構(gòu)和大學(xué)的所在地,對(duì)人工智能比較重視,多年前就成立了智源人工智能研究院等新型研發(fā)機(jī)構(gòu),今年快速出臺(tái)了相應(yīng)政策,有很大優(yōu)勢。上海在芯片企業(yè)和頭部專業(yè)AI公司方面也有優(yōu)勢。

但深圳的優(yōu)勢非常明顯,第一,有全國最好的營商環(huán)境和創(chuàng)業(yè)氛圍,非常多的數(shù)字科技公司、硬科技創(chuàng)新企業(yè)在深圳發(fā)展,產(chǎn)業(yè)鏈完備,創(chuàng)新活躍、后勁大;第二,有全國最豐富的大模型應(yīng)用場景,很多專家認(rèn)為每一個(gè)行業(yè)都值得用大模型重新做一遍,深圳在這些行業(yè)的大量應(yīng)用場景中在全球占有重要影響力,從互聯(lián)網(wǎng)與通信、消費(fèi)電子、新能源車到黃金珠寶加工等;第三,通過鵬城實(shí)驗(yàn)室建立了國際上數(shù)一數(shù)二的智能算力基礎(chǔ)設(shè)施;第四,在整個(gè)數(shù)據(jù)要素市場化方面,深圳是國內(nèi)做得最好的城市之一,深圳數(shù)據(jù)交易所現(xiàn)在是全國交易額最大的數(shù)據(jù)交易所;第五,深圳是全國最早開展跨層級(jí)、跨部門、跨系統(tǒng)、跨業(yè)務(wù)大規(guī)模數(shù)據(jù)治理工作的城市,2013年以來獲得過國家政務(wù)信息共享示范市和信息惠民示范城市等很多相關(guān)榮譽(yù),十年來積累了大量城市公共數(shù)據(jù),在秒批、數(shù)字營商環(huán)境、政策AI計(jì)算器、以及政府便民熱線、基層治理、法院工作、一網(wǎng)統(tǒng)管等領(lǐng)域的AI寫報(bào)告等方面發(fā)揮了重要價(jià)值,已經(jīng)實(shí)踐證實(shí)可以為大模型提供非常好的養(yǎng)料;第六,深圳在數(shù)據(jù)和人工智能的立法與政策方面是全國的領(lǐng)頭羊,無論是全國第一部綜合性數(shù)據(jù)立法的出臺(tái),還是人工智能、自動(dòng)駕駛的立法以及針對(duì)數(shù)據(jù)交易、大模型等的相關(guān)政策都走在全國前列;第七,在大型科技企業(yè)、央企總部和專業(yè)AI及數(shù)據(jù)公司方面,深圳有華為、騰訊、中興、平安、中電子、奧比中光、云天勵(lì)飛、優(yōu)必選、華傲等。

財(cái)聯(lián)社:整體而言,您怎么看《行動(dòng)方案》對(duì)深圳AI產(chǎn)業(yè)發(fā)展的意義?對(duì)本土相關(guān)企業(yè)、產(chǎn)業(yè)將帶來哪些機(jī)會(huì)?

賈西貝:第一,從使用者的角度來講,現(xiàn)在有toC、toB、toG的大模型,《行動(dòng)方案》肯定會(huì)促進(jìn)在深個(gè)人、企業(yè)包括政府更廣泛地應(yīng)用大模型,享受大模型帶來的紅利。第二,大模型剛出現(xiàn)時(shí)訓(xùn)練成本非常高,現(xiàn)在則走入一個(gè)分段創(chuàng)新、開放參數(shù)、開源算法、分工協(xié)作的時(shí)代,分工協(xié)作的生態(tài)化體系代替了單一公司的全棧開發(fā),每個(gè)公司有自己的資源基礎(chǔ)和優(yōu)勢,通過生態(tài)的開源開放復(fù)用了高代價(jià)的無監(jiān)督學(xué)習(xí)、有監(jiān)督學(xué)習(xí)的訓(xùn)練成本,就大大降低了門檻,形成了百花齊放、百家爭鳴的百模大戰(zhàn)、千模大戰(zhàn)的市場現(xiàn)狀。我認(rèn)為大模型是非常講生態(tài)的,深圳就有非常好的大模型生態(tài)。

“舊時(shí)王謝堂前燕,飛入尋常百姓家?!边@句詩可以很好地概括這一年大模型的發(fā)展趨勢。

“數(shù)據(jù)是大模型的勝負(fù)手”

財(cái)聯(lián)社:“數(shù)據(jù)”是此次《行動(dòng)方案》中的高頻詞,比如《行動(dòng)方案》指出,強(qiáng)化數(shù)據(jù)和人才要素供給方面,建立多模態(tài)公共數(shù)據(jù)集,打造高質(zhì)量中文語料數(shù)據(jù);進(jìn)一步做大深圳數(shù)據(jù)交易所交易規(guī)模,鼓勵(lì)行業(yè)龍頭企業(yè)、平臺(tái)型企業(yè)提供高質(zhì)量數(shù)據(jù)產(chǎn)品和專業(yè)化數(shù)據(jù)服務(wù);重點(diǎn)培育數(shù)源商、數(shù)據(jù)開發(fā)商、數(shù)據(jù)服務(wù)商、平臺(tái)服務(wù)商等多元主體等等。您怎么看《行動(dòng)方案》里數(shù)據(jù)相關(guān)的指示?

賈西貝:整個(gè)《行動(dòng)方案》出臺(tái)的過程其實(shí)比較快,后續(xù)可能還會(huì)有一些新政策出來。深圳一直以來在算法和數(shù)據(jù)監(jiān)管方面做了很多工作,比如出臺(tái)了全國第一部數(shù)據(jù)領(lǐng)域綜合性立法,但此次《行動(dòng)方案》更側(cè)重技術(shù)、人才和算力,在數(shù)據(jù)和人工智能監(jiān)管方面講的比較少。

大模型需要很好的監(jiān)管,其一在于大模型生成內(nèi)容的濫用可能會(huì)污染整個(gè)互聯(lián)網(wǎng),也會(huì)污染大模型本身,模型濫用最近幾周也發(fā)生了好多案例;其二是人工智能生成的內(nèi)容和非人工智能自然產(chǎn)生的內(nèi)容二者如何區(qū)分的問題;其三是人工智能的知識(shí)產(chǎn)權(quán)問題,比如AI繪畫的訓(xùn)練集里可能有上千萬藝術(shù)作品,將上千萬藝術(shù)作品做融合是否算抄襲?是否允許人工智能作品和非人類創(chuàng)作主體申請知識(shí)產(chǎn)權(quán)?

再回到數(shù)據(jù)的問題,大模型訓(xùn)練實(shí)際是語元(token)化的訓(xùn)練數(shù)據(jù)變換(transform)成模型及參數(shù)的過程,通常不具有去隱私和脫敏能力,這樣就導(dǎo)致對(duì)模型的監(jiān)管和對(duì)數(shù)據(jù)的監(jiān)管密不可分,其實(shí)對(duì)人工智能的監(jiān)管很大程度上是要穿透算法和模型去監(jiān)管用于訓(xùn)練的底層數(shù)據(jù),包括底層數(shù)據(jù)的授權(quán)與盜版的問題,個(gè)人信息保護(hù)的問題,數(shù)據(jù)安全保障的問題,粗俗內(nèi)容與臟話的問題等。

從自上而下的角度看,AI監(jiān)管要穿透模型監(jiān)管數(shù)據(jù);從自下而上的角度看,底層數(shù)據(jù)會(huì)約束、污染上層模型和應(yīng)用。種瓜得瓜、種豆得豆,底層訓(xùn)練數(shù)據(jù)隱含了什么樣的知識(shí)、什么樣的文化、什么樣的思維、什么樣的意識(shí),上層的模型和應(yīng)用就會(huì)有什么樣的能力和風(fēng)格。因此說,訓(xùn)練數(shù)據(jù)的邊界約束了模型與應(yīng)用的邊界,訓(xùn)練數(shù)據(jù)的問題會(huì)污染模型與應(yīng)用。在數(shù)據(jù)治理領(lǐng)域,有個(gè)GIGO(Garbage In,Garbage Out)金法則叫垃圾進(jìn)、垃圾出。不可能期待在臟話滿篇、謬誤百出、思維偏執(zhí)的數(shù)據(jù)中訓(xùn)練出優(yōu)雅而正能量滿滿的大模型。

現(xiàn)在對(duì)于人工智能大家的關(guān)注點(diǎn)可能更集中于算力、模型、算法、技術(shù)、人才,但我強(qiáng)烈呼吁一定要關(guān)注數(shù)據(jù)及監(jiān)管。

財(cái)聯(lián)社:您認(rèn)為大模型數(shù)據(jù)目前面臨哪些難題?

賈西貝:一些專家都在強(qiáng)調(diào)說,數(shù)據(jù)比算力更稀缺,數(shù)據(jù)是大模型的勝負(fù)手。為什么數(shù)據(jù)比算力更稀缺?因?yàn)樗懔梢酝ㄟ^花錢買顯卡或者租云上的算力,數(shù)據(jù)不一定可以花錢買,數(shù)據(jù)天然包括了知識(shí)產(chǎn)權(quán)、個(gè)人隱私、數(shù)據(jù)安全等問題。

同時(shí),人工智能大模型對(duì)數(shù)據(jù)的消耗至少要比最終模型的參數(shù)數(shù)量大1到2個(gè)數(shù)量級(jí),模型訓(xùn)練得越來越大,對(duì)數(shù)據(jù)的消耗也越來越大。其實(shí)數(shù)據(jù)某種程度上是不可再生資源,有統(tǒng)計(jì)指出到2026年人類能投喂給人工智能的自然數(shù)據(jù)會(huì)被用光,數(shù)據(jù)荒可能很快會(huì)伴隨著大模型的時(shí)代很快到來。

數(shù)據(jù)這塊的缺口我覺得非常大,而這只是全球整體的情況,具體到中國,中國互聯(lián)網(wǎng)巨頭即使在大模型上投入很多,其訓(xùn)練的相當(dāng)大的訓(xùn)練集還是英文,中文訓(xùn)練集比英文訓(xùn)練集還要荒得厲害,所以有的專家講,現(xiàn)在高質(zhì)量中文訓(xùn)練集的豐富程度可能不及英文訓(xùn)練集的十分之一甚至不及百分之一。所以從這些意義上來講,數(shù)據(jù)比算力更有挑戰(zhàn)性。

數(shù)據(jù)荒如何解決?

財(cái)聯(lián)社:公司對(duì)于深圳的人工智能產(chǎn)業(yè)發(fā)展做出了哪些貢獻(xiàn)?后續(xù)在助力深圳AI產(chǎn)業(yè)發(fā)展方面有何計(jì)劃或目標(biāo)?

賈西貝:華傲數(shù)據(jù)一直以來專注數(shù)據(jù)治理。第一,華傲數(shù)據(jù)能做的就是通過公共數(shù)據(jù)治理,使更多數(shù)據(jù)成為喂養(yǎng)大模型的養(yǎng)料、成為高質(zhì)量的訓(xùn)練數(shù)據(jù);第二,大模型將來可能分成公有大模型和私有大模型。大模型的使用是有邊界的,不是所有大模型都能開放給所有的工作來使用,將來私有的大模型會(huì)很多。華傲數(shù)據(jù)會(huì)促進(jìn)私有的訓(xùn)練數(shù)據(jù)在政府的決策、管理、服務(wù)場景中訓(xùn)練更多的模型。

此外,我們正在籌備組建深圳首席數(shù)據(jù)官(CDO)聯(lián)合會(huì),聯(lián)合深圳人工智能學(xué)會(huì)、深圳大數(shù)據(jù)研究與應(yīng)用協(xié)會(huì)、深標(biāo)協(xié)、深咨協(xié)、深圳數(shù)據(jù)交易所、DAMA中國等單位發(fā)起一個(gè)算料聯(lián)盟,收集全國政策、法律、標(biāo)準(zhǔn)、論文、程序代碼、基因和蛋白質(zhì)組等數(shù)據(jù),創(chuàng)造更高質(zhì)量、更大的訓(xùn)練集,在多模態(tài)時(shí)代、大模型時(shí)代解決數(shù)據(jù)領(lǐng)域難題。

過去十余年我們看到了深圳大數(shù)據(jù)和人工智能發(fā)展的良好營商環(huán)境和非常適時(shí)的政策推進(jìn)。后續(xù)我們會(huì)進(jìn)一步和在深甲方單位、深圳數(shù)據(jù)交易所促進(jìn)公共數(shù)據(jù)在公有大模型和私有大模型里的價(jià)值發(fā)揮。我覺得將來的大模型競爭恐怕是得場景者得天下、得數(shù)據(jù)者得天下,私有大模型會(huì)成為AI浪潮長期的星辰大海。

財(cái)聯(lián)社:您所說的算料聯(lián)盟是否有具體的時(shí)間規(guī)劃?

賈西貝:我們計(jì)劃通過籌建中的首席數(shù)據(jù)官聯(lián)合會(huì)逐步把深圳、大灣區(qū)、全國的首席數(shù)據(jù)官聚集起來,共同解決數(shù)據(jù)荒問題,計(jì)劃今年年內(nèi)成立起來。

財(cái)聯(lián)社:當(dāng)前生成式人工智能引發(fā)的新一輪智能化浪潮中,公司面臨著哪些機(jī)會(huì)?您感受到的數(shù)據(jù)需求怎么樣,是否有明顯的提升?

賈西貝:數(shù)據(jù)方面,我們是國內(nèi)數(shù)據(jù)質(zhì)量方面的標(biāo)準(zhǔn)領(lǐng)跑者,為全國26個(gè)省、58個(gè)城市提供了數(shù)據(jù)支撐服務(wù)。場景方面,華傲數(shù)據(jù)有著決策、管理、服務(wù)三大場景的多年深耕所積累的服務(wù)經(jīng)驗(yàn),以及數(shù)據(jù)授權(quán)運(yùn)營、定標(biāo)定質(zhì)、標(biāo)測質(zhì)測、訓(xùn)練數(shù)據(jù)質(zhì)量提升與篩選、眾包標(biāo)注和算法標(biāo)注等方面的創(chuàng)新實(shí)踐。模型和算法方面,華傲數(shù)據(jù)的人工智能團(tuán)隊(duì)聚焦文本智能中的自然語言理解與生成(NLP)、代碼智能中的數(shù)據(jù)低代碼及SQL腳本翻譯與生成,目前在智慧城市相關(guān)的AI寫報(bào)告、AI理政策、AI助審判、AI遷SQL腳本等垂直場景已落地應(yīng)用。

數(shù)據(jù)的需求肯定是提升的,但目前需求不主要來自大模型,整個(gè)社會(huì)的數(shù)據(jù)需求呈現(xiàn)平穩(wěn)增長的態(tài)勢。數(shù)據(jù)要素市場化也好,數(shù)據(jù)基礎(chǔ)制度也好,并不是專門針對(duì)大模型的,整個(gè)數(shù)據(jù)產(chǎn)業(yè)不僅在大模型這個(gè)方向上迎來一個(gè)重要發(fā)展期,在其他方向上也不像早期有很多泡沫,數(shù)據(jù)的價(jià)值在逐漸釋放、逐漸發(fā)揮。

(編輯 曹婧晨)

關(guān)鍵詞:

  
相關(guān)新聞
每日推薦
  • 滾動(dòng)
  • 綜合
  • 房產(chǎn)