■原題:小模型技術(shù)是中國(guó)企業(yè)率先導(dǎo)入裝備中,大模型也不例外
去年,宇視科技發(fā)布了行業(yè)大模型“梧桐”,推進(jìn)AIGC對(duì)物聯(lián)網(wǎng)行業(yè)的改變。今年4月16日,又是在烏鎮(zhèn),宇視總裁張鵬國(guó)又帶來(lái)了一系列全新觀點(diǎn),如:“大模型只是技術(shù)升級(jí)而不是革命”,“裝備大模型化是商業(yè)化落地的最佳線路”,“大模型未來(lái)最大的挑戰(zhàn)可能是能耗問(wèn)題”……這些洞見(jiàn)和觀察引人深思。觀察者網(wǎng)請(qǐng)宇視AI首席科學(xué)家李聰廷來(lái)進(jìn)一步談?wù)勥@些問(wèn)題,將大模型應(yīng)用落地的最新探索報(bào)告給大家。
觀察者網(wǎng):如何理解大模型只是技術(shù)升級(jí)而不是革命,現(xiàn)在AI技術(shù)的熱度和期待值很高,這么說(shuō)會(huì)不會(huì)把技術(shù)發(fā)展的可能性給限制了?
李聰廷:技術(shù)受關(guān)注是好事,更多學(xué)術(shù)或企業(yè)從業(yè)者投身其中,加速技術(shù)進(jìn)步和落地。理性的看,從深度學(xué)習(xí)小模型再到今天的大模型,學(xué)習(xí)效率低即依賴(lài)大量算力和標(biāo)記數(shù)據(jù)的問(wèn)題沒(méi)有解決,不可避免出現(xiàn)低級(jí)錯(cuò)誤的問(wèn)題也沒(méi)有解決,引用Yann Lecun 的話(huà):“機(jī)器學(xué)習(xí)與人類(lèi)和動(dòng)物相比很糟糕”。因此,大模型只是技術(shù)升級(jí)而不是革命。大模型作為技術(shù)升級(jí)帶來(lái)的紅利,已經(jīng)給商業(yè)化落地帶來(lái)很多商機(jī),給不少企業(yè)帶來(lái)未來(lái)的增量或者效率提升。也正因?yàn)楝F(xiàn)在的大模型技術(shù)不是最終解,使類(lèi)似 Yann Lecun 這樣的科學(xué)家把精力放到研究面向未來(lái)的新的技術(shù)路徑,應(yīng)該說(shuō)理性看待當(dāng)下大模型技術(shù),反而加大了找出未來(lái)路徑的可能性。
圖靈獎(jiǎng)獲得者楊立昆(Yann Lecun)
觀察者網(wǎng):圖靈獎(jiǎng)獲得者楊立昆(Yann Lecun)批評(píng)Sora不是世界模型,認(rèn)為生成式路線注定無(wú)法通往AGI,對(duì)此你怎么看?
李聰廷:世界模型是對(duì)物理定律和環(huán)境規(guī)則的理解和對(duì)齊,Sora 目前的確做不到這一點(diǎn)?,F(xiàn)在的 AI 水平距離 AGI 還很遙遠(yuǎn),但已經(jīng)消耗了巨大的算力和能耗,以 chatGPT 為例,每天需要耗費(fèi) 50 萬(wàn)度電,相當(dāng)于 1.7 萬(wàn)個(gè)美國(guó)家庭的耗電量,其學(xué)習(xí)效率與人腦天壤之別,這不得不引發(fā)學(xué)者們思考新的出路。
對(duì)當(dāng)前技術(shù)路線的未來(lái)悲觀,并不代表對(duì)過(guò)去和當(dāng)下的否定。Yann Lecun 2022 年的“From Machine Learning to Autonomous Intelligence”講座,開(kāi)篇提到“AI can do pretty amazing things today”,是對(duì)過(guò)去和當(dāng)下的肯定,然后才提出當(dāng)下技術(shù)路線無(wú)法通向 AGI。舉個(gè)例子,當(dāng)下輔助駕駛已經(jīng)在新能源車(chē)上普及,提升了駕駛體驗(yàn),但 L4級(jí)別的自動(dòng)駕駛落地遙遙無(wú)期,不可避免出現(xiàn)未知錯(cuò)誤的問(wèn)題難以根本解決。“當(dāng)下最優(yōu)解,不是最終解”這句話(huà)是對(duì)當(dāng)前大模型技術(shù)現(xiàn)狀相對(duì)客觀的總結(jié)。
觀察者網(wǎng):在千行百業(yè)落地的國(guó)產(chǎn)模型,要為解決各種細(xì)碎的問(wèn)題,為細(xì)分場(chǎng)景專(zhuān)門(mén)優(yōu)化,那么在同等的任務(wù)上,未來(lái)表現(xiàn)出的能力,還會(huì)與國(guó)際上頂尖的通用大模型有差距嗎?有可能展現(xiàn)出大模型公司搞不定的能力嗎?
李聰廷:通用大模型,是基礎(chǔ)設(shè)施,有點(diǎn)像 Android 這樣的操作系統(tǒng),有兩個(gè)特點(diǎn)。一是投入大,只有少數(shù)巨無(wú)霸企業(yè)能夠持續(xù)投入;二是生態(tài)壁壘墻厚,占先機(jī)建立廣大用戶(hù)基礎(chǔ)后,留給追趕著的機(jī)會(huì)就不多了。大模型技術(shù)是在美國(guó)爆發(fā),因此 OpenAI、Google、Meta 等美國(guó)企業(yè)已占據(jù)了先機(jī),中國(guó)企業(yè)或機(jī)構(gòu)處于追趕狀態(tài),我們不得不面對(duì)和正視這個(gè)差距。
通用大模型首先在C端獲得了大量用戶(hù),人們可以與它對(duì)話(huà)、提問(wèn)、寫(xiě)作、作畫(huà)、作曲等,這種體驗(yàn)是以前 AI 做不到的,一時(shí)間人們誤以為AI已經(jīng)追上甚至超越人類(lèi)水平。但在一些細(xì)分場(chǎng)景落地過(guò)程中,特別B端場(chǎng)景落地過(guò)程中,人們很快發(fā)現(xiàn)其精度過(guò)低、成本過(guò)高,無(wú)法落地。例如,使用市面上任何一個(gè)通用大模型識(shí)別迪拜車(chē)牌,正確率低于 20%。又比如,宇視作為產(chǎn)品和解決方案輻射全球200多個(gè)國(guó)家和地區(qū)的全球化公司,資料翻譯很消耗人力,但通用大模型會(huì)把“槍機(jī)”形態(tài)的網(wǎng)絡(luò)攝像機(jī)直譯成“gun camera”,因?yàn)樗痪邆洹?/SPAN>box camera”這類(lèi)專(zhuān)業(yè)詞匯的知識(shí)庫(kù)。因此,是細(xì)分場(chǎng)景落地催生了行業(yè)大模型。
在中國(guó),我們深入去看每一個(gè)細(xì)分行業(yè),幾乎都能找到一兩家甚至更多具備很強(qiáng)產(chǎn)品研發(fā)能力的企業(yè)。這類(lèi)企業(yè)在國(guó)內(nèi)市場(chǎng)充分競(jìng)爭(zhēng)廝殺,國(guó)外產(chǎn)品型公司很難與之競(jìng)爭(zhēng)。這類(lèi)企業(yè),已經(jīng)在將自身產(chǎn)品與行業(yè)大模型結(jié)合,推出更有競(jìng)爭(zhēng)力的產(chǎn)品。以宇視自身為例,前段時(shí)間我們推出了夜鷹系列攝像機(jī),其展現(xiàn)的在 0.001 Lux 下的夜視能力在業(yè)內(nèi)引發(fā)熱議,領(lǐng)先海外同行企業(yè)兩年。夜鷹的背后是十多年攝像機(jī)技術(shù)的積累以及梧桐行業(yè)大模型的AI-ISP能力結(jié)合??偟膩?lái)說(shuō),行業(yè)大模型落地產(chǎn)品,我國(guó)并不落后。
大模型化的攝像頭提升了夜間觀測(cè)的能力,用于觀察和保護(hù)猛禽
觀察者網(wǎng):裝備(工具)的模型化能戰(zhàn)勝模型的裝備(工具)化,或者說(shuō),+AI能戰(zhàn)勝AI+,這個(gè)判斷有哪些產(chǎn)業(yè)發(fā)展歷史上的經(jīng)驗(yàn)可以佐證?
李聰廷:現(xiàn)在的大模型階段已有不少例子,比如一年前 MidJourney V5 和 Stable Diffusion 這類(lèi)文生圖大模型出現(xiàn)在公眾眼前的時(shí)候,有人驚呼圖片編輯工具市場(chǎng)要顛覆了。但今天看 Adobe Illustrator 、Photoshop 這類(lèi)工具的用戶(hù)并沒(méi)有流失,在 Adobe 推出 firefly大模型并集成到自家工具中后,其用戶(hù)基礎(chǔ)更穩(wěn)固了。背后的本質(zhì)是,大模型技術(shù)可以提升工具中部分模塊的效率,還遠(yuǎn)遠(yuǎn)達(dá)不到替代工具本身。而且今天,訓(xùn)練調(diào)優(yōu)一個(gè)自己的行業(yè)或垂直大模型門(mén)檻并沒(méi)有那么高。
回顧上一個(gè)階段,即 2014 年深度學(xué)習(xí)技術(shù)在產(chǎn)業(yè)界開(kāi)始爆發(fā)到大模型技術(shù)應(yīng)用前,一度很多人也認(rèn)為 AI新勢(shì)力會(huì)顛覆傳統(tǒng)應(yīng)用/工具/裝備的公司。早期,這類(lèi)公司的算法處于領(lǐng)先,同時(shí)在大量資金注入和人才加盟的背景下,很快入場(chǎng)做產(chǎn)品。最后發(fā)現(xiàn)產(chǎn)品的技術(shù)點(diǎn)非常多,傳統(tǒng)產(chǎn)品公司過(guò)去踩過(guò)的坑,AI 新勢(shì)力不得不重新踩一遍。好不容易過(guò)了產(chǎn)品研發(fā)關(guān),又遇到了制造瓶頸,制造特點(diǎn)是單個(gè)環(huán)節(jié)看似極其沒(méi)有技術(shù)含量,但數(shù)百萬(wàn)器件 bom的管理和流水運(yùn)作,有極高的門(mén)檻。制造門(mén)檻后面還有渠道門(mén)檻,渠道門(mén)檻后面還有規(guī)模采購(gòu)成本門(mén)檻。最后 AI 新勢(shì)力不得不轉(zhuǎn)向提供算法授權(quán)的商業(yè)模式,但很快傳統(tǒng)產(chǎn)品公司完成了算法追趕,算法紅利消失后,這種商業(yè)模式也折戟了。
上述例子表明,裝備(工具)企業(yè)被大模型技術(shù)新勢(shì)力企業(yè)趕超的可行性很小,但那些跟不上大模型技術(shù)升級(jí)落的裝備(工具)企業(yè)有可能被其它裝備(工具)企業(yè)淘汰掉。
觀察者網(wǎng):從裝備大模型化的觀點(diǎn)看,中國(guó)應(yīng)該具有率先將大模型應(yīng)用落地的諸多優(yōu)勢(shì),如工程能力的優(yōu)勢(shì),新能源產(chǎn)業(yè)的優(yōu)勢(shì)。從你們?cè)诤M馐袌?chǎng)競(jìng)爭(zhēng)的經(jīng)驗(yàn)看,中國(guó)企業(yè)是不是走在了前面?
李聰廷:先從裝備的產(chǎn)品力本身看,以AI體鍛屏為例,需要具備成像技術(shù)、嵌入式軟件技術(shù)、云和APP軟件、硬件技術(shù)、顯示技術(shù)、交互設(shè)計(jì)、工程交付技術(shù)等諸多要素,當(dāng)然還有 AI。研發(fā)出有競(jìng)爭(zhēng)力的產(chǎn)品還遠(yuǎn)遠(yuǎn)不夠,得上量才能覆蓋研發(fā)投入并有利潤(rùn),這很考驗(yàn)企業(yè)的渠道能力。有渠道帶貨,我們還要能造得出來(lái),這又考驗(yàn)企業(yè)的規(guī)模制造能力。產(chǎn)品售價(jià)既要有競(jìng)爭(zhēng)力還要有利潤(rùn),這又考驗(yàn)企業(yè)的規(guī)模采購(gòu)議價(jià)能力。當(dāng)然,還有速度要素。因此,比拼的是所有要素的綜合能力。
AI是其中一個(gè)要素,從小模型到大模型,技術(shù)升級(jí)了。這個(gè)變量,在裝備企業(yè)之間產(chǎn)生足夠的影響,舊的產(chǎn)品會(huì)加速迭代,并且還會(huì)創(chuàng)造一些新的場(chǎng)景的產(chǎn)品;反之,如果跟不上技術(shù)迭代,企業(yè)就會(huì)掉隊(duì)。但對(duì)于沒(méi)有裝備經(jīng)驗(yàn)只有大模型技術(shù)的企業(yè),要邁過(guò)其它諸多要素的檻,道阻且長(zhǎng)。
上一階段的小模型技術(shù),中國(guó)企業(yè)是率先導(dǎo)入并應(yīng)用于裝備中的,這次大模型技術(shù)也不會(huì)例外。
觀察者網(wǎng):已經(jīng)有不少批評(píng)說(shuō)中國(guó)做大模型的公司太多了,但是中國(guó)能做各種設(shè)備的公司更多,如果每個(gè)有實(shí)力的設(shè)備公司都想+AI,做自己的行業(yè)模型,會(huì)不會(huì)呈現(xiàn)出非常細(xì)碎,沒(méi)有統(tǒng)一標(biāo)準(zhǔn)、統(tǒng)一品牌的離散格局?
李聰廷:新技術(shù)出現(xiàn),必然會(huì)吸引大量?jī)?yōu)秀人才和資本入場(chǎng)。這里有定位通用大模型的、有定位行業(yè)大模型的、有定位工具鏈的、當(dāng)然還有定位 APP/工具/裝備的。
通用大模型,最后大概率會(huì)集中在頭部少數(shù)幾家,贏者通吃,這幾家自身就成為了事實(shí)的標(biāo)準(zhǔn)。其它企業(yè)會(huì)比較艱難甚至出局。
定位行業(yè)大模型的企業(yè),有點(diǎn)像小模型時(shí)代的算法授權(quán)商業(yè)模式,它太容易被APP/工具/裝備企業(yè)的自研給替代。因此避開(kāi)與這類(lèi)產(chǎn)品企業(yè)競(jìng)爭(zhēng),找到有生存機(jī)會(huì)的細(xì)分場(chǎng)景很重要。最后有可能出現(xiàn)幾個(gè)細(xì)分場(chǎng)景的小而美的企業(yè),做大的可能性不大。
定位工具鏈的企業(yè),閉源,無(wú)法獲得大量開(kāi)發(fā)者用戶(hù),不利于建生態(tài)。開(kāi)源,看不清商業(yè)盈利路徑。左右為難的同時(shí),還面臨大廠自研的競(jìng)爭(zhēng)挑戰(zhàn)。
定位 APP/工具/裝備的企業(yè),行業(yè)大模型只是其產(chǎn)品的一個(gè)技術(shù)要素,用戶(hù)側(cè)看到的仍是其產(chǎn)品品牌。用戶(hù)甚至感受不到行業(yè)大模型的存在,但一定能感知到產(chǎn)品的用戶(hù)體驗(yàn)提升了。
觀察者網(wǎng):月之暗面的楊植麟說(shuō),今天的大部分開(kāi)發(fā)工作實(shí)際上是做中間層的事情,就是數(shù)據(jù)。交互和模型可能都是一樣的,但用不同的數(shù)據(jù),就會(huì)出來(lái)不同的產(chǎn)品。定義好了訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),大模型產(chǎn)品就定義好了。月之暗面是做云計(jì)算,做to C端產(chǎn)品,對(duì)于你們做邊緣計(jì)算,做to B端產(chǎn)品來(lái)說(shuō),這個(gè)描述也適用嗎?
李聰廷:最近月之暗面及其旗下應(yīng)用Kimi 熱度很高,用戶(hù)體驗(yàn)做得不錯(cuò)。我們所在的 AIoT 賽道,和它所在的賽道沒(méi)有交集。訓(xùn)練和測(cè)試數(shù)據(jù)肯定很重要,在我們這個(gè)賽道也一樣。但對(duì)于定義一個(gè)行業(yè)大模型而言,我們會(huì)更關(guān)注其落地的性?xún)r(jià)比。例如,如果我們用 10B 級(jí)別的通用 CV 大模型去做視頻解析的逐幀推理,那需要用到 A800 級(jí)的 GPU 設(shè)備,單路的實(shí)時(shí)推理成本需要 1 萬(wàn)美金左右,而我們的客戶(hù)過(guò)去只能接受幾百元人民幣每路的成本。因此,我們采用了 5M 的小模型+1B 的梧桐行業(yè)大模型結(jié)合的方式,并且都是 ViT 網(wǎng)絡(luò)結(jié)構(gòu),這樣我們的單路推理成本可以做到幾百元人民幣水平。
Kimi頁(yè)面
觀察者網(wǎng):當(dāng)前倡導(dǎo)的“新質(zhì)生產(chǎn)力”就是要找到更多信息化、智能化的新模式、新場(chǎng)景、新業(yè)態(tài)。在典型的物聯(lián)網(wǎng)場(chǎng)景比如充電樁,還有你們正在探索的文教體等行業(yè),目前找到了哪些好的AI應(yīng)用場(chǎng)景,已經(jīng)表現(xiàn)出了能夠商業(yè)落地,適合技術(shù)迭代的跡象?
李聰廷:確實(shí),技術(shù)進(jìn)步會(huì)催生更多的細(xì)分行業(yè)場(chǎng)景,比如AI文教體、儲(chǔ)能、充電樁等,在宇視2024合作伙伴大會(huì)的現(xiàn)場(chǎng),大家能看到很多的這類(lèi)產(chǎn)品,我舉四類(lèi):
一是AI體育教育:實(shí)現(xiàn)體育教具的AI化,其是一個(gè)具備逐步迭代與升級(jí)的長(zhǎng)程賽道,可以圍繞的教學(xué)要求、運(yùn)動(dòng)種類(lèi)、鍛煉目標(biāo)等不斷地提升效率、效果及內(nèi)容豐富度,一方面是針對(duì)不同的運(yùn)動(dòng)類(lèi)目不斷增加算法類(lèi)別,另一方面又可在單一算法類(lèi)別上不斷縱深優(yōu)化效果。
大模型提升了算法精度,推進(jìn)了體育教具AI化
二是AI體育運(yùn)動(dòng):分享經(jīng)濟(jì)時(shí)代,能更全面記錄自己想要記錄的時(shí)刻,具備更豐富的可分享素材是通識(shí)性需求,只要是運(yùn)動(dòng)游玩都有此類(lèi)訴求,所以在這個(gè)領(lǐng)域內(nèi)寬度(運(yùn)動(dòng)類(lèi)別)無(wú)上限,深度(每一個(gè)細(xì)分領(lǐng)域可提供滿(mǎn)足個(gè)人情緒價(jià)值的內(nèi)容)無(wú)上限。
在烏鎮(zhèn)現(xiàn)場(chǎng)展示的智能球場(chǎng)解決方案,通過(guò)AI捕捉分析,自動(dòng)生產(chǎn)運(yùn)動(dòng)視頻并統(tǒng)計(jì)數(shù)據(jù)
三是文旅領(lǐng)域:基于梧桐大模型演進(jìn)的算法服務(wù)于“旅游”行業(yè),通過(guò)攝像機(jī)采集AI擇優(yōu)生成照片與vlog模式可覆蓋景區(qū)、游樂(lè)場(chǎng)所、博物館等多類(lèi)場(chǎng)景,更好的與當(dāng)下分享經(jīng)濟(jì)結(jié)合,服務(wù)于個(gè)體情緒價(jià)值的滿(mǎn)足,其具備充分的優(yōu)化演進(jìn)空間,比如在算法的優(yōu)選效果上、視頻的畫(huà)面清晰度上、視頻剪輯的創(chuàng)意性以及更多更有趣的表達(dá)方式等等。
四是AI寫(xiě)真:通過(guò)AI算法來(lái)完成照片的優(yōu)選與“PS”,可以配合個(gè)體快速的完成不同場(chǎng)景生成、不同裝造、不同形象(二次元、商務(wù)等)的照片生成,即可幫助找適合自己的造型、也可在過(guò)程中帶來(lái)娛樂(lè)性,同時(shí)也可服務(wù)于個(gè)體某一些場(chǎng)合所需照片的快速獲取訴求。
觀察者網(wǎng):大模型未來(lái)最大的挑戰(zhàn)可能是能耗問(wèn)題,模型的能力增長(zhǎng)與算力增長(zhǎng)、能耗增長(zhǎng)的關(guān)系是怎樣的?為什么分布式能源系統(tǒng)和能算一體化是解題思路?
李聰廷:要把大模型技術(shù)和大模型應(yīng)用分開(kāi),還要把大模型應(yīng)用中的互聯(lián)網(wǎng)服務(wù)和裝備化產(chǎn)品分開(kāi)。對(duì)于面向C端的大模型互聯(lián)網(wǎng)服務(wù)來(lái)說(shuō),比如ChatGPT、Sora來(lái)說(shuō),算力和能耗問(wèn)題比較突出,每多服務(wù)一個(gè)用戶(hù),都需要額外的算力和能耗。但對(duì)于使用的大模型技術(shù)的裝備來(lái)說(shuō),算力和能耗是有限的、固定的,并不存在算力和能耗焦慮。
對(duì)于算力高度集中的數(shù)據(jù)中心應(yīng)用場(chǎng)景,能算一體也許是個(gè)發(fā)展方向,能源自給自足肯定是有利于降低成本的,但代價(jià)是能源供給的穩(wěn)定性。分布式能源是一種能源結(jié)構(gòu),涵蓋的面比能算一體更廣泛,解決的不止是數(shù)據(jù)中心能耗的問(wèn)題。
[出處] 小模型技術(shù)是中國(guó)企業(yè)率先導(dǎo)入裝備中,大模型也不例外. 科工力量, 2024-04-18