定州似拦工贸有限公司

第一經(jīng)濟網(wǎng)歡迎您!
當前位置:首頁>金融動態(tài) > 正文內容

新模型接連炸場AI視覺迎來GPT-3時刻,微美全息(WIMI.US)先聲奪人進入爆發(fā)期_今日報

短短一周不到,視覺領域接連迎來新模型“炸場”,圖像識別門檻大幅降低——這場AI熱潮中鮮見動靜的Meta(META.US)終于出手,推出Segment Anything工具,可準確識別圖像中的對象,模型和數(shù)據(jù)全部開源。

據(jù)悉,Meta的項目包括模型Segment Anything Model(SAM)、數(shù)據(jù)集Segment Anything 1-Billion mask dataset(SA-1B),公司稱后者是有史以來最大的分割數(shù)據(jù)集。

引起業(yè)內轟動的便是這一SAM模型,正如名字“Segment Anything”一樣,該模型可以用于分割圖像中的一切對象,包括訓練數(shù)據(jù)中沒有的內容。


【資料圖】

在交互方面,SAM可使用點擊、框選、文字等各種輸入提示(prompt),指定要在圖像中分割的內容,這也意味著,用于自然語言處理的Prompt模式也開始被應用在計算機視覺領域。并且對于視頻中物體,SAM也能準確識別并快速標記物品的種類、名字、大小,并自動用ID為這些物品進行記錄和分類。

AI視覺迎來GPT-3時刻

對于SAM工具,英偉達(NVDA.US)人工智能科學家Jim Fan將Meta的這項研究稱作計算機視覺領域的“GPT-3時刻”之一——其分割方法可以通用,可對不熟悉的物體和圖像進行零樣本泛化,初步驗證了多模態(tài)技術路徑及其泛化能力。

進一步來說,SAM可以靈活集成于更大的AI系統(tǒng)。例如,理解網(wǎng)頁的視覺和文本內容;在AR/VR領域,將頭顯用戶視線作為提示來選擇對象,然后將其“提升”到3D中;對于內容創(chuàng)作者,SAM可提取圖像區(qū)域以進行拼貼或視頻編輯;SAM還可通過定位動物或物體在視頻中進行研究和跟蹤。

AI視覺有望飛躍式提升

公開資料顯示,計算機視覺模擬大腦完成對圖像的處理和解釋,實現(xiàn)對相應場景的多維理解。以圖像、視頻為代表的視覺數(shù)據(jù)是互聯(lián)網(wǎng)時代信息的主要載體之一,賦以人工智能模型感知并理解這些海量的視覺數(shù)據(jù)的能力,有助于提高人工智能自主適應環(huán)境的能力。

作為人工智能(AI)和深度學習的子領域,計算機視覺可訓練卷積神經(jīng)網(wǎng)絡(CNN),以便針對各種應用場合開發(fā)仿人類視覺功能,利用圖像和視頻進行數(shù)據(jù)分割、分類和檢測。

國盛證券預計,預計1-5年內,多模態(tài)發(fā)展將帶來AI泛化能力提升,通用視覺、通用機械臂、通用物流搬運機器人、行業(yè)服務機器人、真正的智能家居會進入生活;5-10年內,結合復雜多模態(tài)方案的大模型有望具備完備的與世界交互的能力,在通用機器人、虛擬現(xiàn)實等領域得到應用。

首創(chuàng)證券翟煒在研報中指出,META發(fā)布了視覺大模型SAM,緊接著智源研究院視覺團隊也推出通用分割模型SegGPT,通用視覺大模型之戰(zhàn)也打響。視覺大模型能把任意圖像從像素陣列解析為視覺結構單元,像人類視覺那樣理解各類場景,這對自動駕駛、安防、智能家居、工業(yè)視覺等眾多行業(yè)都將帶來飛躍式提升。

西部證券指出,Meta此次推出SAM,預示著大模型在多模態(tài)發(fā)展方面更進一步,布局計算機視覺/視頻的廠商有望持續(xù)受;還有券商補充稱,SAM模型突破了機器視覺底層技術。

微美全息(WIMI.US)有望進入爆發(fā)期

目前,中國計算機視覺廠商具有基于基礎算法進行改進和優(yōu)化并形成各自特有算法的技術能力,而作為全球領先的AI視覺解決方案提供商微美全息(WIMI.US)將成為受益者之一,據(jù)悉,該公司專注于計算機視覺全息云服務,為全球規(guī)模、覆蓋產業(yè)鏈、業(yè)績等方面較優(yōu)秀的全息云產業(yè)綜合實體之一,目標是成為有潛力、有國際影響力的全息云平臺。

公開資料顯示,微美全息(WIMI.US)目前已經(jīng)將計算機視覺技術與虛擬現(xiàn)實技術相結合,開發(fā)了基于計算機視覺的三維人機交互系統(tǒng)。在人機之間構建自然直觀的三維交互環(huán)境,并構造三維用戶界面,實現(xiàn)和諧的、“以人為中心”的人機交互界面。

在微美全息的三維人機交互系統(tǒng)中,采用了視覺作為有效的輸入模態(tài)。計算機視覺是一種引導系統(tǒng)并與視覺世界交互的人工智能技術,其從獲取的輸入中識別對象并提供最終結果。計算機視覺中包含了獲取、轉換和分析數(shù)字圖像等任務,可協(xié)助人類完成識別任務、啟用交互等,并基于訓練數(shù)據(jù)集進行評估。使人機通訊信息交換量更大、形式更豐富,發(fā)揮人機彼此不同的認知潛力。

在AI視覺算法技術能力方面,微美全息開發(fā)了聚和聚類算法,用于支持新一代互聯(lián)網(wǎng)的算法處理需求。聚類算法是一種機器學習算法,它將相似的數(shù)據(jù)點組合在一起形成簇(Cluster),聚合聚類新型算法能夠自適應地根據(jù)圖像特征進行聚類,能夠處理不同類型、尺寸和分辨率的圖像,并且能夠結合機器學習和深度學習技術,實現(xiàn)更高級別的圖像處理和分析。

隨著深度學習、計算機視覺算法和虛擬現(xiàn)實技術的迅猛發(fā)展,微美全息開發(fā)的AI視覺相關應用在許多行業(yè)中都有廣泛的應用,如金融、醫(yī)療、制造業(yè)、社交網(wǎng)絡、市場營銷等。同時,由于市場需求也在不斷擴大,微美全息的AI視覺應用前景將進入新的爆發(fā)期。

AI視覺市場規(guī)??焖僭鲩L

國海證券陳夢竹在研報中表示,2021年中國計算機視覺技術核心產品、帶動相關產業(yè)市場規(guī)模達990億元、3079億元,預計2025年分別達1873億元、5771億元。

從全球來看,2022年全球視覺人工智能市場銷售額達到了113.51億美元,預計2029年將達到218.10億美元,年復合增長率(CAGR)為10.51%(2023-2029)。中國市場在過去幾年變化較快,2022年市場規(guī)模為28.12億美元,約占全球的24.77%,預計2029年將達到61.72億美元,屆時全球占比將達到28.30%。

總之,隨著視覺技術、深度學習、高精度成像等技術的持續(xù)發(fā)展,視覺人工智能的應用場景將持續(xù)擴展。視覺人工智能無論在速度、精度、還是環(huán)境要求方面都存在著顯著優(yōu)勢,能夠替代人類視覺,更好的助力工業(yè)自動化、各行各業(yè)智能化的發(fā)展。

本文來源:財經(jīng)報道網(wǎng)

關鍵詞:

標簽閱讀


}
都江堰市| 阿拉善左旗| 化州市| 罗山县| 城步| 小金县| 江孜县| 郓城县| 卓尼县| 云霄县| 龙南县| 长垣县| 苍山县| 秭归县| 澎湖县| 兰州市| 信丰县| 黄山市| 资源县| 宜兰市| 乐至县| 绵竹市| 武夷山市| 德江县| 黄冈市| 财经| 沧源| 宜黄县| 江陵县| 平原县| 茂名市| 富蕴县| 衢州市| 屏东市| 休宁县| 潢川县| 山阴县| 邛崃市| 虎林市| 兰西县| 嘉祥县|