久久久久国产免费-亚洲成av人影院无码不卡-免费在线观看黄色-中文字幕av高清片-亚洲最大的成人网-校园春色亚洲激情-日韩在线观看一区二区-亚洲专区中文字幕-97伦伦午夜电影理伦片-亚洲精品国产v片在线观看-欧美自拍偷拍一区-hodv一21134铃原爱蜜莉在线-日韩国产精品一区二区-中国精品妇女性猛交bbw-欧美一卡2卡3卡4卡新区在线

歡迎訪問深圳市中小企業(yè)公共服務平臺電子信息窗口

芯來科技:以 RISC-V V 擴展加速 AI 推理,開啟嵌入式智能新紀元

2025-07-18 來源:愛集微 原創(chuàng)文章
1291

關(guān)鍵詞: 芯來科技 RISC-V V擴展 嵌入式AI Nuclei AI Library BF16擴展

從智能家居到智能交通,從醫(yī)療診斷到工業(yè)自動化,AI 的應用場景不斷拓展,其對算力的需求也日益攀升。然而,在資源受限的嵌入式設備上實現(xiàn)高效的 AI 推理,一直是困擾業(yè)界的難題。

7月18日,在第五屆RISC-V中國峰會的AI分論壇上,芯來科技嵌入式軟件工程師舒卓發(fā)表演講時介紹了芯來科技是如何通過 RISC-V V擴展技術(shù),為這一難題提供了一套創(chuàng)新且高效的解決方案,為嵌入式 AI 的發(fā)展注入了強勁動力。

背景:嵌入式 AI 的挑戰(zhàn)與機遇

隨著 AI 技術(shù)的飛速發(fā)展,其應用范圍逐漸從云端服務器向邊緣設備和嵌入式系統(tǒng)延伸。嵌入式設備以其低功耗、高性能、高集成度等特性,在物聯(lián)網(wǎng)、智能穿戴、工業(yè)控制等領(lǐng)域展現(xiàn)出巨大的應用潛力。然而,嵌入式設備的硬件資源相對有限,其算力難以滿足復雜 AI 模型的直接運行需求。因此,嵌入式 AI 通常采用“訓練 - 推理分離”的模式,即在服務器上完成模型的訓練,然后將訓練好的模型部署到嵌入式設備上進行推理運算。

舒卓指出,在硬件架構(gòu)方面,嵌入式 AI 系統(tǒng)多采用“通用 + 專用”的架構(gòu)組合。專用架構(gòu)如專用的 DSA(Domain - Specific Architecture)或 NPU(Neural Processing Unit),它們針對特定的 AI 算法進行了優(yōu)化,能夠提供強大的算力支持,但靈活性較差,難以適應算法的快速迭代。而通用架構(gòu)則以 RISC-V V 擴展為代表,它能夠隨著算子的演進而不斷升級,為嵌入式設備提供了更為靈活的 AI 加速方案。

Nuclei AI Library:為 VPU 加速賦能

在這樣的行業(yè)背景下,芯來科技推出了 Nuclei AI Library,旨在為開發(fā)者提供一套基于 RISC-V V 擴展的高效 AI 算子優(yōu)化庫。Nuclei AI Library 的出現(xiàn),正是為了填補 NPU 在某些場景下無法滿足需求的空白,為嵌入式設備上的 AI 推理提供更強大的支持。

Nuclei AI Library 對常見的 AI 算子進行了深度優(yōu)化,覆蓋了 int8、int16、fp16、bf16、fp32 等多種數(shù)據(jù)格式,能夠滿足不同精度要求的 AI 應用場景。無論是矩陣運算、卷積操作,還是激活函數(shù)等,這些經(jīng)過優(yōu)化的算子都能在 RISC-V VPU(Vector Processing Unit)上實現(xiàn)高效的運行。而且,該庫還提供了對不同運行環(huán)境的支持,包括裸機、RTOS(Real - Time Operating System)以及 Linux 環(huán)境,極大地增強了其在實際應用中的適用性。

在實際的性能測試中,Nuclei AI Library 的表現(xiàn)令人矚目。以 GEMM(General Matrix Multiply,通用矩陣乘)算子為例,這是 AI 模型中算力占比極高的一個算子。通過采用一系列優(yōu)化策略,如避免使用效率較低的 Reduction 指令、充分“榨取”已加載的數(shù)據(jù)以減少 Load 操作、盡量用滿 V 數(shù)據(jù)寄存器等,Nuclei AI Library 在 Nuclei nx900fdv 上對 GEMM 算子進行了優(yōu)化,實測結(jié)果顯示其性能提升倍數(shù)顯著,為嵌入式設備上的矩陣運算帶來了質(zhì)的飛躍。

對于 CNN(Convolutional Neural Network,卷積神經(jīng)網(wǎng)絡)中占比極高的 CON2D(二維卷積)算子,Nuclei AI Library 同樣提供了高效的優(yōu)化方案。目前常用的優(yōu)化方法有兩種:一種是使用 Im2col + GEMM,另一種是使用 Winograd + GEMM 加速小尺寸卷積核。這兩種方法的核心都是將復雜的卷積運算轉(zhuǎn)化為矩陣乘法運算,從而充分利用矩陣運算的高效性。在 Nuclei nx900fdv 上的測試數(shù)據(jù)表明,經(jīng)過 V 擴展優(yōu)化后的 CON2D 算子性能得到了大幅提升,為嵌入式設備上 CNN 網(wǎng)絡的推理運算提供了有力支持。

Nuclei BF16 擴展:提升 AI 計算效率的利器

除了對常見 AI 算子的優(yōu)化,芯來科技還針對當前 AI 領(lǐng)域?qū)τ嬎阈屎途鹊碾p重需求,推出了 Nuclei BF16 擴展。BF16(Brain Floating - Point 16)是由 Google 提出的一種數(shù)值格式,它保留了與 FP32(32 位浮點數(shù))相同的 8 位指數(shù)寬度,從而具有與 FP32 相同的動態(tài)范圍,但在精度上略低于 FP32。然而,在許多深度學習應用場景中,這種精度的降低對最終結(jié)果的影響微乎其微,而 BF16 的位寬減半?yún)s能顯著提高內(nèi)存帶寬利用率,若再配合 SIMD(Single Instruction Multiple Data,單指令多數(shù)據(jù))指令優(yōu)化,計算效率可成倍提升。

RISC-V 官方目前定義了基本的 BF16 轉(zhuǎn)換指令和向量乘加指令(zvfbfmin 擴展),但這種方式存在一定的局限性,即需要將 BF16 轉(zhuǎn)換為 FP32 后才能進行其他計算,這無疑降低了計算效率和帶寬利用率。針對這一問題,芯來科技通過硬件與工具鏈的協(xié)同優(yōu)化,提出了 Nuclei BF16 擴展。該擴展兼容官方 BF16 指令,自定義了 BF16 rvv intrinsic function,生成與 FP16 相同的指令,并通過設置不同的寄存器值來切換硬件行為,從而避免了不必要的轉(zhuǎn)換,充分發(fā)揮了 BF16 的算力優(yōu)勢。

Nuclei BF16 擴展具有諸多顯著特點。首先,它生成的 BF16 指令與 F16 保持一致,通過 CSR(Control and Status Register,控制狀態(tài)寄存器)寄存器配置來動態(tài)決定硬件處理行為,這種靈活的配置方式使得硬件能夠根據(jù)不同的應用場景靈活切換運算模式。其次,Nuclei BF16 擴展提供了專用 intrinsic API,完整支持 BF16 標量和向量運算,為開發(fā)者提供了強大的工具,使其能夠充分利用 BF16 的高效計算能力。實際測試結(jié)果表明,采用 Nuclei BF16 擴展的方案相比官方 zvfbfmin 擴展,性能提升可達 1 倍以上,這一顯著的性能提升無疑為 AI 應用在嵌入式設備上的高效運行提供了有力保障。

Nuclei 矩陣擴展:定制化指令助力性能飛躍

在 AI 應用中,矩陣運算是最為基礎(chǔ)且頻繁的操作之一,其性能的優(yōu)劣直接關(guān)系到整個 AI 系統(tǒng)的運行效率。舒卓表示,為了進一步提升矩陣計算性能,芯來科技在 Nuclei GCC(GNU Compiler Collection)工具鏈中引入了定制化的 VPU 擴展 Xxlvqmacc。該擴展遵循 IME(Instruction - set Meta - Architecture,指令集元架構(gòu))group 規(guī)范設計,實現(xiàn)了高效的整數(shù)矩陣乘加指令,并提供了相應的 intrinsic functions,以方便開發(fā)者在實際編程中使用。

Xxlvqmacc 擴展支持 8 位整數(shù)輸入值擴展至 32 位精度,這對于需要高精度計算的 AI 應用場景具有重要意義。通過這種擴展,開發(fā)者可以在保持較低存儲和傳輸帶寬需求的同時,獲得更高的計算精度,從而在嵌入式設備上實現(xiàn)更為復雜的 AI 算法。例如,在進行矩陣乘法運算時,傳統(tǒng)的實現(xiàn)方式需要多層循環(huán)嵌套,逐個元素進行計算,這種方式在嵌入式設備上效率較低。而借助 Xxlvqmacc 擴展,開發(fā)者可以利用向量化的指令,一次性處理多個數(shù)據(jù),大大減少了循環(huán)迭代次數(shù),顯著提高了運算速度。

結(jié)語:引領(lǐng)嵌入式 AI 發(fā)展潮流

芯來科技通過 RISC-V V 擴展技術(shù)在 AI 推理領(lǐng)域的創(chuàng)新應用,成功地為嵌入式設備上的 AI 運算帶來了前所未有的性能提升。Nuclei AI Library 為開發(fā)者提供了豐富的優(yōu)化算子,涵蓋了多種數(shù)據(jù)格式和運行環(huán)境,極大地簡化了開發(fā)流程,降低了開發(fā)門檻;Nuclei BF16 擴展則針對 AI 領(lǐng)域?qū)τ嬎阈屎途鹊奶厥庑枨?,提出了高效的解決方案,顯著提高了 BF16 格式的計算性能;而 Nuclei 矩陣擴展更是從底層硬件指令層面出發(fā),為矩陣運算這一 AI 核心操作提供了強大的支持。

在未來的智能時代,隨著 AI 技術(shù)的不斷深化和應用場景的持續(xù)拓展,嵌入式設備上的 AI 推理將扮演越來越重要的角色。芯來科技憑借其在 RISC-V V 擴展領(lǐng)域的深厚技術(shù)積累和持續(xù)創(chuàng)新能力,將繼續(xù)引領(lǐng)嵌入式 AI 的發(fā)展潮流,助力各行業(yè)實現(xiàn)智能化升級,為人們的生活和工作帶來更多的便利和可能性。




主站蜘蛛池模板: 亚洲精品视频二区| 国产又黄又猛又粗| 美女少妇毛片| 亚洲色图 美腿丝袜| 特黄一级毛片| 国产三级在线免费观看| 国产在线小视频| 美女超碰在线| 国产亚洲无| 538在线精品视频| 一级中国毛片| 国产精品久久久久久久电影| 国产 日韩 欧美 制服丝袜| 欧美视频黄色| 91抖音成人| 亚洲精品久久久蜜桃| 扣逼小视频| 污污视频在线免费看| 亚洲a精品| 久久精品无码一区| 秋霞韩国理论| 99riAv国产精品无码鲁大师| 亚洲青草视频| 看特级毛片| 樱花视频在线观看| 精品无码国产一区二区三区av| 狠狠操少妇| 成人a v视频| 极品粉嫩小仙女高潮喷水久久| 夜夜摸日日操| 手机成人av| 国语久久| 日韩一区不卡| 国产农村妇女精品久久久| 第一福利社区导航| 色综合色综合网色综合| 91看片视频| 激情视频导航| 日韩欧美a级片| 久久综合综合久久| 日韩精品在线观看视频| 国产成年人视频网站| 一本久草| 爆操小萝莉| 诱夫1v1高h| 男人鸡鸡桶女人鸡鸡| 看一级大片| 涩涩五月天| 色偷偷久久| www日本高清视频| 无码人妻久久一区二区三区| 天天5g天天爽免费观看| 欧美专区视频| 蜜臀精品一区二区三区| www在线| 久久大综合| 亚洲男人的天堂网| 日本少妇一区| 最近中文字幕免费观看| 尤物娇妻被老头调教在线观看| 宅男午夜视频| 97色干| 涩涩一区| 成人免费毛片观看| 中国黄色录像| 边摸边做视频| 国产午夜一级| 欧美精品久久99| 日产精品一区| 美女激情网| 特一级黄色片| 爱爱爱性视频| 操一操干一干| 美足av电影| 免费看av网| 女同性做爰喷水| 日日天天| 91成年影院| 啪啪免费网址| 色婷婷av| 日韩精品一区二区不卡| 午夜肉体高潮免费毛片| 久久无码人妻一区二区三区午夜 | 色日本在线| 美丽的姑娘国语视频| 欧洲黄色网| 免费 成 人 黄 色| 国产中文字幕免费| 天堂中文字幕| 激情黄色小说视频| 无码精品人妻一二三区红粉影视| 成年人黄色大片大全| 欧美日韩国产一级| 91亚洲国产精品| 亚洲欧美中文日韩在线v日本| 亚洲视频456| 亚洲性生活| 日韩精品视频在线观看视频| 一级 黄 色 片69|