大模型技術(shù)應(yīng)用實(shí)訓(xùn)室解決方案
一、建設(shè)背景
隨著大數(shù)據(jù)、云計(jì)算等技術(shù)的不斷進(jìn)步,大模型技術(shù)已成為人工智能領(lǐng)域的重要研究方向,其在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別等領(lǐng)域展現(xiàn)出強(qiáng)大的應(yīng)用潛力。自2022年11月ChatGPT問(wèn)世以來(lái),大模型開(kāi)始備受關(guān)注,科技們紛紛推出大模型實(shí)驗(yàn)室解決方案。大模型的價(jià)值不知在于互聯(lián)網(wǎng)場(chǎng)景,而在于大模型能力垂直化,能夠與具體的業(yè)務(wù)需求深度融合。
大模型實(shí)驗(yàn)室是在學(xué)校現(xiàn)有的實(shí)驗(yàn)室建設(shè)基礎(chǔ)上,依托企業(yè),聚焦行業(yè)大模型產(chǎn)業(yè)發(fā)展方向,建設(shè)一個(gè)產(chǎn)學(xué)研一體化的合作教學(xué)平臺(tái),形成“教與學(xué)緊密結(jié)合、理論與實(shí)踐緊密結(jié)合,學(xué)校與企業(yè)緊密結(jié)合”的創(chuàng)新教育模式。大模型實(shí)驗(yàn)室不僅可以賦能院校“雙師型”師資隊(duì)伍建設(shè),還能培養(yǎng)大模型應(yīng)用開(kāi)發(fā)方面的復(fù)合型、創(chuàng)新型人才。
基于產(chǎn)教融合實(shí)訓(xùn)基地開(kāi)放共享應(yīng)用需要和校企合作項(xiàng)目化特點(diǎn),建設(shè)集教學(xué)培訓(xùn)、項(xiàng)目實(shí)踐、科研于一體的“大模型技術(shù)應(yīng)用實(shí)訓(xùn)室”,滿足集教學(xué)、科研、培訓(xùn)、社會(huì)服務(wù)于一體的應(yīng)用、管理與服務(wù)需要,形成一批有影響力的社會(huì)服務(wù)成果,促進(jìn)科技成果轉(zhuǎn)化和產(chǎn)業(yè)化,不斷提升學(xué)校服務(wù)地方經(jīng)濟(jì)社會(huì)發(fā)展的能力。
在當(dāng)前信息化社會(huì)背景下,高職院校作為培養(yǎng)高技能人才的重要基地,面臨著培養(yǎng)具有創(chuàng)新能力、實(shí)踐能力和跨界融合能力的高素質(zhì)人才的需求。因此,建設(shè)大模型技術(shù)應(yīng)用實(shí)訓(xùn)室,為學(xué)生提供實(shí)踐平臺(tái),對(duì)于提升高職院校人才培養(yǎng)質(zhì)量、推動(dòng)產(chǎn)學(xué)研用深度融合具有重要意義。建設(shè)大模型技術(shù)應(yīng)用實(shí)訓(xùn)室,有助于培養(yǎng)更多具備大模型技術(shù)應(yīng)用能力的高素質(zhì)人才,滿足社會(huì)經(jīng)濟(jì)發(fā)展的需求。
二、關(guān)鍵技術(shù)
模型架構(gòu)設(shè)計(jì)與優(yōu)化:大模型的架構(gòu)設(shè)計(jì)至關(guān)重要,它決定了模型能否有效地處理海量數(shù)據(jù)并提取出有價(jià)值的信息。同時(shí),模型的優(yōu)化也是提升性能的關(guān)鍵,包括超參數(shù)調(diào)整、模型剪枝、量化等技術(shù),以減少計(jì)算量、提高推理速度。
預(yù)訓(xùn)練與遷移學(xué)習(xí):預(yù)訓(xùn)練技術(shù)使得模型在大量無(wú)標(biāo)注數(shù)據(jù)上進(jìn)行學(xué)習(xí),從而掌握通用的知識(shí)表示。遷移學(xué)習(xí)則允許將預(yù)訓(xùn)練好的模型遷移到新的任務(wù)上,通過(guò)微調(diào)適應(yīng)特定領(lǐng)域的需求,極大地提高了模型在新任務(wù)上的性能。
分布式計(jì)算與并行處理:大模型的訓(xùn)練往往需要處理海量的數(shù)據(jù)和進(jìn)行復(fù)雜的計(jì)算,因此分布式計(jì)算和并行處理技術(shù)成為關(guān)鍵。通過(guò)將這些任務(wù)分散到多個(gè)計(jì)算節(jié)點(diǎn)上并行處理,可以顯著提高訓(xùn)練效率。
數(shù)據(jù)處理與特征工程:高質(zhì)量的數(shù)據(jù)是訓(xùn)練出優(yōu)秀模型的基礎(chǔ)。數(shù)據(jù)處理包括數(shù)據(jù)清洗、標(biāo)注、增強(qiáng)等操作,以提高數(shù)據(jù)的質(zhì)量。特征工程則是從原始數(shù)據(jù)中提取出有意義的特征,以供模型學(xué)習(xí)使用。
自動(dòng)化機(jī)器學(xué)習(xí)(AutoML):隨著模型規(guī)模和復(fù)雜度的增加,手動(dòng)調(diào)整超參數(shù)和模型結(jié)構(gòu)變得越來(lái)越困難。AutoML技術(shù)通過(guò)自動(dòng)化地搜索的超參數(shù)和模型結(jié)構(gòu),降低了模型調(diào)優(yōu)的難度,提高了模型性能。
模型壓縮與部署:大模型往往具有較高的計(jì)算復(fù)雜度和存儲(chǔ)需求,不利于在實(shí)際應(yīng)用中部署。模型壓縮技術(shù)如剪枝、量化等可以降低模型的復(fù)雜度和大小,便于部署到資源有限的設(shè)備上。同時(shí),高效的模型部署技術(shù)也是確保模型能夠在實(shí)際場(chǎng)景中發(fā)揮作用的關(guān)鍵。
三、建設(shè)目標(biāo)
1)完善高校大模型技術(shù)應(yīng)用課程體系
提供豐富的大模型課程案例,在人工智能教學(xué)資源基礎(chǔ)上加入的大模型技術(shù)、案例等內(nèi)容,并增加實(shí)驗(yàn)、實(shí)訓(xùn)環(huán)節(jié)的比重,通過(guò)實(shí)際操作案例,讓學(xué)生在理論學(xué)習(xí)的基礎(chǔ)上,加深對(duì)大模型應(yīng)用技術(shù)的理解和應(yīng)用能力,助力高校人才培養(yǎng)。
2) 建成設(shè)施的大模型技術(shù)應(yīng)用實(shí)訓(xùn)室
在學(xué)校現(xiàn)有的實(shí)驗(yàn)室建設(shè)基礎(chǔ)上,依托企業(yè),聚焦大模型技術(shù)發(fā)展,以“面向產(chǎn)業(yè)、項(xiàng)目驅(qū)動(dòng)、能力培養(yǎng)、全面發(fā)展”的教育指導(dǎo)理念,依托的人工智能教學(xué)科研平臺(tái)和真實(shí)的行業(yè)案例,形成“教與學(xué)緊密結(jié)合、理論與實(shí)踐緊密結(jié)合,學(xué)校與產(chǎn)業(yè)緊密結(jié)合”的教育模式。通過(guò)實(shí)驗(yàn)室的建設(shè),依托校企共建的人工智能教學(xué)、科研平臺(tái),與學(xué)校深度融合共育技術(shù)技能人才,實(shí)現(xiàn)包括專業(yè)教學(xué)實(shí)訓(xùn)、師資培訓(xùn)、資源開(kāi)發(fā)、實(shí)習(xí)實(shí)踐、科學(xué)研究等教學(xué)活動(dòng)。
3)培養(yǎng)人工智能開(kāi)發(fā)應(yīng)用的復(fù)合型人才
實(shí)驗(yàn)室建設(shè)的核心目標(biāo)是為了培養(yǎng)具有扎實(shí)基礎(chǔ)的大模型開(kāi)發(fā)、大模型應(yīng)用人才,實(shí)驗(yàn)室建設(shè)后,通過(guò)完善教學(xué)實(shí)訓(xùn)資源及應(yīng)用軟件建設(shè),全面支撐大模型技術(shù)應(yīng)用領(lǐng)域相關(guān)教學(xué)實(shí)訓(xùn)開(kāi)展,為培養(yǎng)大模型開(kāi)發(fā)和應(yīng)用方面的核心人才提供支撐。
4)培養(yǎng)創(chuàng)新創(chuàng)業(yè)能力
在實(shí)際案例操作過(guò)程中,推動(dòng)人工智能與其他學(xué)科的有機(jī)融合教育,如藝術(shù)、設(shè)計(jì)、傳媒等,通過(guò)大模型輔助激發(fā)學(xué)生創(chuàng)新思維,培養(yǎng)學(xué)生的跨領(lǐng)域創(chuàng)新能力,為社會(huì)培養(yǎng)更多具有創(chuàng)新意識(shí)和實(shí)踐能力的“智能型”人才。
四、實(shí)訓(xùn)室建設(shè)內(nèi)容
4.1 大模型技術(shù)應(yīng)用教學(xué)平臺(tái)
大模型技術(shù)應(yīng)用教學(xué)平臺(tái)是針對(duì)職業(yè)教育發(fā)展現(xiàn)狀,以計(jì)算機(jī)技術(shù)、多媒體技術(shù)、網(wǎng)絡(luò)通信技術(shù)等現(xiàn)代信息技術(shù)手段構(gòu)建的一種新型教學(xué)模式,是融合了現(xiàn)代教育理念、教學(xué)內(nèi)容和現(xiàn)代信息技術(shù)的具有多種功能的開(kāi)放式的教、學(xué)、訓(xùn)一體化交互平臺(tái)。
平臺(tái)采用B/S結(jié)構(gòu),運(yùn)用spring cloud微服務(wù)技術(shù),采用kubernetes技術(shù)進(jìn)行部署,支持公有云、私有云、混合云模式安裝;平臺(tái)支持多數(shù)據(jù)源從而保證技術(shù)的一致性;確保服務(wù)的穩(wěn)定、可擴(kuò)展、彈性擴(kuò)容;每個(gè)獨(dú)立服務(wù)支持分布式集群部署,可以無(wú)限橫向擴(kuò)展,提高系統(tǒng)處理能力,支持大規(guī)模并發(fā)教學(xué)全場(chǎng)景和數(shù)字化專業(yè)群教學(xué)實(shí)踐應(yīng)用。主要包含通用課程模塊和考試模塊。
通用教學(xué)模塊包含以下功能:課程制作工具、作業(yè)、活動(dòng)、云盤(pán)、共享課、我的課、云優(yōu)選課、云視頻庫(kù)、3D模型庫(kù)。
(1)課程制作工具模塊:支持pdf、ppt、word、excel等不同格式的文本、圖片、音頻、視頻、超鏈接等進(jìn)行混合編排,并自動(dòng)生成動(dòng)態(tài)課程目錄,支持多源格式文件(至少包含:圖片、視頻、壓縮文件、word、ppt、excel、pdf等)同屏展示。
(2)作業(yè)模塊:支持單選、多選、判斷、主觀題等題型,支持自定義出題支持自動(dòng)出題,支持監(jiān)控,支持自動(dòng)進(jìn)行客觀題判題。
(3)共享課程模塊。
(4)我的課程:支持老師利用平臺(tái)提供的課程制作的課程或者平時(shí)積累的課程自動(dòng)歸檔為我的課程,也可以將共享課程和云優(yōu)選課、云視頻庫(kù)課程轉(zhuǎn)換成我的課程,支持我的課程一鍵分享到共享課程、云優(yōu)選課中。
(5)課堂活動(dòng)模塊:課堂活動(dòng)至少包括:簽到、主題討論、提問(wèn)、分組任務(wù)、投票、問(wèn)卷、計(jì)時(shí)器等功能。
(6)云優(yōu)選課模塊:將教學(xué)中多門(mén)課程的教材,教案,課件,微課,教學(xué)配套材料等教學(xué)元素整合到云優(yōu)選課模塊,通過(guò)互聯(lián)網(wǎng)技術(shù)保證教學(xué)的實(shí)施與效果;支持智能備課、一鍵上課。內(nèi)置豐富在線課程資源,至少包含100個(gè)視頻,每個(gè)不低于20分鐘。
(7)云視頻庫(kù)模塊:云視頻庫(kù)模塊提供數(shù)字化的教學(xué)內(nèi)容,支持課堂教學(xué),支持視頻顯示和多媒體課件互動(dòng),支持網(wǎng)絡(luò)課堂和遠(yuǎn)程教學(xué)。豐富學(xué)生的課外學(xué)習(xí),可為學(xué)校的專業(yè)建設(shè)提供有力支持,可充實(shí)校內(nèi)圖書(shū)館的數(shù)字資源,建立數(shù)字閱覽室,可為學(xué)校進(jìn)行示范性職業(yè)院校建設(shè)、精品課程建設(shè)、核心專業(yè)建設(shè)提供支持。
個(gè)人云盤(pán):平臺(tái)為用戶提供云盤(pán)服務(wù),云盤(pán)內(nèi)所有文件都會(huì)按照不同的文件類型進(jìn)行分類、分類至少包含視頻、音頻、圖片、文檔、回收站等、支持一鍵上傳、刪除、新建、重命名、移動(dòng)等功能
(8)3D模型庫(kù):至少包含3D模型50個(gè),具備虛擬仿真教學(xué)制作工具,可播放 3D 模型、進(jìn)行交互。
內(nèi)置豐富大模型技術(shù)基礎(chǔ)課程:大模型簡(jiǎn)介、Python與大模型、LLM大模型 API、C++與大模型、CUDA基礎(chǔ)、LangChain基礎(chǔ)、向量數(shù)據(jù)庫(kù)、prompt工程、大模型應(yīng)用開(kāi)發(fā)等課程資源。
4.2 大模型項(xiàng)目實(shí)訓(xùn)管理平臺(tái)
大模型項(xiàng)目實(shí)訓(xùn)管理平臺(tái)的功能主要涵蓋了實(shí)訓(xùn)項(xiàng)目的全生命周期管理,從實(shí)訓(xùn)任務(wù)、文檔管理、代碼開(kāi)發(fā)與測(cè)試、實(shí)驗(yàn)環(huán)境管理到成果提交與評(píng)估等各個(gè)環(huán)節(jié)。
用戶創(chuàng)建新的實(shí)訓(xùn)項(xiàng)目,并設(shè)置項(xiàng)目的基本信息、目標(biāo)、團(tuán)隊(duì)成員等。為項(xiàng)目成員分配具體的任務(wù),并實(shí)時(shí)跟蹤任務(wù)的完成情況,確保項(xiàng)目按計(jì)劃進(jìn)行。提供項(xiàng)目成果的展示平臺(tái),方便團(tuán)隊(duì)成員分享和交流項(xiàng)目經(jīng)驗(yàn)、技術(shù)文檔等。
支持用戶上傳、編輯和保存各類實(shí)訓(xùn)文檔,如需求文檔、設(shè)計(jì)文檔、測(cè)試報(bào)告等。提供文檔分類功能,便于用戶按項(xiàng)目、類型等快速檢索所需文檔。支持文檔的版本控制,確保文檔內(nèi)容的準(zhǔn)確性和一致性;同時(shí)支持多人協(xié)同編輯,提高團(tuán)隊(duì)協(xié)作效率。
集成大模型開(kāi)發(fā)所需的各種工具,如模型訓(xùn)練框架、數(shù)據(jù)預(yù)處理工具、性能分析工具等,方便用戶一站式完成代碼開(kāi)發(fā)與測(cè)試工作。平臺(tái)能夠自定義調(diào)用CPU和內(nèi)存資源,自由配置專門(mén)針對(duì)大模型和深度學(xué)習(xí)等任務(wù)的硬件加速器(如GPU或XPU),能夠高效地執(zhí)行大模型的prompt工程、大模型應(yīng)用開(kāi)發(fā)和大模型的微調(diào)。平臺(tái)支持主流的大模型基座,支持大模型基座私有化部署,包括智譜的ChatGLM、百川的Baichuan、阿里的Qwen等,助力用戶快速進(jìn)行大模型的開(kāi)發(fā)和微調(diào)。平臺(tái)還提供了豐富大模型開(kāi)發(fā)工具、整套開(kāi)發(fā)環(huán)境和資源監(jiān)控功能,能夠靈活分配資源,方便用戶輕松使用、開(kāi)發(fā)、管理大模型應(yīng)用。
平臺(tái)實(shí)時(shí)監(jiān)控實(shí)驗(yàn)機(jī)的運(yùn)行狀態(tài),包括CPU、內(nèi)存、磁盤(pán)等使用情況;提供實(shí)驗(yàn)機(jī)的遠(yuǎn)程管理功能,方便用戶進(jìn)行故障排除和日常維護(hù)。收集并展示項(xiàng)目的進(jìn)度、任務(wù)完成情況、代碼提交量等統(tǒng)計(jì)數(shù)據(jù),幫助用戶了解項(xiàng)目整體情況。設(shè)置不同的用戶角色和權(quán)限,確保不同用戶只能訪問(wèn)和操作其權(quán)限范圍內(nèi)的內(nèi)容。
4.3 大模型項(xiàng)目項(xiàng)目資源包
l基于 LLM(Large Language odel)大型語(yǔ)言模型的知識(shí)庫(kù)問(wèn)答系統(tǒng),它提供了一整套開(kāi)箱即用的功能,包括數(shù)據(jù)處理、模型調(diào)用等能力,并且通過(guò)可視化的 Flow 進(jìn)行工作流編排,從而實(shí)現(xiàn)復(fù)雜的問(wèn)答場(chǎng)景。
l智能證件照制作算法,本項(xiàng)目基于OpenCV模型,使用 Python 語(yǔ)言實(shí)現(xiàn)智能摳圖、人臉檢測(cè)、尺寸切割等功能于一體,采用了一套完善的機(jī)器學(xué)習(xí)模型工作流,實(shí)現(xiàn)對(duì)多種用戶拍照?qǐng)鼍暗淖R(shí)別、摳圖與證件照生成。具體包含輕量級(jí)摳圖、根據(jù)不同尺寸規(guī)格生成不同的標(biāo)準(zhǔn)證件照、智能換正裝等;
l計(jì)算機(jī)視覺(jué)應(yīng)用手寫(xiě)數(shù)字識(shí)別,采用深度學(xué)習(xí)技術(shù)來(lái)構(gòu)建一個(gè)手寫(xiě)數(shù)字識(shí)別模型,基于MINST數(shù)據(jù)庫(kù),使用 TensorFlow 和 Keras 這兩個(gè)流行的深度學(xué)習(xí)框架來(lái)實(shí)現(xiàn)手寫(xiě)數(shù)字識(shí)別。
4.4 大模型技術(shù)應(yīng)用平臺(tái)
大模型技術(shù)應(yīng)用平臺(tái)是一款專為高校大模型應(yīng)用場(chǎng)景教學(xué)和科研打造的知識(shí)庫(kù)問(wèn)答系統(tǒng)。該平臺(tái)易于使用,知識(shí)庫(kù)支持常見(jiàn)的txt、doc、pdf、md等數(shù)據(jù)文件上傳,同時(shí)提供了簡(jiǎn)潔易懂的操作配置界面,使用戶可以輕松地搭建和訓(xùn)練AI應(yīng)用,并快速調(diào)用,滿足不同領(lǐng)域的交互式對(duì)話場(chǎng)景需求。此外平臺(tái)還支持可視化的工作流編排,能夠滿足復(fù)雜的問(wèn)答場(chǎng)景搭建需求。通過(guò)大模型應(yīng)用平臺(tái),能夠更好幫助用戶更好地應(yīng)用大模型技術(shù),提升教學(xué)和科研質(zhì)量。
4.5 大模型技術(shù)應(yīng)用教學(xué)平臺(tái)硬件
CPU:多核心處理器,如 Intel 志強(qiáng)系列,不少于24核,以支持并發(fā)處理多個(gè)微服務(wù)實(shí)例。
RAM:至少 64 GB DDR4 RAM,以確保能夠同時(shí)運(yùn)行多個(gè)微服務(wù)實(shí)例和相關(guān)的應(yīng)用程序。
存儲(chǔ):SATA SSD 或 HDD:至少 4 TB 用于數(shù)據(jù)存儲(chǔ)和備份,根據(jù)需要可增加容量。
網(wǎng)絡(luò):至少 10 GbE 網(wǎng)絡(luò)接口,用于高速內(nèi)部網(wǎng)絡(luò)通信和負(fù)載均衡。
主板: 主板應(yīng)支持硬件虛擬化技術(shù),如 Intel VT-x 或 AMD-V,以提高虛擬機(jī)性能。支持多核心 CPU 和大量 RAM 的主板。足夠的 PCIe 插槽,用于擴(kuò)展網(wǎng)絡(luò)適配器和存儲(chǔ)設(shè)備。
電源供應(yīng):至少 750W 的電源,具有或白金效率認(rèn)證,以確保穩(wěn)定供電。
散熱系統(tǒng):高性能 CPU 散熱器,如空氣散熱器或液冷系統(tǒng)。
數(shù)據(jù)傳輸和連接:USB 3.0 或更高版本的端口,用于外部存儲(chǔ)和其他設(shè)備的連接。HDMI端口,用于連接顯示器。
4.6 大模型項(xiàng)目實(shí)訓(xùn)平臺(tái)硬件
CPU:Intel Xeon Gold 6230 或 AMD EPYC 7742 等,具有多個(gè)核心(至少 24 核)和高速緩存,以支持并行處理和高效的數(shù)據(jù)預(yù)處理。
GPU:NVIDIA GeForce RTX 4090:具備大量的 CUDA 核心和高速內(nèi)存,適合進(jìn)行深度學(xué)習(xí)模型的訓(xùn)練。
RAM:至少 256 GB DDR4 ECC 內(nèi)存,以支持大型模型的訓(xùn)練和數(shù)據(jù)處理。
存儲(chǔ):HDD 或 SSD:至少 8 TB 用于數(shù)據(jù)存儲(chǔ)和備份。
主板:支持 dual-width GPU 插槽,以確保顯卡能夠正確安裝和散熱。
足夠的 PCIe 插槽,用于擴(kuò)展其他高速設(shè)備。
電源供應(yīng):至少 1200W 的電源,具有或白金效率認(rèn)證,以確保穩(wěn)定供電。
散熱系統(tǒng):強(qiáng)勁的 CPU 散熱器,如液冷或大型空氣散熱器。顯卡專用的散熱系統(tǒng),如水冷或高性能風(fēng)扇。
機(jī)箱:大型機(jī)箱,具有良好的散熱和擴(kuò)展空間,以便安裝多個(gè) GPU 和散熱設(shè)備。
網(wǎng)絡(luò):至少 10 GbE 網(wǎng)絡(luò)接口,用于快速數(shù)據(jù)傳輸和模型同步。
數(shù)據(jù)傳輸和連接:
USB 3.0 或更高版本的端口,用于外部存儲(chǔ)和其他設(shè)備的連接。
HDMI 端口,用于連接顯示器。
五、實(shí)訓(xùn)室建設(shè)清單
相關(guān)產(chǎn)品
免責(zé)聲明
- 凡本網(wǎng)注明“來(lái)源:化工儀器網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-化工儀器網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來(lái)源:化工儀器網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。
- 本網(wǎng)轉(zhuǎn)載并注明自其他來(lái)源(非化工儀器網(wǎng))的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品第一來(lái)源,并自負(fù)版權(quán)等法律責(zé)任。
- 如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。