一、前言:
過去20年來,拉曼光譜法在制藥應用中取得了長足的發展。晶型分析是拉曼在分析實驗室的藥物分析中提供的一項功能,以及用于顆粒、基質和表面分析的拉曼光譜共聚焦顯微鏡功能。
從2010年代末開始,手持式拉曼系統在制藥領域的應用激增。這些儀器配置了專用操作系統,用于GMP環境中的輔料和API定性分析、固體劑型確認和防偽分析,現在已成為事實上的高效GMP原材料來料檢測標準。
生物過程監測是光譜平臺非常適用的領域。早在20世紀90年代末,近紅外和中紅外光譜系統就已被研究用于生物過程代謝物監測應用,但水對紅外光譜的吸收嚴重限制了可用于吸收測量的光程,從而導致檢測背景噪音過大。拉曼光譜受益于相對較弱的水散射截面,因此從本世紀初開始研究拉曼光譜的這種應用也就不足為奇了。拉曼技術在光學采樣表面也提供了相當大的靈活性,無論使用塑料、玻璃和其他礦物質作為采樣接觸表面的干擾都非常小。
早期拉曼生物過程工作的重點領域是各種生物系統中的細胞代謝物,并且隨著人們的興趣迅速擴大,這種應用仍在繼續。許多研究者還發表了關于評估關鍵產品質量屬性的可能性文獻,如蛋白質翻譯后修飾和聚合等的相關研究。
根據Google Scholar的 數據,過去10年,與“Raman+ BioProcess”相關的引用呈指數級增長(圖1),到2023年,引用次數將超過4000次。
二、傳統經驗模型的挑戰:
復雜生物系統中拉曼數據的分析需要計算輔助。正如Ryder所評論的那樣,在這項工作中可以采用多種化學計量學和多變量工具。關于關鍵工藝參數和關鍵質量屬性(CPP 和 CQA)的建模,絕大多數文獻中采用偏最小二乘 (PLS) 回歸。PLS 是一大類潛變量/正則化經驗線性校準方法之一。它在化學應用中占據明顯主導地位的原因很大程度上是歷史和商業原因,但它相比于其他方法并沒有更好的表現。不過所有經驗方法確實都有一個優點,即幾乎不需要詳細了解底層細胞培養環境、分析儀器的物理化學原理。
但是,使用這些經驗校準方法對生物過程數據進行建模存在一些重大挑戰,如下所示:
1, 非平穩性(Nonstationarity)和方差齊性(Homoscedastivity):在數學和統計學中,“平穩性”是一個術語,意味著每個數據(在本研究中為光譜數據)都是從具有固定分布特性的隨機分布中得出的。大多數商業軟件中的 P LS 等經驗方法僅在理論上是準確的,并且是使用“平穩”數據進行優化的。這意味著每個生物反應過程必須以相同的方式運行,并且化學物質之間具有一致的相關性。它還意味著儀器中的測量方差在時間和通道上始終相同(方差齊性)。對于拉曼光譜(或近紅外或中紅外光譜吸收)來說,情況并非如此,特別是在生物過程中,當大量生物量(Biomass)可能導致生物反應過程運行中或不同批次之間的熒光差異非常大時,從而導致數據噪音波動顯現數量級的差異。
2, 協變量:根據定義,在生物反應過程中許多物質之間存在時間相關性。廣泛使用的經驗方法旨在利用這些經驗時間相關性;但這些關聯方法非常容易產生非特異性關聯,從而降低預測準確性和通用性。
3, 可交換性和交叉驗證:與上述兩點相關,交叉驗證通常作為數據建模工作中經驗模型的準驗證評估來完成。為了使交叉驗證結果有效且具有代表性,數據必須是“可交換的”;但由于協變量的原因,生物過程數據通常嚴重違反了這一原則。
4, 試錯法:這些經驗方法中的大多數都包括變量選擇、預處理、歸一化和校正方法的一系列選項。推薦的方法是“嘗試一下,看看什么似乎有效”,因為通常沒有什么理論依據來指導選擇這種方法而不是另一種方法。
5, 質量因數:與上述內容相關,大多數商業軟件中報告的主要指標是“RMSEC/RMSECV/RMSEP”:[校準/交叉驗證/預測]的均方根誤差]。藥典分析標準通常期望對選擇性、線性、精密度、檢測限和靈敏度進行估計;但不幸的是,經驗建模方法不能直接估計這些質量因數。用戶可以進行實驗工作來評估這些值,但這是相當具有挑戰性的,通常需要定制化的編程/分析。
6, 光譜儀變化:當開發經驗模型時,單個光譜儀的個體特性和非理想效應也會成為開發者的協變量。當更換光譜儀或更換激光器/探測器時,經常需要校正多變量模型以確保與新光譜儀的個體相關性。經常需要使用多種數學方法來執行這種“校準遷移”。
7, 監管挑戰:經驗建模方法的?箱性質需要廣泛的經驗驗證工作來證明其靈敏度、選擇性、線性和穩定性。監管指導文件(如ICH Q 14 10.3)中提供了一些通用指南,但它們并不是特別明確,也不是以這些方法的數學基礎為理論依據。
考慮到這些挑戰,毫無疑問,穩健的拉曼方法開發和部署一直是生物反應過程應用中特別棘手的挑戰。人們已經做出了許多努力來克服其中的一些障礙。設計故意擾動實驗可用于試圖“打破”本質上存在的協變量并擴大可用于建模的經驗數據的范圍。
不同文獻報告了使用 PLS 和 各種預處理方法成功構建“通用”模型,并報告在特定平臺方法的合理成功;但這些工作通常涉及 25?30 次以上的生物反應實驗,需要花費大量的時間和人力物力;并且還不包括隨后的實驗部署和維護成本。這些文獻結果與行業研討會報告的內容思路基本一致。
三、Maverick的全新模型:
我們的目標是改善將拉曼光譜方法引入生物反應過程監測的技術挑戰。我們從哺乳動物 C HO 和 HEK293 細胞系開始,這些細胞系廣泛用于蛋白質(單抗)和病毒載體的生產,并且可用于放大生產。
僅憑借純粹的經驗建模/校準很難規避上述挑戰。混合模型在生物學和生物反應過程領域越來越受到關注。迄今為止,這些方法在很大程度上結合了基本生物機制的知識、化學工程知識、計算流體動力學和其他知識領域,以及使用一些經驗測量或觀察的數據,以提高對生物反應過程的理解。模型中更多的固定元素限制了經驗優化,以降低過度擬合/局部最小值的風險,并引導整體模型達到可解釋且產生持續穩定的近似值。使用第一性原理或構建砌塊信息來預測復雜的結果有時被稱為全新的方法,例如全新的蛋白質結構建模,這是我們用來描述Maverick算法原理的術語。
MAVERICK的全新模型源自1970年代開始研究的關于多變量校準 ( MVC) 的概率框架,例如Morgan等人的早期研究。它與圖2中常見的經驗多變量校準模型形成對比。
在存在一些參考誤差(e)的情況下,經驗MVC方法根據觀測到的光譜數據 X (X~)和配對參考數據(y) 的近似值來估計預測變量b;b本身的計算是基本的。上述挑戰1-7主要表現在每個領域中‘X’的近似值上,應該做什么實驗、在什么硬件上、設置哪些參數、在計算b之前應該如何修正/處理原始數據,以及最終的模型在真正預期的條件下如何執行。
X的近似值對于控制經驗方法過度擬合的風險至關重要,并且在實踐中有許多、許多、許多不同的X (X~)的可能“近似值”。 PLS(偏最小二乘法)是許多模型方法之一,在許多商用軟件中廣泛使用。在創建X(X~)的過程中,也通常會消除波長范圍或應用其他線性或非線性變換。過多可用于建模的‘近似’步驟選項是過度擬合的重要次級來源,因此有時會需要評估數百或數千個選項,浪費了大量的廣義自由度。
相比之下,MAVERICK 的全新模型不使用任何憑經驗觀察到的X或y數據。相反,它使用圖2中術語(一些靜態和一些動態)在時間t為主動測量下的系統創建“最佳線性預測器” 。雖然這個模型的核心是概率性的,但它的幾個關鍵參數可以直接從基于光學、電子學和多元統計學的第一性原理中推導出來。由于這些效應在拉曼系統中是動態的,所以觀察生物反應過程,幾個模型選項也是動態的(這不足為奇)。
公式中參數K,Ψ代表可觀察拉曼光譜可能的化學/生物化學貢獻者的“主要參數”以及相關的預測概率密度函數,從中產生濃度估計值。人們可能想知道,如何才能涵蓋公式中的所有可能性。雖然生物反應過程中化學/生化物質的數量很可能有數千種。但拉曼光譜的靈敏度意味著人們實際上只需要考慮0.01 g/L 以 上的主要成分。在哺乳動物培養基中,超過0.01g/L的,我們發現數百種常用物質以及添加劑(例如表面活性劑、消泡劑)的數據。用那么多參數數據對觀測到的拉曼光譜進行去卷積通常是一個不合適的問題;但使用全新模型,是一個充分自我調節的解決方案,以產生低方差的濃度估值。
其余條件既取決于設備,也取決于時間。F是從每個MAVERICK系統的多維出廠特征導出的濾波器函數,并且實時適應于變化的樣本和系統條件。拉曼系統中許多重大誤差來自于光學系統設計和電子原件。MAVERICK的內部系統模型使其能夠實時估計∑t 的測量誤差協方差。相應的,系統模型還允許Et自適應,例如變化的室內照明、溫度和濁度條件。最后,由于在生物反應過程中,時間t的系統狀態與時間t-1的狀態有關,因此惰性模型中包括環境和自回歸分量(Λ)。
質量因數
這個估計模型的幾個重要性質先前已經討論過,例如預測均方誤差(MSEP)的解析解。
如上所述,經驗模型開發中的一個一致性挑戰是模型屬性的不透明性。很少有證明生物過程拉曼應用文獻引用所得模型的標準分析優值,例如靈敏度、選擇性、LOD,因為多變量模型的文獻定義很復雜。符合IUPAC定義的靈敏度和選擇性因子可以根據文獻中所述的過程全新模型直接估計。最后,還可以推斷出其他模型診斷,如平面內和平面外一致性,類似于Hoteling或杠桿統計和F參數:
四、 模型快速校準:
MAVERICK系統的MAVERICK方法減輕了用戶的巨大建模負擔,但并不能使其擺脫所有形式的“校準”。由于MAVERICK系統被設計為在測量模塊、光路模塊和探頭之間即插即用,因此在開始生物反應過程分析之前,需要進行一個準備步驟來確認定量系統的適用性。這是一個3步過程,由MAVERICK的軟件在HUB屏幕上引導:
1. 將拉曼探頭浸入“LOW”標準液中,按下 ‘GO’并等待大約4分鐘;
2. 將拉曼探頭浸入“HIGH”標準液中,按下 ‘GO’并等待大約4分鐘;
3. 將拉曼探頭插入反應器中與反應器一起滅菌;
步驟1+2檢查MAVERICK+探頭的一些參數是否符合全新模型,并對MAVERICK測量模型、光路模塊和探頭的特定組合的全新模型輸出進行快速的標品定標。該參數還允許對使用帶序列號和芯片的探頭進行自動的審計追蹤。MAVERICK還支持單點“實時”校準,這有助于消除離線分析儀器和MAVERICK之間的數據偏差。
五、 實測案例:
圖3顯示了與一些常見的離線生化分析儀(酶膜法)相比,使用MAVERICK在CHO和HEK293工藝上的分析數據。
圖4展示了全新模型提供的一些后臺診斷信息。這些信息是從CHO培養過程中提取的,該過程在一個有大窗戶的實驗室中運行。在上圖中,在估計的RMSE(g/L)中可觀察到的小波動與預期一致——全新模型正在跟蹤整個晝夜周期的基本背景噪音變化,影響∑t。同樣的影響正在傳播到下圖中對葡萄糖的選擇性,該圖繪制了葡萄糖對前20種其他細胞培養基成分的選擇性:隨著環境光照的增加,盡管環境光照發生了變化,但全新模型仍進行了調整和自適應,以保持選擇性。谷胱甘肽以綠色曲線顯示,雖然它恰好是該生物過程中葡萄糖選擇性“較低”的物種,但正如y軸所示,葡萄糖選擇性仍然很好(>0.99)。
在生物過程的后期階段,細胞/蛋白質濃度的增加可以誘導中重度的自發熒光,這會給經驗校準模型帶來很大的困難。全新模型的優值反映了這種影響,可以觀察到RMSE的緩慢上升趨勢,但由于全新模型持續跟蹤和補償背景噪音的增加,從測量誤差模型中的熒光來看,這種影響處理得相當良好。
六、 Maverick全新模型的限制與機會
全新模型的關鍵優勢—即透明度和避免經驗推導模型的陷阱—也可以被認為是其關鍵局限性。如上所述,如果生物過程的光學活性成分沒有提前確認,則全新模型報告的結果容易有偏差。數據偏差的程度在很大程度上取決于‘未知’物質的光學活性:低微克/升水平的痕量金屬元素不會產生影響,因為a)它們是光學無活性的,b)濃度太低,無法在溶液中用拉曼觀察到。通常,只有0.01g/L及以上范圍內的共價鍵合有機物質才被認為是相關的。
全新模型也無法支持所謂的“間接傳感器”—即沒有直接的光譜效應(如pH),也可以從經驗觀測數據中推斷出虛擬參數。如果沒有公式包含的光譜效應,就無法使用全新模型。對于那些對間接傳感器建模或擴展預測模型感興趣的人,可以選擇將MAVERICK的全光譜導出,該導出可以通過OPCUA實時訪問,也可以在測量會話結束時作為合并數據文件訪問。
還有更多的機會利用Ψ和K的混合建模方法。目前,單個Ψ似乎足以用于哺乳動物的生物過程,但我們正在探索更多樣的自適應Ψ培養基系統(例如非CHO或HEK293哺乳動物細胞、鳥類細胞、昆蟲細胞等)。或者,如果從數據中發現明顯不存在的特定配方組分,則對K的動態進行約束。例如,通過L1型正則化方法。我們注意到,動態系統模型(如所謂的數字孿生)也可能直接與全新模型連接,進行連續的時間數據更新。
七、 后語:
隨著我們在其他分析物和其他細胞/培養基過程中驗證性能,我們有機會繼續擴展MAVERICK的參數。此外,隨著流程從早期工藝開發過渡到中試和生產規模,全新模型的靈活性可以幫助提高跨規模/幾何結構的工藝穩定性。
免責聲明
- 凡本網注明“來源:化工儀器網”的所有作品,均為浙江興旺寶明通網絡有限公司-化工儀器網合法擁有版權或有權使用的作品,未經本網授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:化工儀器網”。違反上述聲明者,本網將追究其相關法律責任。
- 本網轉載并注明自其他來源(非化工儀器網)的作品,目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網站或個人從本網轉載時,必須保留本網注明的作品第一來源,并自負版權等法律責任。
- 如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。