1 引言
以大語言模型(Large Language Model,LLM)為代表的人工智能(Artificial Intelligence,AI)不斷發展,在制造、醫療保健、交通等諸多行業展現令人振奮的前景。從生產線的智能管理,到交通系統的自動化控制,再到醫療診斷的精準預測,大語言模型的應用正逐步重塑我們的工作與生活,為社會創造一個更高效、更安全、更健康的未來。大語言模型能夠理解和處理上下文信息,產生連貫、有意義的響應,更好地模仿人類溝通。
隨著無線通信技術的進步,6G無線系統在向更高的頻率(包括毫米波乃至太赫茲)、更大的帶寬和更大規模的天線陣列等方向演進。一方面,通信系統已逐步具備類似于感知系統的能力,通過廣泛覆蓋的移動通信網絡,以及對直接信號、反射信號和散射信號的分析,可以從無線電波中提取距離、角度和材質等信息,實現對目標對象或環境屬性與狀態的感知。另一方面,感知技術借助高精度定位、環境重構等手段,可以實時復刻物理世界,構建一個平行的數字世界,即“數字孿生”。數字孿生提供精確的波束賦形和高效的信道狀態信息檢測等功能,有助于增強通信性能。這意味著通信感知一體化(Integrated Sensing and Communication, ISAC)將成為大勢所趨。同時,大語言模型與感知技術的結合,也為傳感器和攝像頭等設備賦予了智能感知能力。具備了智能感知能力以后,這些設備不僅可以識別、檢測和采集多樣化的海量數據,還能夠分析并優化數據,進而感知和理解外部環境。未來通信感知一體化與大語言模型將不斷融合,共同推進6G“人工智能物聯網(Artificial Intelligence of Things,AIoT)” 時代的到來。
基于這樣的愿景,在未來的通信系統尤其是6G系統中,傳感器和機器人等各類智能設備之間的通信會占據很大比重。大語言模型的出現,讓人與機器間、機器與機器間的通信變得更為直觀和高效,將大大促進語義通信在6G研究中的發展。語義通信減少了數據傳輸量,不僅傳輸原始數據,還傳遞信息內涵,因而可以提高通信效率。利用大語言模型,可以從圖像、音頻和點云等各種模態中提取信息,并將信息轉換為常見的令牌化表示。這些從大語言模型詞表中提取的離散令牌,封裝了底層數據的語義,無需考慮數據的原始模態。這一機制創造了振奮人心的可能性,讓不同設備和系統間得以進行無縫通信與信息交換。借助這種基于令牌的語義通信方法,還可以更方便地把信息集成到知識圖譜和其他語義表示框架中,從而促進對環境的全面理解及相關決策。通過上下文感知通信,設備可以根據周邊環境和系統整體目標來動態調整行為。
高效通信及人工智能物聯網要走進現實,就需要把大語言模型擴展到人類用戶之外,去覆蓋一張巨大的物聯網設備網絡。然而,由于這類設備的計算能力有限,直接在設備上執行大語言模型的推理通常不具備現實的可操作性。如果采用傳統的云端解決方案,用戶與遠程數據中心之間來回通信會引入顯著時延,難以滿足實時應用的即時響應要求。這個問題在自動駕駛或工業控制等時間敏感型任務中尤為突出,此類任務中的時間以毫秒計,微小的時延都會產生重大影響。為了應對這樣的挑戰,需要有先進無線系統來支持大語言模型的在線推理,特別是在行將到來的6G時代,基站層面的支持至關重要。
如此一來,未來的無線通信系統不僅要管理控制無線通信、向用戶設備提供連接與通信服務,它的基站還要充當連接AI模型的中心樞紐,而當中的每個模型都是為特定的功能和應用而設計。這些模型經過預訓練和驗證后,策略性地部署到核心網絡的各個基站,讓AI能力更貼近終端用戶。圖1 展示了這樣一個未來的6G系統。
本文提出通信感知一體化和大語言模型相結合的思路,通過建立語義數字孿生(Semantic Digital Twin,SDT)來提升無線通信與AI推理的效率。后續章節的內容如下。第2節介紹無線通信系統中SDT的具體框架,重點說明通信感知一體化和大語言模型的融合。第3 節探討SDT在無線通信和AI推理增強方面的應用。第4 節給出本文小結。
圖1 通信感知一體化和大語言模型在6G系統中的融合
2 語義數字孿生
數字孿生的概念正在顛覆我們對復雜系統的認知與管理。通過數字孿生,網絡運營商能夠識別未覆蓋區域、降低信號干擾、高效分配資源,以達到網絡性能優化的目的。當網絡向6G及更遠的未來演進,數字孿生將愈發變得不可或缺,因為它作為創建虛擬副本的關鍵所在,復刻了物理無線環境中從基站、用戶設備到周邊地形等林林總總的一切對象。這些數字化的表示還會隨實時數據不斷更新,實現對系統行為的持續監控、分析與預測。
在邁向高效通信愿景的進程中,語義通信和數字孿生技術的結合為未來6G智能系統的發展開辟了廣闊前景。具體而言,兩種技術的結合可以實現實時物理蜂窩網絡的令牌化表示。傳感器的運用,以及令牌化無線相關特征——比如信道狀態信息(Channel State Information,CSI)和信道質量指示(Channel Quality Indicator,CQI)——的信息輔助,對構建準確有效的SDT將發揮關鍵作用。
2.1 語義傳感器數據
大語言模型的應用使傳感器在處理原始數據時能夠理解特定的任務或目標,提高處理效率。換言之,傳感器可以將注意力與處理能力聚焦到具體場景和任務的相關方面,針對性地提取更有意義的信息。提取的信息包含兩方面,一是與任務相關的語義概念,二是目標的附加屬性,這兩項信息都通過語義令牌 \(T^{s}\) 來表示。譬如,相機的功能遠不止顯示基本的圖像像素。它還可以檢測特定場景中執行具體動作的人,并對人的位置和運動等附加屬性進行編碼。與此類似,環境傳感器除了上報溫度值,還可以根據預定義的閾值和環境模型傳達“舒適”、“潮濕”或“污染”等語義概念,并在環境異常時發出警報。
2.2 令牌化的無線信道測量
由于整個通信網絡充當了一個巨型傳感器,利用無線相關特征可以顯著增強對物理世界的感知和理解。具體而言,從無線信號中提取的距離、速度和角度等信息可以增強感知。例如,分析信道狀態信息可以揭示障礙物的存在,識別不同類型的干擾(如同頻干擾或外部干擾源),并檢測目標對象在覆蓋區域內的運動。這些感知與理解的結果會編碼為令牌Tc,令牌值包括“障礙物”、“干擾”或“運動”等。同時,位置、損耗或方向等相關參數也會一并編碼。此外,如果基站擁有相關環境的綜合射頻地圖和充足的算力,那么基于令牌化的表示來重建粗略但完整的信道狀態信息,也具備潛在的可行性。這種重建能力使信道狀態信息的表示變得更加高效、緊湊,從而在保留無線環境基本信息的同時,減少了需要傳輸的數據量。
2.3 語義數字孿生表示
如圖2 所示范式,語義數字孿生是包含語義令牌的一個動態集合,令牌會基于傳感器和無線信道測量所獲得的信息持續更新。每個令牌序列表示環境的特定方面或環境中發生的特定事件,不僅承載了自身固有的語義內涵,還包含了時間和空間維度的上下文信息。這意味著,數字孿生中的每條信息都被打上時間戳和位置戳,進而構建出時間、空間和語義(用于事件描述)環境的三維表示。這樣構建出來的數字孿生提供了更為豐富的信息,它的角色不再是被動地收集數據,而是主動地參與到理解和解釋環境的活動中來。
圖2 語義數字孿生
上述語義數字孿生是由基站建立的。在建立數字孿生的過程中,每個時間戳的令牌融合是我們面臨的主要挑戰。設令牌 \(T^{s}\) 和 \(T^{c}\) 的長度相等,或使用額外的神經網絡投影來對齊兩者的長度。我們根據令牌特征將令牌 \(T = \left \{ T^{s},T^{c} \right \} \) 分成若干聚類,再融合同一特征聚類中的令牌,如圖3所示。需要注意,同一特征聚類中的令牌對應多個相同的事件或對象,各個特征聚類中融合的令牌數量也不盡相同。本文采用的聚類方法是一種使用了語義令牌的混合特征聚類法。該方法主要包括兩部分:一是令牌的最近鄰聚類(KNN),也就是先基于特征的空間相似度將令牌聚類; 二是令牌融合,即利用大模型再來考察令牌的語義相似度。在模型訓練過程中,會使用語義圖將屬于同一目標或事件的多個語義令牌屬性聚合到同一個聚類中。
圖3 令牌融合過程
特征聚類:創建特征聚類采用的是DPC-KNN(Density Peaks Clustering based on k-Nearest Neighbors) 的一個變種算法。由于聚類中心的密度比鄰居令牌更大,與較高密度令牌之間的距離也相對更遠,因此應同時考慮密度 \(\rho\) 和相對距離 \(\delta\) 。給定一組令牌T ,設 \(NN_{k} (t_{i})\) 為在語義相似度上與 \(t_{i}\) 最鄰近的第 k 個令牌。那么,\(t_{i}\) 的 k- 最近鄰 \(KNN (t_{i})\) 定義如下:
\(\operatorname{KNN}\left(t_{i}\right)=\left\{j \in T \left\lvert\, \frac{t_{i} \cdot t_{j}}{\left\|t_{i}\right\|\left\|t_{j}\right\|} \leq \frac{t_{i} \cdot \mathrm{NN}_{k}\left(t_{i}\right)}{\left\|t_{i}\right\|\left\|\mathrm{NN}_{k}\left(t_{i}\right)\right\|}\right.\right\}\) (1)
然后,通過計算 \(t_{i}\) 到 k 個最近鄰的平均距離,可以得到令牌\(t_{i}\)的局部密度 \(\rho_{i}\):
\(\rho _{i}=exp(-\frac{1}{k} \sum_{t_{j}\in KNN(t_{i})}^{} \frac{t_{i}\cdot t_{j}}{\left \| t_{i} \right \| \left \| t_{j} \right \| } )\) (2)
相對距離的計算公式如下:
\(\delta_{i}=\left\{\begin{array}{l} \min _{j: \rho_{j}>\rho_{i}} \frac{t_{i} \cdot t_{j}}{\left\|t_{i}\right\|\left\|t_{j}\right\|}, \text { if } \exists j \text { s.t. } \rho_{j}>\rho_{i} \\ \max _{j} \frac{t_{i} \cdot t_{j}}{\left\|t_{i}\right\|\left\|t_{j}\right\|}, \text { otherwise } \end{array}\right.\) (3)
式中,\(\rho_{i}\) 是令牌 \(t_{i}\) 的局部密度。
令 \(s_{i}=\rho_{i}\times \delta _{i}, i\in \left \{ 1,...,|T| \right \} \)表示每個令牌 \(t_{i}\) 的得分。通過選取具有最高得分 \(s_{i}\) 的令牌,可以確定一系列聚類中心,然后根據語義距離將其他令牌分配到最近的聚類中心。
令牌融合:每個特征聚類使用一個 Transformer 塊,用于捕捉同一特征聚類中不同令牌間的語義關系和信息交互,以生成融合的令牌聚類 \(\tilde{T}_{n}\)。
對于不同時間戳的特征聚類,會基于相似度距離進行配對,也就是說,只有當各聚類的中心之間相似度距離小于給定的閾值 \(d_{c}\) 時,這些聚類才能互相匹配。在執行決策或類似任務時,會考慮跨越不同時間和空間的所有對應特征聚類,這一做法能提高準確度,為物理世界與數字世界之間更和諧的交互開辟了新的可能性。
3 語義數字孿生的應用
時空SDT在無線通信和大語言模型推理中起著至關重要的作用。
3.1 無線通信中的作用
通過對歷史與實時數據的分析整合,SDT可以優化資源分配和信號處理。具體來說,在波束賦形等技術中,SDT可以精確定位信號傳輸方向,從而最大化信號接收效率。
在傳統的波束賦形方法中,定向傳輸通常依賴設備或特定信號源的地理位置。而借助SDT,系統可以識別和理解特定的用戶活動或狀態,比如識別用戶讀書時的姿態或行為。這種個性化定位超越了嚴格的地理界限和信號源限制,關注點轉移到了用戶行為與需求。基于識別到的信息,系統可以調整天線陣列的波束賦形方向,精確定位到特定的用戶設備。此外,系統還可以快速響應用戶姿態或環境條件的變化,動態調整波束方向以維持通信的連續性和效率。這些能力增強了通信系統的靈活性與適應性,顯著提升了用戶體驗和業務質量。
圖4 人手持書本的SDT演示
圖4 是SDT檢測到人手持書本的實時演示。演示使用了攝像頭和激光器等多種類型的傳感設備。為了對齊各類傳感設備所采集的數據,我們利用第2.3節提出的令牌融合方法來提取特征并匹配多設備間的目標與對象。檢測分為環境檢測和語義檢測。前者檢測靜態對象,這可以由當前的大語言模型來輕松處理。后者理解并檢測人的動作,需要分析并整合目標個人和周圍物體的相對位置與狀態。演示中維護兩個隊列:一個語義狀態隊列 S(p);一個相對位置隊列 L(p, o),指示對應語義狀態的人和物體所處的相對位置,其中 p 表示被檢測人的索引,o 表示被檢測物體的索引。之后,利用語義狀態和相對位置間的對比學習來提高人體姿態檢測與理解的精度。整個過程如圖5 所示。
圖5 SDT構建過程
3.2 對AI推理的增強
在以下幾個關鍵方面,SDT可以顯著增強AI推理能力。
- 精確視覺裁剪:使用多模態大語言模型處理視覺問答任務時,有效的處理性能對醫療診斷和智能交通應用極為重要。如1介紹,問題中視覺主體的大小顯著影響模型靈敏度。較大的視覺主體往往會提高相關問題回答的準確度。相反,較小或模糊的細節常常增加模型處理難度,削弱模型有效處理細微視覺線索的能力。因此,精確的圖像裁剪可以讓模型聚焦關鍵視覺區域,從而顯著提高視覺問答任務的準確度和效率。傳統方法(如1)專注于單圖像裁剪,而SDT與之不同,通過令牌表示來提供環境的全局視圖,實現更準確的裁剪。
- 上下文感知預測:當前的視覺大語言模型是面向單圖 像任務做的優化,缺乏時間記憶。由于視頻數據的海量性質,如果直接訓練視頻大語言模型,資源消耗會非常大。涉及“拿起”和“放下”等動作的任務,需要上下文信息才能做到準確判讀,而僅做單幀分析可能無法提供這類信息。要增強推理任務——尤其是對規律性動作或場景進行預測的任務,可以在大語言模型中有效利用SDT的時空知識。例如,在機器人疏導擁擠區域的場景中,SDT可以洞察障礙物和行人移動,并提供社交距離指引,顯著提高機器人動作的準確度和有效性。
- 有效提示工程:SDT可以分析理解過往的語言數據,借此來改進大語言模型并優化提示工程。經過精調,推理引擎做出的決策能夠更充分地考慮上下文與相關信息。以機器人取食物的任務場景為例。如果機器人僅依賴自身的機載傳感器,它的能力就受到天然的限制,只能基于當前所處的周邊環境開展任務,無法獲取歷史環境信息。這種情況下,如果附近沒有可見的食物,機器人可能無法完成任務。而一旦將SDT的時空感知能力融合到推理過程中,就可以將機器人的感知范圍擴展到它所處的直接環境之外。SDT的集體記憶功能可以洞察過往事件和歷史環境,填補機器人的知識空白。比如,即使機器人無法直接觀察到食物,SDT也可以提示具體位置信息,告知機器人食物在某個特定抽屜中。基于這種背景知識,推理引擎可以有效地引導機器人成功取到食物。這個例子展示了SDT技術與機器人推理相結合所帶來的變革性影響,表明SDT能夠增強機器人在復雜環境中的智能程度和適應性。
結語
本文介紹了一種新方法,將通信感知一體化與大語言模型相結合來建立SDT。在SDT中,傳感器數據由傳感設備和無線信道測量功能來采集,并使用語義令牌來表示。語義令牌又按照特征聚類進行融合。由于整合了歷史數據,SDT可以增強無線通信性能,尤其是能夠提供精確的波束賦形和個性化的用戶定位。同時,通過精確視覺裁剪、上下文感知預測和有效提示工程,SDT還能提升AI推理任務的精度和效率。這種融合方法為通信感知一體化和大語言模型兩個領域的智能系統發展都帶來廣闊前景。未來的研究還可以進一步探索SDT在自動駕駛、智能制造和環境監測等多種應用中的潛力,從而實現物聯網技術的全面部署與推廣。
- Jiarui Zhang, Mahyar Khayatkhoe, Prateek Chhikara, and Filip Ilievski, "Visual cropping improves zero-shot question answering of multimodal large language models," arXiv preprint arXiv:2310.16033, 2023.
在線客服
個人及家庭產品
熱線:950800(7*24小時)
華為云服務
熱線:4000-955-988|950808
企業服務
熱線:400-822-9999
運營商網絡服務
熱線:4008302118