I. 引言
在新型冠狀病毒肺炎疫情的傳播過程中,病毒通過多種途徑傳播,包括飛沫和接觸傳播。雖然使用酒精基消毒劑或用肥皂洗手可以降低感染風(fēng)險,但這些方法并不能完全隔離病菌。因此,非接觸式控制的需求正在迅速增長。此外,人工智能(AI)正在發(fā)展,許多應(yīng)用程序都在整合AI技術(shù)以增強(qiáng)我們?nèi)粘I畹谋憷?。一個例子是微軟在其電梯系統(tǒng)中集成了面部識別技術(shù),使得用戶能夠更輕松地到達(dá)他們想去的樓層。這項(xiàng)技術(shù)通過簡單地查看用戶的面部就可以預(yù)測要到達(dá)的樓層。該系統(tǒng)使用了諸如“一次性查看”(YOLO)算法之類的物體識別技術(shù)來識別用戶的面部。近年來,手勢識別技術(shù)已經(jīng)被廣泛應(yīng)用到虛擬現(xiàn)實(shí)(VR)、人機(jī)交互以及運(yùn)動醫(yī)學(xué)等領(lǐng)域。傳統(tǒng)的手勢識別有兩種方法:一種是使用數(shù)據(jù)手套,這種手套裝有傳感器來檢測手指的彎曲并向計算機(jī)發(fā)送電子信號進(jìn)行識別。但是,這種方法需要硬件設(shè)備,并且共用手套會增加病毒感染的風(fēng)險。另一種方法是使用視覺技術(shù)。視覺技術(shù)在機(jī)器視覺中最常用,它涉及捕捉和分析各種類型的圖像。它不僅僅局限于捕捉二維圖像,而是越來越多地采用雙鏡頭或深度相機(jī)的三維成像系統(tǒng)。手勢識別技術(shù)結(jié)合了鏡頭與深度學(xué)習(xí)。Baek等人提出了使用光學(xué)相機(jī)捕捉并分類動態(tài)和靜態(tài)手勢的方法。然而,這種方法需要特定的照明條件并且缺乏深度信息。另一種方法是使用紅綠藍(lán)加深度(RGB-D)深度相機(jī)進(jìn)行手勢分類。不幸的是,這些設(shè)備在陽光下并不適用。此外,基于光學(xué)相機(jī)的手勢識別系統(tǒng)會引發(fā)隱私擔(dān)憂,因?yàn)橛脩艨赡軗?dān)心他們的圖像被未經(jīng)授權(quán)地捕獲或惡意使用。微型雷達(dá)傳感器可以克服相機(jī)的局限性。Salami等人提出使用毫米波雷達(dá)進(jìn)行大動作手勢識別。毫米波雷達(dá)指的是工作在毫米波頻段的雷達(dá)系統(tǒng),使用特殊雷達(dá)技術(shù)的短波長電磁波。線性調(diào)頻連續(xù)波(FMCW)是一種其頻率隨時間線性增加的正弦波信號。FMCW毫米波雷達(dá)技術(shù)提供了高分辨率的深度信息,并且較少受到環(huán)境溫度的影響。這使得它適合在非理想的光照和溫度環(huán)境中進(jìn)行精確測量,包括遮擋、霧天、室內(nèi)、室外等多種情況。使用毫米波雷達(dá)不會引發(fā)隱私擔(dān)憂,因此,許多研究集中在使用低成本、微型雷達(dá)傳感器進(jìn)行非侵入性的手勢識別上。在疫情期間,各組織安裝了配備人工智能面部檢測技術(shù)的紅外熱成像儀來測量體溫。紅外熱成像儀能夠探測并測量物體表面發(fā)出的紅外輻射能量,并將其轉(zhuǎn)換為可視圖像。該設(shè)備可以在黑暗環(huán)境中測量溫度而不受光線影響。此外,圖像經(jīng)過處理并轉(zhuǎn)化為特定的顏色分布圖。這減少了數(shù)據(jù)泄露并解決了與光學(xué)相機(jī)相關(guān)的問題。我們提出了一種結(jié)合毫米波雷達(dá)與熱成像技術(shù)及深度學(xué)習(xí)的大動作手勢識別系統(tǒng)。由于無需直接接觸設(shè)備,也緩解了與攝像頭拍攝人臉相關(guān)的隱私顧慮。
II. 系統(tǒng)概述
系統(tǒng)的架構(gòu)如圖1所示。當(dāng)用戶做出手勢時,BM201-PC3毫米波雷達(dá)收集點(diǎn)云信息。然后,Jetson Xavier NX嵌入式評估板處理這些數(shù)據(jù),輸出時間序列結(jié)果,以識別如圖2所示的五個周期性動態(tài)手勢。我們使用YOLOv7訓(xùn)練了一個手勢圖像識別模型,將該模型導(dǎo)入Jetson Xavier NX,并使用Lepton 3.5熱成像儀實(shí)時捕捉手勢圖像信息。Jetson Xavier NX用于實(shí)時分析和記錄手勢圖像的移動,輸出時間序列數(shù)據(jù)作為結(jié)果。在分析了毫米波雷達(dá)和熱成像儀的數(shù)據(jù)之后,手勢結(jié)果會通過音頻反饋給用戶。
Fig. 1.系統(tǒng)架構(gòu)
A. 手部紅外圖像的圖像處理
人體手掌的溫度范圍大約在30至35攝氏度之間。本研究提出了兩種圖像顏色轉(zhuǎn)換的方法:單色轉(zhuǎn)換和多色轉(zhuǎn)換。在單色轉(zhuǎn)換中,通過熱成像儀檢測物體發(fā)出的紅外輻射能量,然后將其轉(zhuǎn)換為溫度數(shù)據(jù)。當(dāng)溫度低于30攝氏度時,像素被過濾掉,并不顯示顏色。然而,超過30攝氏度的像素則轉(zhuǎn)換為紅色并顯示出來。但是,較高的體溫或室溫可能會導(dǎo)致物體在圖像中顯示為紅色,從而導(dǎo)致手部區(qū)域與背景重疊,造成手部圖像特征模糊或不存在,如圖3所示。因此,我們提出了一個多色轉(zhuǎn)換的方法。首先,在室內(nèi)冬季環(huán)境下進(jìn)行了測試,室溫約為22至26攝氏度。如果沒有劇烈運(yùn)動,手部的測量溫度范圍在30至36攝氏度之間。如果有直射陽光或房間內(nèi)有電腦,則熱成像儀記錄的溫度高于36攝氏度。多色轉(zhuǎn)換的詳細(xì)信息見表I。在顯示手掌溫度時,低于30攝氏度的像素被過濾掉并保持黑色。溫度在30至32攝氏度之間的像素顯示為紅色,而32至34攝氏度之間的像素則顯示為橙色。黃色像素代表34至36攝氏度之間的溫度,紫色像素表示溫度高于36攝氏度。這種多色轉(zhuǎn)換用于減少其他環(huán)境因素對手部特征的掩蓋影響。
B. 手部圖像檢測
在這項(xiàng)研究中,使用YOLOv7來訓(xùn)練手部圖像檢測模型。收集了兩組訓(xùn)練樣本數(shù)據(jù)集,一組是單色轉(zhuǎn)換圖像,另一組是多色轉(zhuǎn)換圖像,均來自熱成像儀。兩個數(shù)據(jù)集中總共有437張照片,均由同一個人拍攝。在訓(xùn)練之前,使用Labeling圖像標(biāo)注工具對物體進(jìn)行標(biāo)注。設(shè)計的分類包括手部圖像和個人,如圖4所示。Roboflow網(wǎng)站用于數(shù)據(jù)增強(qiáng)和數(shù)據(jù)集分割。在數(shù)據(jù)集分割設(shè)置中,95%的數(shù)據(jù)分配給了訓(xùn)練集,3%分配給了測試集,2%分配給了驗(yàn)證集。手部模型使用Google Colab上的YOLOv7手部圖像識別模型進(jìn)行訓(xùn)練。模型以批量大小為8進(jìn)行了80次迭代的訓(xùn)練。結(jié)果隨后被保存。我們收集了每個手勢的點(diǎn)云信息并對數(shù)據(jù)進(jìn)行了預(yù)處理,以生成時間序列特征數(shù)據(jù)。最后,我們將數(shù)據(jù)導(dǎo)入神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練并生成模型文件。
C. 毫米波手勢點(diǎn)云數(shù)據(jù)
毫米波雷達(dá)生成了帶有速度信息的目標(biāo)點(diǎn)云數(shù)據(jù)。點(diǎn)云數(shù)據(jù)由毫米波雷達(dá)收集,用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)。模型訓(xùn)練過程如圖5所示。在毫米波點(diǎn)云測量屏幕上,圖6展示了毫米波雷達(dá)檢測當(dāng)前范圍內(nèi)運(yùn)動的可視化點(diǎn)云圖像。圖6(b)顯示了手部快速前后移動所產(chǎn)生的點(diǎn)云信息??虮硎竞撩撞ɡ走_(dá)的測量范圍。
表I. 熱成像儀溫度與多色轉(zhuǎn)換對照表
溫度區(qū)間(攝氏度) | 顏色轉(zhuǎn)換 |
過濾掉 | < 30 |
紅色 | 30~32 |
橙色 | 32~34 |
黃色 | 34~36 |
紫色 | > 36 |
收集的點(diǎn)云數(shù)據(jù)包括仰角、方位角、多普勒速度、距離(到雷達(dá)的距離)和信噪比(SNR)。我們使用點(diǎn)云數(shù)據(jù)中的仰角(ψψ)、方位角(θθ)和距離(RR)來計算點(diǎn)云的x、y和z位置。圖7顯示了毫米波坐標(biāo)軸的定義。三個值——仰角、方位角和距離,被轉(zhuǎn)換為點(diǎn)云的笛卡爾坐標(biāo),如公式(1)所示。
笛卡爾坐標(biāo)轉(zhuǎn)換公式(假設(shè)公式(1)如下):
x=R?cos?(θ)?sin?(ψ)
y=R?sin?(θ)?sin?(ψ)
z=R?cos?(ψ)
這里,ψ 是仰角,θ 是方位角,R 是距離。通過這些角度和距離值,我們可以確定點(diǎn)云在三維空間中的確切位置。
D. 點(diǎn)云數(shù)據(jù)的預(yù)處理
我們對點(diǎn)云數(shù)據(jù)進(jìn)行了預(yù)處理。為了濾除環(huán)境噪聲,我們保留了手部點(diǎn)云的數(shù)據(jù)并提取了其時間序列特征信息。毫米波雷達(dá)測量得到的點(diǎn)云數(shù)據(jù)經(jīng)過疊加、最大速度限制處理后,先進(jìn)行了基于密度的空間聚類算法(DBSCAN),然后進(jìn)行配準(zhǔn)、K均值聚類、第二次DBSCAN處理,最后提取出時間序列特征數(shù)據(jù)。最終,提取的時間序列特征被標(biāo)準(zhǔn)化并導(dǎo)入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
為了訓(xùn)練手勢識別模型,我們記錄了每個手勢的點(diǎn)云數(shù)據(jù)。毫米波雷達(dá)在一個瞬間檢測到的點(diǎn)云分布被稱為一幀,毫米波雷達(dá)被設(shè)定為連續(xù)檢測200幀。這200幀的點(diǎn)云數(shù)據(jù)然后在同一數(shù)組上進(jìn)行疊加,得到了181條記錄。詳細(xì)的流程如圖8所示。
當(dāng)用戶揮手做手勢時,手部的移動速度大致相同,不會太快。如果存在速度過高的點(diǎn)云,很可能是噪聲點(diǎn)。因此,我們移除了速度大于2米/秒的點(diǎn)云數(shù)據(jù),以消除過高的速度值。接著,我們使用了Scikit-Learn庫中的DBSCAN算法來過濾掉任何異常值。這一點(diǎn)非常重要,因?yàn)檫@些異常值可能是由環(huán)境造成的,而不是我們關(guān)注的手部和身體的點(diǎn)云信息。第一次DBSCAN處理后的逆時針手勢點(diǎn)云如圖9所示。
D. 注冊的目的
注冊的目的是將位于不同位置的點(diǎn)云旋轉(zhuǎn)和平移到一個固定的參考點(diǎn),以便于后續(xù)的數(shù)據(jù)處理并提高識別準(zhǔn)確性。為了分離手部和身體的點(diǎn)云信息,我們使用了Scikit-Learn庫中的K均值聚類算法將點(diǎn)云數(shù)據(jù)分為兩類:手部和身體。接著,為了過濾掉剩余的身體點(diǎn)云信息,進(jìn)行了第二次DBSCAN處理。然后,我們從預(yù)處理后的手部點(diǎn)云信息中提取了時間序列特征數(shù)據(jù)。設(shè)計的手勢是動態(tài)且周期性的,僅憑外觀難以區(qū)分和生成點(diǎn)云信息。因此,必須從預(yù)處理后的手部點(diǎn)云信息中提取時間序列特征信息。每20幀包含四個特征值,包括歸一化的x、y和z坐標(biāo)位置以及歸一化的速度值。
E. 毫米波手勢檢測模型
在這項(xiàng)研究中,使用PyTorch構(gòu)建了三種類型的神經(jīng)網(wǎng)絡(luò),即循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶網(wǎng)絡(luò)(LSTM)和門控循環(huán)單元(GRU)。對于同一個體,記錄了每個手勢的200幀點(diǎn)云數(shù)據(jù)。每個手勢收集了16個樣本。五個手勢的總點(diǎn)云數(shù)據(jù)量為16,000幀。經(jīng)過預(yù)處理后,對于每個樣本生成了181條時間序列特征數(shù)據(jù)。經(jīng)過預(yù)處理后,每個手勢生成了2,896條時間序列特征數(shù)據(jù),五個手勢總共生成了14,480條時間序列特征數(shù)據(jù)。模型訓(xùn)練完成后,我們將訓(xùn)練好的模型導(dǎo)入Jetson Xavier NX進(jìn)行手勢識別。當(dāng)程序啟動時,毫米波雷達(dá)處于待機(jī)模式。如果在一米范圍內(nèi)檢測到物體,程序暫停。收集20幀點(diǎn)云數(shù)據(jù)后,揚(yáng)聲器播放“停止”語音,收集的點(diǎn)云數(shù)據(jù)被存儲。數(shù)據(jù)通過Jetson Xavier NX進(jìn)行預(yù)處理,處理后的時間序列特征數(shù)據(jù)被導(dǎo)入神經(jīng)網(wǎng)絡(luò)模型。預(yù)測手勢并播放預(yù)測的手勢語音。
III. 結(jié)果與討論
在手部圖像識別中,獲得了熱成像儀的訓(xùn)練結(jié)果和手勢識別模型的訓(xùn)練結(jié)果。其中,手勢識別被分為以下兩個部分:毫米波雷達(dá)手勢識別和結(jié)合毫米波雷達(dá)與熱成像儀的手勢識別。
?A. 熱成像儀的手部圖像識別
與RGB相機(jī)不同,當(dāng)熱成像儀捕捉圖像時,它會過濾掉溫度低于閾值的區(qū)域。對于溫度高于閾值的區(qū)域,圖像會進(jìn)行顏色轉(zhuǎn)換。圖10展示了兩種主要的手部圖像識別訓(xùn)練數(shù)據(jù)集類型。在單色轉(zhuǎn)換中,圖像中溫度高于30°C的區(qū)域被轉(zhuǎn)換為紅色,同時過濾掉溫度低于30°C的區(qū)域。在多色轉(zhuǎn)換中,根據(jù)溫度區(qū)間將圖像轉(zhuǎn)換為不同的顏色。我們對這兩個訓(xùn)練數(shù)據(jù)集進(jìn)行了數(shù)據(jù)增強(qiáng)。數(shù)據(jù)集由808張照片組成,分為768張訓(xùn)練集圖像、23張驗(yàn)證集圖像和17張測試集圖像。然后,訓(xùn)練數(shù)據(jù)集進(jìn)行了80次迭代。圖11顯示了訓(xùn)練后的模型損失函數(shù)。單色轉(zhuǎn)換訓(xùn)練模型的收斂效果不如多色轉(zhuǎn)換訓(xùn)練模型。
這句話總結(jié)了使用熱成像儀進(jìn)行手部圖像識別時的不同處理方法及其效果,并指出了單色轉(zhuǎn)換和多色轉(zhuǎn)換在模型訓(xùn)練上的差異。如果您有圖10和圖11的具體內(nèi)容或需要進(jìn)一步解釋,請?zhí)峁└嘈畔ⅰ?/p>
在實(shí)際場地測試中,單色轉(zhuǎn)換的性能受到了環(huán)境溫度和體溫的影響。具體來說,當(dāng)溫度略高或體溫較高時,圖像中的著色區(qū)域傾向于與背景混合,如圖12(a)所示。這導(dǎo)致了較差的識別效果,因?yàn)槭植繄D像的特征無法被準(zhǔn)確檢測。測試了多色轉(zhuǎn)換模型,結(jié)果如圖12(b)所示。在測試期間,環(huán)境和體溫較高,圖像中的著色區(qū)域占據(jù)了大部分屏幕。然而,通過使用多色轉(zhuǎn)換技術(shù),手部圖像的特征并未與背景混合,這大大提高了識別率和準(zhǔn)確性,即使在背景復(fù)雜的情況下也是如此。
表II顯示了單色轉(zhuǎn)換與多色轉(zhuǎn)換之間的比較。多色轉(zhuǎn)換相比單色轉(zhuǎn)換顯示出更高的準(zhǔn)確性
表II. 單色轉(zhuǎn)換與多色轉(zhuǎn)換的準(zhǔn)確性對比
測試次數(shù) | 單色轉(zhuǎn)換 | 多色轉(zhuǎn)換 |
1 | 0.8 | 0.94 |
2 | 0.91 | 0.93 |
3 | 0.91 | 0.94 |
4 | 0.91 | 0.93 |
5 | 0.92 | 0.9 |
6 | 0.94 | 0.93 |
7 | 0.93 | 0.94 |
8 | 0.8 | 0.92 |
9 | 0.92 | 0.94 |
10 | 0.95 | 0.96 |
平均值 | 0.899 | 0.933 |