Dilshod's Portfolio

심층 강화 학습을 통한 비용 효율적인 연합 비디오 감시 관리 프레임워크

딥러닝과 엣지 컴퓨팅으로 비디오 보안 감시 효율성 향상

비디오 감시 시스템은 안전과 보안을 위해 필수적이며, 딥러닝(DL)의 통합으로 그 정밀도가 크게 향상되었습니다. 그러나 DL 기반 감시는 객체 추적 및 객체 탐지와 같은 작업에 많은 계산 및 메모리 자원이 필요합니다. 전통적인 비디오 감시 시스템은 프레임에 객체가 없더라도 GPU 자원을 지속적으로 사용합니다. 최근의 몇 가지 접근법, 예를 들어 AdaMM 프레임워크는 계층적 엣지 컴퓨팅에서 DL 모델을 해제하기 위해 일정한 임계값을 사용하지만, 이 접근법은 일정한 임계값 값에 따라 GPU 메모리 소비 증가 또는 빈번한 전환 지연을 초래할 수 있습니다. 이어서, CogVSM 프레임워크는 LSTM 예측 및 EWMA 스무딩을 사용하여 DL 모델 해제를 관리하지만, 이는 프라이버시 문제와 EWMA의 정적 스무딩 계수가 다양한 시나리오에 적응하고 학습하는 데 한계가 있습니다. 이러한 요구를 해결하기 위해, 본 연구는 이중 계층 엣지 컴퓨팅 아키텍처를 사용하는 혁신적인 비디오 감시 관리 시스템을 소개합니다. 비디오 피드 소스에 위치한 1차 엣지는 실시간 객체 탐지를 수행하여 데이터 전송 지연을 줄이고, 2차 엣지는 새로운 임계값 제어 모듈을 통해 GPU 사용을 동적으로 관리합니다. 이 모듈은 GPU 메모리 사용과 모델 재로드 지연 간의 균형을 최적화하기 위해 딥 Q-네트워크(DQN) 방법을 사용합니다. 또한, 연합 학습(FL)을 활용하여 Long Short-Term Memory(LSTM) 네트워크를 훈련시켜 데이터 프라이버시와 효율적인 자원 할당을 보장하며, 궁극적으로 시스템의 전체 효율성과 보안 기능을 향상시킵니다.

소개: 왜 GPU 자원 절약이 중요한가?

효율적인 비디오 감시는 특히 이상 행동 탐지를 위해 딥러닝(DL) 모델에 크게 의존합니다. 이러한 모델은 실시간 객체 추적 및 동작 추적과 같은 작업에 상당한 GPU 자원이 필요합니다. 그러나 전통적인 시스템은 비디오 피드에 객체가 없더라도 할당된 GPU 자원을 계속 사용합니다. 따라서 GPU 자원을 절약하는 것은 매우 중요합니다. 절약된 자원을 다른 딥러닝 작업에 활용할 수 있어 계산 효율성을 최적화할 수 있기 때문입니다. GPU 메모리와 계산 능력을 절약함으로써 감시 시스템은 반응성을 유지하고 추가적인 감시 작업을 더 많이 처리할 수 있습니다. 따라서 비디오 감시에서 GPU 효율성을 우선시하는 것은 다양한 환경에서 전체 시스템 성능을 향상시키고, 안전과 보안을 강화하는 데 기여합니다.

제안된 프레임워크

계층적 엣지 컴퓨팅을 위한 제안된 비디오 감시 관리 시스템은 두 개의 연결된 엣지 노드로 구성됩니다. 첫 번째 노드는 YOLO 알고리즘을 사용하여 객체 감지를 처리하며, 두 번째 노드는 FL 기반의 LSTM, DQN 기반의 제어 임계값, 모션 추적 모듈을 사용하여 미래 객체 발생 예측을 관리합니다. 시스템은 IP 카메라로부터 비디오 프레임을 첫 번째 노드에서 수신하여 감지된 객체와 관련 정보를 두 번째 노드로 전송합니다. 두 번째 노드에서 FL 기반의 LSTM 모듈은 미래 객체 발생을 예측하고 DQN 기반의 임계값 제어 모듈에 정보를 제공하여 임계값 시간 값을 조정하는 이진 결정을 내립니다. 이 모듈은 정지 명령을 내릴지 비디오 프레임을 모션 추적 모듈로 전달할지를 결정합니다. DQN 모델은 시스템 성능을 최적화하기 위해 지속적으로 임계값 시간을 업데이트합니다. 주요 기여는 FL 기반의 LSTM 예측 및 DQN 기반의 제어 임계값 모듈로, 예측 정확도와 시스템 효율성을 향상시킵니다. LSTM 모듈은 여러 CCTV 카메라에서 학습하여 데이터 프라이버시를 보장하고, DQN 모델은 신속한 반응 시간과 신중함의 균형을 맞추기 위해 임계값을 조정합니다.

결과

오른쪽의 샘플 시뮬레이션 비디오는 프로젝트의 실시간 기능을 보여줍니다. 비디오는 두 개의 터미널을 포함합니다:
왼쪽 하단에 위치한 첫 번째 터미널은 서버 측 작업을 전담합니다. 이 터미널은 최대 10명의 클라이언트를 동시에 처리할 수 있으며, 포즈 추정 모델을 통해 인간 행동을 분석합니다. 오른쪽 하단에 위치한 두 번째 터미널은 클라이언트 측 작업을 위해 사용되며, 감지된 객체 프레임과 관련 감지 정보를 전송합니다.
또한, 비디오는 포즈 추정 결과와 실시간 GPU 메모리 사용량을 나타내는 선 그래프를 보여줍니다.
비디오의 주요 아이디어는 동적 모델 릴리즈가 실시간으로 어떻게 작동하는지를 보여주는 것입니다!!!

주요 기능

이중 계층 엣지 컴퓨팅

동적 임계값 모듈

연합 학습 (FL)

딥 Q-네트워크 (DQN)

이중 계층 엣지 컴퓨팅

이 프로젝트에서 이중 계층 엣지 컴퓨팅 프레임워크는 비디오 감시 작업을 최적화하기 위해 두 개의 상호 연결된 엣지 노드를 포함합니다. 첫 번째 계층, 즉 엣지 노드는 YOLO 알고리즘을 사용하여 실시간 객체 감지에 중점을 두며, IP 카메라에서 직접 비디오 프레임을 처리합니다. 이 즉각적인 감지는 데이터 소스 가까이에서 계산 작업을 수행하여 지연 시간을 줄입니다. 감지된 객체와 관련 정보는 이후 두 번째 계층, 즉 엣지 노드로 전송되어 FL 기반 LSTM 모델을 사용한 미래 객체 발생 예측과 DQN 모델을 이용한 지능형 임계값 결정 등의 고급 처리가 이루어집니다.
이 이중 계층 접근 방식의 장점에는 향상된 확장성과 효율적인 자원 활용이 포함됩니다. 두 노드 간에 작업을 분산시킴으로써 시스템은 단일 노드의 계산 부하를 줄이고, 결과적으로 더 빠른 처리 시간과 감소된 네트워크 혼잡을 달성합니다. 첫 번째 엣지 노드의 데이터 소스에 대한 근접성은 중요한 작업의 낮은 지연 시간을 보장하며, 두 번째 노드는 더 발전된 모델을 사용하여 예측 분석 및 의사 결정을 수행합니다. 이러한 작업 분담은 시스템이 과부하되지 않고도 더 복잡한 계산을 수행할 수 있게 합니다.
또한, 두 번째 계층에서의 FL 사용은 민감한 데이터가 로컬화된 상태로 유지되면서도 강력한 예측 모델 학습에 기여하도록 하여 데이터 프라이버시와 보안을 강화합니다. DQN 모델에 의한 적응형 임계값 관리 또한 변화하는 조건에 동적으로 조정되어 시스템 성능을 더욱 최적화하며, 효율적인 처리와 자원 할당을 보장합니다. 전반적으로, 이 이중 계층 엣지 컴퓨팅 시스템은 비용 효율적이며 확장 가능하고 보안적인 솔루션을 제공하여 정교한 비디오 감시 애플리케이션에 적합합니다.

DQN 기반 임계값 제어 모듈

DQN 기반 동적 임계값 제어 모듈은 시스템 전체에서 임계값 시간을 지능적으로 결정하는 의사 결정 센터 역할을 합니다. 여기서 임계값 시간은 DL 모델을 유지하거나 해제할지를 결정하기 위한 타임아웃을 나타냅니다. DQN 모델은 LSTM 모델이 생성한 예측된 객체 발생 결과를 수신합니다. 이러한 예측 값은 DQN 모델이 중요한 결정을 내리는 데 사용되는 상태 관측치로 활용됩니다 (즉, DL 모델을 작동시키거나 유지할지 결정). 임계값 시간은 DQN 모델의 결정에 따라 지속적으로 업데이트됩니다. 이 알고리즘은 DQN의 행동을 지속적으로 모니터링하여 임계값 시간을 조정하여 DL 모델을 유지하거나 해제할지를 결정합니다. DQN의 행동이 모델 유지로 제안되면, 모션 추적 임계값은 신중한 접근을 보장하기 위해 1초씩 점진적으로 증가합니다. 반대로, 모델 해제를 나타내는 행동이 있을 경우, 임계값은 1초씩 감소하여 감지된 이벤트에 대한 더 빠른 응답 시간을 용이하게 합니다. 이 반복적인 과정은 임계값이 시스템의 요구에 지능적으로 적응하도록 보장하여 실시간으로 성능을 최적화합니다.

FL 기반 LSTM 모듈을 통한 객체 발생 예측

이 프로젝트에서 FL은 LSTM 모델이 여러 카메라의 데이터를 기반으로 학습할 수 있도록 하며, 중앙 서버에 원시 비디오 데이터를 전송하지 않으므로 프라이버시를 보호하고 데이터 유출 위험을 줄입니다. 각 클라이언트는 자신의 데이터로 로컬 모델을 최적화하고, 이 모델을 FL 서버와 공유하여 FL 서버는 이러한 로컬 모델을 집계하여 글로벌 모델을 업데이트합니다. 이 글로벌 모델은 모든 클라이언트에 다시 배포되어 추가적인 개선이 이루어집니다. 이러한 방법은 학습 과정을 분산시켜 자원 사용을 최적화하며, 처리 능력과 저장 용량의 효율적인 활용을 가능하게 합니다. 이 접근 방식은 더 크고 다양한 데이터셋을 활용하여 비디오 감시 시스템의 전체적인 정확도와 성능을 향상시키며, 프라이버시 문제와 자원 제약을 해결합니다.

평가 결과

이 프로젝트에서 FL 기반 LSTM 모델의 평가는 중앙 집중식 학습과 비교하여 성능 차이가 있지만 주목할 만한 장점을 보여줍니다. 모델은 200 라운드 동안 학습되었으며, RMSE 메트릭을 사용하여 결과를 측정한 결과, 중앙 집중식 학습이 0.79의 낮은 RMSE 값을 달성했습니다. 그러나 FL 기반 접근 방식은 데이터가 로컬화되어 보관되며 여러 클라이언트 간의 안전한 협업이 가능하여 데이터 프라이버시와 보안 측면에서 중요한 이점을 제공합니다. 이 분산 학습 방법은 또한 확장성과 자원 효율성을 촉진합니다. 따라서 FL 기반 LSTM 학습은 데이터 프라이버시와 소유권이 중요한 시나리오에서 강력히 추천되며, 협업 장점과 안전한 데이터 처리를 제공하는 균형 잡힌 솔루션을 제공합니다.

딥 RL 기반 동적 임계값 제어 모듈

DQN (Deep Q-Network) 모델은 비디오 감시 시스템에서 DL 모델을 해제하기 위한 임계값 시간을 최적화하는 데 사용됩니다. 이 모델 비의존 접근 방식은 객체 발생의 시간적 의존성을 포착하는 LSTM 모델의 예측 결과를 DQN의 입력으로 활용합니다. DQN 모델은 이러한 입력을 바탕으로 임계값 시간 조정에 대한 최적의 정책을 학습하여 자원 활용의 효율성을 보장합니다. 객체 발생 패턴, 시스템 성능, 자원 사용 등의 다양한 요소를 평가함으로써 DQN은 DL 모델의 해제를 언제 트리거할지 지능적으로 결정합니다. 이 결과는 GPU 자원 절약과 지연 시간을 균형 있게 조절하여 스마트 비디오 감시 시스템의 전체적인 효과성과 효율성을 개선합니다.

평가 결과

DQN 기반 임계값 제어 모듈의 평가는 비디오 감시 시스템의 에너지 효율성을 향상시키는 장점을 강조합니다. 훈련 동안 DQN 모델은 LSTM 예측을 입력 상태로 사용하여 GPU 메모리 절약과 모델 재로딩 지연 시간을 균형 있게 조절하며, 약 50 에피소드 후 안정적인 성능을 달성했습니다. 초기 20 에피소드 동안 급격히 증가한 평균 누적 보상은 임계값 최적화에서 모델의 효과성을 나타냅니다. EWMA 기반 제어 모듈과 비교했을 때, DQN 기반 접근 방식은 객체 부재를 예상하는 민감도와 반응 속도에서 우수한 성과를 보였으며, 샘플 비디오 분석에서 그 차이를 확인할 수 있었습니다. 이 개선된 의사결정 정확도는 자원 활용을 효율적으로 하여 모델 재로딩 지연 시간을 줄이고 시스템 성능을 유지하는 데 기여합니다.

성능 비교

오른쪽 그림에 강조된 평가 결과는 GPU 메모리 활용 효율성 측면에서 제안된 프레임워크의 장점을 보여줍니다. 이 그림은 다섯 가지 다양한 프레임워크의 성능을 비교하며, LSTM 예측과 DQN 기반 임계값 제어가 지원하는 제안된 프레임워크가 GPU 자원 관리에서 다른 프레임워크보다 우수한 성과를 보였음을 나타냅니다. 객체 부재 간격 동안 GPU 메모리의 효율적인 해제는 제안된 프레임워크가 변화하는 조건에 신속하게 적응했음을 보여줍니다. 고정된 시간 값 \(\theta_m\)에 기반한 메모리 사용이 다양한 AdaMM 및 CogVSM 프레임워크와 비교했을 때, 제안된 프레임워크는 동적으로 메모리 사용을 최적화하여 더 낮은 소비와 개선된 효율성을 보였습니다. 또한, CNN 모델을 사용할 때 제안된 프레임워크의 성능은 LSTM 모델을 사용할 때보다는 약간 덜 효율적이지만, AdaMM 및 기본 접근 방식보다 여전히 우수하여 제안된 방법의 강력함과 적응성을 강조합니다.

결과

그림 9의 막대 그래프는 \(\theta_m = 10\) 초일 때의 평균 GPU 메모리 사용 평가 결과를 강조합니다. 제안된 프레임워크는 29.23%로 메모리 활용이 현저하게 최적화되었으며, CNN을 사용할 때 제안된 프레임워크는 30.11%로 뒤를 이었습니다. 이 효율성은 FL 기반 LSTM과 DQN 기반 지능적 제어 임계값 모듈의 혁신적 통합 덕분으로, 실시간 예측 및 결정에 따라 GPU 자원을 동적으로 관리합니다. CogVSM은 LSTM 모델과 통계적 EWMA 기술을 사용하여 31.43%로 성과를 보였고, AdaMM은 일정한 제어 임계값을 사용하여 34.98%로 메모리 사용이 더 높았으며, 기본 접근 방식은 객체 존재와 상관없이 GPU 메모리를 지속적으로 로딩하여 46.09%로 가장 높은 사용량을 기록했습니다.