監視錄影系統已成為整個城市安全保障的基石，但是這些系統所產生的錄影影像，數量已超過城市所能負荷。要物色相關人員去監視錄影影像並搜尋歸檔影片一直是個挑戰。而且，當部署的攝影機越來越多，問題也越來越嚴重。

藉助人工智慧 (AI) 可以讓搜尋和分析錄影影像變得更輕鬆，進而減少人工作業的需求。但是傳統 AI 部署難度頗高，通常成本很高而且相當費時。

GeoVision Inc. 的產品經理 Sean Lin 表示：「針對新的應用或位置自訂 AI 演算法可能要花研發團隊四到六個月的時間」，「而且結果可能平凡無奇，因為有太多的誤判警報和其他錯誤」。他繼續指出：「各個城市需要一種更簡單的方法，讓操作人員可以在重要的錄影影像中準確找到他們要尋找的目標，而不是大海撈針。」

深度學習解決方案之出現會大幅改善電腦視覺與影像分析。這些系統效能更強大、更容易部署，而且馬上可在市面上取得。

透過深度學習，可以根據設置攝影機的環境特色去訓練不同的模型。演算法基本上是針對每種情況而自訂，不需要重寫。

數量龐大的視訊資料是助力而不是阻力。深度學習可以持續汲取資料，以便適應新條件和要求。

深度學習正在改變遊戲規則

藉由深度學習，諸如臉部辨識或運動偵測等電腦視覺技巧均變得更加精密，監視錄影與其他視訊應用也隨著轉型。

在控制型環境中，傳統演算法能發揮良好作用，但是它們通常是針對特定使用案例所編寫。例如，偵測跨越預先決定的虛擬線條的一個物件或人員，基本上就是簡單的是與否演算法。當這類演算法在比較複雜的情境中執行時就會出現難題。

Lin 提出更清楚的例子：「當您將傳統的演算法套用到不同的攝影機位置，有些攝影機設在公園裡，有些可能在街道上，這些實際的環境在錄影影像中呈現不同的影像。傳統演算法無法處理這些細節。」

「在忙碌的街道上，因為不斷有人來來往往，所以運動偵測或入侵者警報經常會有誤警。這是傳統演算法的限制。」他說。

另一個常見的情境是警察利用臉部辨識來指認通緝對象。「透過深度學習，基本上我們只要把一張相片或一段影片存入資料庫，即可登錄這個人的臉孔。然後，我們的軟體可以自動搜尋一個月前、兩個月前的所有監視錄影片段，並自動找到當局要找的那個人。」Lin 說道。

他預測，不久後很可能只需要一張素描而不是相片就足夠。雖然辨識準確度會降低，但這是傳統演算法完全無法做到的。

這就是 GeoVision Inc. Smart Video Management Solution(GV-VMS) 的出場時機，進一步推動 AI 模型的發展，並能進行更加複雜和密集的分析。GeoVision 深度學習演算法可以針對多種條件進行訓練，包括：

計算朝兩個方向移動的人員或物件
偵測和辨識多種應用中的臉孔
在影片中偵測到臉孔時，將臉孔遮罩以保護隱私
把在模糊條件下拍攝的影片「除霧」，以便清晰呈現影像
把多台攝影機的影片接合成單一全景視圖
在震動環境中進行防震錄影
在佔用率代碼有所限制的地方計算人群數量
移除由廣角鏡頭造成的變形
智慧搜尋某個區域有運動的事件

端到端的解決方案

GeoVision 獨特的深度學習功能之基礎，是由攝影機、錄影伺服器和視訊控制中心組成的綜合系統。它透過標準通訊協定連接 GeoVision 和第三方 IP 攝影機，如圖 1 所示。之所以能夠達成這樣的規模，是因為採用可提高視訊處理效率和深度學習能力的 Intel^® 處理器。

圖 1：GeoVision Smart Video Management System

GeoVision 攝影機能夠在網路邊緣進行深度學習。攝影機可以在偵測到某種狀況時傳送警告，而不是把所有影片傳送到中央位置進行分析，這樣可以減少延遲，盡快採取行動。

大多數城市均有舊式的監視錄影系統，包含攝影機、閘道和軟體。GeoVision 應用程式設計介面 (API) 和軟體開發套件 (SDK) 能與舊有的硬體和軟體連線。GeoVision Control Center 有統一的雲端管理軟體，把所有 IP 攝影機整合成為一個整體的安全與管理系統。

有一個例子是，梵帝岡市使用監視錄影系統已有數十年之久。經過多年，形成了採用多家廠商的不同攝影機、閘道和軟體工具的情況。梵帝岡與 GeoVision 合作，有策略地把舊攝影機和軟體整合成一個中央監視錄影解決方案。在重要的政府機關大樓、教堂、禮拜堂和路口的攝影機均由中央控管。GeoVision 解決方案打造一個統合型系統，監視整個羅馬 140 個據點的錄影影像。

聰明靈活，自由擴充

該解決方案可以有效擴充供任何等級的視訊用途。單一實作可以管理多達 57,600 個視訊串流。系統把視訊資料傳送到統一的雲端管理系統，這個雲端管理系統可以監視和控制超過 1,000 個 GV-VMS 系統。在後端，巨量資料可以藉由搭載 Intel 處理器的伺服器儲存在客戶的資料中心或雲端中。

Smart Video Management Solution 也與其他系統整合，如火警偵測或出入控管，讓它的整體功能更全面。以連接出入控管為例，解決方案可以藉由臉部辨識允許人員進入任何類型的禁制區，無論是限制進出的建築或是停車場。它可以在中央視窗中顯示其他系統的資料。

把深度學習以及與其他軟硬體整合的能力結合起來，各大城市可以使用像是 GeoVision 提供的解決方案來改善監視錄影的效用。深度學習改善了自動化回應，整合會提高營運效率，而擴充性則代表監視錄影系統的功能不會因為城市擴張而失去效用。

「若論城市的某種使用情境，傳統的監視錄影解決方案可以滿足所有基本需求。但是一旦某個專案發展至城市的規模，只需一天，您就會收到數千小時的錄影影像。您要花費太多時間和過多的人力才能真正查明您想要找的內容。操作人員利用 GeoVision 解決方案可以更輕鬆地挑出他們正在尋找的人物或東西。」Lin 說道。