
在1997年的可視化IEEE會議中,術語"大數據"被提出。
當時,計算機內存以兆字節為單位,最強大的內存為128 MB。由于科學家之間通過互聯網共享信息,使得越來越多的數據以越來越快的速度涌現,因此開發處理大數據的技術面臨著如此巨大的壓力也就不足為奇了。
如今,最便宜的智能手機可在1 GB(1000 MB)的內存上運行,因此不斷增長的數據量已不再像以前那樣成為問題。用今天的話來說,2013年的全球數據量為4.4 ZB(1 ZB = 44萬億GB),到2020年,這一數據可能會增加到44 ZB或更多。但是,先進的計算機硬件使數據收集和存儲相對便宜又容易。此外, 人工智能(AI)和機器學習(ML)技術的最新發展,分析也變得更加易于管理。
但是,在軍隊中,大數據的收集經常引起爭議。最近的一個喧鬧話題涉及使用開源機器學習平臺收集視覺數據。在這種情況下,無人機是用于數據收集或軍事術語,情報收集的方法。抗議本身并不是關于數據,而是針對ML進行攻擊的潛在用途。
這種對軍事技術的突然使用是一種奇怪的事情,因為將其用于情報收集并不是什么新鮮事。當然,今天使用的方法是不同的,但是數據本身的性質和重要性卻沒有。
軍方繼續與 情報界一起收集各種學科的情報,這些學科可能被有趣地稱為" INTS"。IC下有17個組織,但它們在軍事領域的道路在以下學科中相交:
· HUMINT(人類情報)
· GEOINT(地理空間情報)
· SIGINT(信號智能)
· OSINT(開源情報)

人類情報收集(HUMINT)通過與人的私人接觸來收集信息。信息采取文件,照片,數字文件和其他材料的形式,這些信息是通過非官方渠道秘密獲得的,或者是通過外交或領事人員公開獲得的,以及與外國官員的授權通信。軍隊還可能通過對敵人的訊問或旅行者的匯報來獲取情報。
大多數人將HUMINT與間諜活動聯系起來,有時被戲稱為世界第二古老的職業,他們大多是正確的。間諜在該學科的情報收集中仍繼續發揮重要作用,盡管它與其他廉政局相比更為互補。例如,人員可以提供使SIGINT操作員遠程訪問系統的代碼。
HUMINT在技術進步這一天的重要性也與環境相關,這是基于AI的監視可能會錯過的。在地面上有人可以在評估軍事目標的有效性和觀察其發展過程中提供有價值的(人類)見識。
通過HUMINT收集的數據通常采用不同的格式,包括模擬和數字格式。它可能是音頻,視頻,文本或圖像,必須經過分析才能將其與通過其他學科收集的數據集成在一起。基于AI的軟件可以標記,組織和分析HUMINT數據,目前軍方正在評估的此類軟件之一是雷神公司的FoxTen。
但是,AI可能很快會在對抗跟蹤技術方面發揮更積極的作用,其中一些技術是專門為間諜設計的,而另一些則是不為人知的工具。 中央情報局(Central Intelligence Agency)正在進行多個AI項目,包括想出一些方法來欺騙跟蹤設備或繪制敵對或未知地區監視攝像機的位置。
根據美國法典, 地理空間情報是指使用和研究圖像和地理空間數據來解釋,審查和以視覺方式表示地面特征和活動。簡而言之,GEOINT包括從空中,地面或水下拍攝的圖像,視頻和其他視覺表示中收集的所有情報。
從軍事意義上來說,GEOINT的價值在于提供物體活動的精確位置,解釋其含義,并為其提供有助于做出軍事決定的框架。視覺數據通常來自衛星,無人機(UAV),自主水下航行器(AUV)和其他測量技術。
在大多數情況下,GEOINT數據是來自不同來源的地理空間數據的集成,以創建情況的三維表示。進而將其集成到multi-INT數據中。
本節中特別提到的是無人機的使用,這種無人機通常被稱為無人機。軍方一直在使用無人機搜集情報,以支持軍事人員和運營多年。
但是,通信速度,存儲容量和機器視覺軟件自主操作無人機的能力提高,導致數據過載。
軍方庫存中有8,000多架無人機,并且使用效果良好。員工每天必須經歷大約1600個小時的錄像,這還不包括圖像。數據對地面的士兵和總部的指揮官來說是無價的,但前提是分析是準確和及時的。
AI和ML算法可以比人類操作員更快,更徹底地分析視頻并檢測威脅。這是Project Maven的基礎,Project Maven當前使用基于TensorFlow的平臺進行無人機鏡頭的預測分析。在Google決定不續簽AI開發項目之后,五角大樓求助于初創公司Anduril Industries,以開發用于軍事無人機的傳感器融合平臺。
根據該公司的網站,使用萊迪思AI平臺,"只有最終信息才傳回給用戶。這使功能強大的計算機的大規模可擴展網狀網絡可以進行數字處理,而無需部署服務器場或命令中心。"
信號情報是有關通過攔截信號和傳輸獲得的外來目標的動作,目標和能力的信息。根據傳輸類型,存在SIGINT的三個子集。COMINT來自通信系統,雷達和武器系統來自ELINT(電子情報),以及正在開發或測試中的武器系統來自FISINT(外國儀器信號情報)。

國家安全局(NSA)通常使用各種方法來搜集有關恐怖分子,組織以及具有國際或外國協會的人的SIGINT,但往往 比其他任何方式都使用無人機。只有 在美國政府正式要求時才這樣做。NSA會將原始數據轉換,解碼和分析為非NSA分析人員(例如CIA和IC中的分析人員)可用的形式。這些機構將NSA資料與其他廉政局的數據相結合,以描繪出完整的圖景。
SIGINT一直有足夠多的數據,用以工作,因為它具有這樣的來源廣泛的陣列。電話對話,電子郵件,無線電波,衛星傳輸,無線連接甚至鍵盤振動一直在持續進行,為NSA提供了大量信息。
面臨的挑戰是從大量的隨機信號中挖掘出有價值的信息內核。所述收集過程包括首先從對話的潺潺提取某些類型的信號從信號或談話層。提取后,SIGINT分析人員將篩選候選項目,以根據一組參數選擇要保留的項目。然后,國家安全局存儲這些選定的項目,并將其發送給請求機構以進行進一步分析。
這個過程是艱苦的,并不總是盡其所能。IC不可避免地會尋求先進的AI和ML技術來使此過程變得更快更好。SIGINT的主要目的是防御。知道敵人的位置,意圖和能力可以大大防止對士兵和平民的傷害。
但是,研究人員越來越希望SIGINT做其他事情。一種是提供見解,以幫助他們從收集到的數據中準確預測未來事件。
IC研究部門"情報高級研究計劃活動"(IARPA)與學術和商業領域的數據科學家和ML工程師聯系,以開發連續的,自動化的SIGINT分析技術。 該獎項被稱為" 水星挑戰",將用于有效地"預測涉及軍事行動,內亂或傳染病的事件,特別是在中東和北非講阿拉伯語的國家發生的事件"的算法。
此外,先進的迅速崛起 的網絡和電磁活動(CEMA)和電子戰從對手迫使陸軍 收斂的信號情報,網絡和電磁系統整合到一個平臺: 地面層的智能系統。陸軍正在積極尋求加速集成的建議,包括開發機器學習軟件以減少工作量。
SIGINT技術的另一個潛在用途是擔當更積極的防御角色。檢測,識別和評估信號威脅級別(例如地對空導彈雷達)的能力可以拼寫出任務成功與失敗之間的區別。
該波音EA-18G咆哮者保持士兵干擾敵方雷達信號的安全。有計劃通過集成可以更快地檢測信號并更準確地分辨出友好和敵對信號之間的區別的AI軟件,使Growler在防御方面更加有效。
SIGINT收集和分析的世界不再是關于攔截消息和破解代碼以供他人采取行動。在完善的數據和機器學習的幫助下,SIGINT迎接了迅速發展的電子戰的挑戰。
正如該術語所暗示的那樣,開源情報是從公開或可公開獲得的來源收集數據以用于特定目的的開發。這是OSINT的非常寬泛的定義,而在存在OSINT的50年中,很難找到更詳細的定義。據 RAND Corporation說,原因是公開可用的數據源一直在變化。自從Internet使用變得普遍并且社交網絡使用發生爆炸以來,這一點變得更加明顯。
多年來,OSINT的來源不斷發展。在第一次迭代中,最多產的OSINT來源是電視,廣播和印刷媒體。過去,人工操作人員會手動瀏覽這些數據源。后來,情報機構使用了商用的現成(COT)軟件來收集,清理和分析OSINT數據。
傳統媒體仍然是OSINT的來源,但是數據收集的真正動力是互聯網。即時訪問隨時可用并不斷更新的數據有利于情報收集操作。這些內容包括博客,在線報紙,社交網絡,視頻流服務,論壇和其他用戶提供的內容,以及網站后端的隱藏寶石。
問題在于可用數據的絕對數量和復雜性。來自Internet的數據流具有細微的層次,分析人員必須執行所有操作,從事實檢查到情感分析,并始終牢記數據的上下文。
要 為這項工作的艱巨性增加視角,請考慮社交媒體。Twitter用戶平均每天上傳6.56億條推文,Facebook用戶每天發布43億條消息。這只是來自兩個社交網絡的數據。再加上每天Google的搜索量(52億),觀看的YouTube視頻(每分鐘400萬),發布的博客文章,這為軍隊提供了大量的數據。
在軍事領域,分析人員必須能夠過濾這些數據流,以識別和分類對軍事戰略和行動有任何用途或影響的所有事物。這可能與某些國家,特定個人,高風險人群,武器等有關。他們必須在人類行為的背景下并實時地徹底做到這一點。
沒有人工協助,對于操作人員來說,這顯然是不可能完成的任務,IC也知道。為了滿足這一需求,中央情報局目前正在研究 使用AI進行OSINT的幾個項目,而不僅僅是進行分析。它計劃使用AI軟件和自然語言處理算法來系統地瀏覽社交網絡和其他OSINT來源的數據流。該軟件將僅選擇相關項目,從理論上講將OSINT收集器的工作量減少75%。
這個想法是在5年的時間里與私人公司合作進行OSINT實驗以及使用機器學習進行大數據收集和分析。中央情報局于2018年5月宣布了梅薩佛得角項目,但該提案目前尚無更新。
然而,商業部門并未如此謹慎。像Google這樣的公司已經擁有專門設計用于處理大數據的工具和API。
軍事中的大數據來自許多來源,信息過載是一個非常現實的問題。人工智能和機器學習可能是一種有效的解決方案,但是要比重新發明輪子更了解力量。尋求商業和學術機構處理大數據是軍隊采取的合乎邏輯且最具戰略意義的舉措。
來源:CDA數據分析師 如有侵權請聯系我們刪除。