關聯分析是數據分析領域中的重要技術之一,它可以揭示事物之間的相互依賴和關聯性。通過關聯分析,我們可以發現在同一事件中出現頻率較高并具有相關性的事物,從而能夠預測其中一個事物通過其他事物的出現。一個經常用到關聯分析的例子就是購物籃分析。通過觀察哪些商品經常同時被顧客購買,商店能夠更好地了解用戶的購買行為,從而做出針對性的商品搭配和營銷策略。
關聯分析的流程通常包括數據接入、設置角色和建立模型等步驟。首先,我們需要接入結構化數據,并確保自變量的數據類型為字符型,因為關聯算法要求自變量為離散型數據。如果接入的自變量數據不符合關聯分析的要求,我們可以通過屬性變化節點進行數據類型轉換或重新接入數據,以滿足關聯分析的需求。
接下來,我們需要設置角色節點來確定關聯分析的自變量。關聯算法中必須設置自變量,并且自變量必須為離散型數據,不支持設定因變量。在設置角色節點之前,我們可以根據實際業務和數據情況進行數據的預處理工作,包括數據的清洗、集成、轉換、離散、歸約、特征選擇和提取等,以使數據符合挖掘建模的標準。
在完成數據接入和角色設置后,我們可以根據數據分析方案和預處理后的業務數據來構建關聯模型。平臺內置了三種關聯算法,包拽使用,并且可以配置相應的模型參數,包括Apriori算法、FPGrowth算法和序列算法。這些算法能夠幫助我們找出屬性之間的關聯規則,并提供結果的可視化。
當流程構建完成并成功執行后,我們可以進入洞察頁面,點擊【Apriori】來查看分析結果。
我們可以指定關聯規則的前項和后項,系統會輸出給定規則的結果。同時,我們還能通過網絡圖來觀察屬性之間的相關性。網絡圖中的連線代表兩個屬性之間的關聯關系,線的粗細則表示關系的強弱程度。
通過以上的關聯分析流程和分析結果,我們能夠揭示事物之間的關聯性和依賴性。這些發現有助于我們深入了解數據,并為業務決策提供有力的支持。關聯分析的應用不僅局限于購物籃分析,在市場研究、推薦系統、風險分析等領域也有廣泛的應用。