女生裸体视频一区二区三区_久久久久九九九_美日韩精品视频_欧美日韩亚洲一区二区三区在线_激情成人亚洲_亚洲一区自拍_日韩亚洲精品在线_国产精品入口66mio_亚洲在线日韩_久久亚洲二区

美林數據
ABOUT US
美林數據技術股份有限公司(簡稱:美林數據,NEEQ:831546)是國內知名的數據治理和數據分析服務提供商。

美林新聞/NEWS

首頁 美林數據 行業資訊

在大數據分析數據處理過程中,關鍵特征該如何篩選?

2023-04-11 18:39:42
1.為什么要做關鍵特征篩選?
在數據量與日俱增的時代,我們收集到的數據越來越多,能運用到數據分析挖掘的數據也逐漸豐富起來,但同時,我們也面臨著如何從龐大的數據中篩選出與我們業務息息相關的數據。(大背景)從數據中挖掘潛在的規律,輔助我們在實際業務中進行決策。
在現實任務中經常會遇到維數災難問題,屬性過多造成的。可以降低學習任務的難度,不相關的特征就是噪聲。它有助于減少數據集的大小和復雜性,反過來使我們可以用更少的時間來訓練模型,更少的計算成本來訓練機器學習模型和進行推理;具有較少特征的簡單機器學習模型更容易理解和解釋;它可以避免過擬合。因為特征越多,模型就越復雜,這就帶來了維數的麻煩 (錯誤會隨著特征數量的增加而增加) 。
特征選擇目的:1)減少特征數量、降維,使模型泛化能力更強,加速模型訓練,減少過擬合;2)增強對特征和特征值之間的理解。
2.做關鍵特征篩選的常見問題有哪些?
問題在于,1)在面對未知領域的時候,很難有足夠的知識去判斷特征與我們的目標是不是相關,特征與特征之間是不是相關。這時候,就需要一些數學和工程上的辦法來幫助我們盡可能地把恰好需要的特征選擇出來。2)特征與特征之間往往不是獨立的,因此特征選擇往往把要選擇的特征當作一個子集進行搜索(單獨特征最優組合)。3)樣本與樣本之間往往存在特征分布的重疊。(基于類內類間的特征選擇方法不能反映樣本分布重疊的情況)。
3.做數據篩選的3類方法
選擇哪種特征選擇方法?為自己打造一個投票選擇器
實現我們討論過的幾種特征選擇方法。您的選擇可能取決于時間、計算資源和數據度量級別等因素。只要運行盡可能多的不同方法就可以了。然后,對于每個特征,記下建議將此特征保留在數據集中的選擇方法的百分比。如果超過50%的方法投票贊成保留,則保留它該特征,否則,請丟棄它。
這種方法背后的思想是,雖然一些方法可能由于其內在的偏見而對某些特征做出錯誤的判斷,但多種方法的集合應該可以正確地獲得有用的特征集。
1)統計方法

?定義:其最大優勢是不依賴于模型,僅從特征的角度來挖掘其價值高低,從而實現特征排序及選擇。由于它們與模型無關,因此它們也更通用;它們不會對任何特定的算法進行過度匹配。它們也很容易解釋:如果一個特征與目標沒有統計關系,它就會被丟棄。其核心在于對特征進行排序——按照特征價值高低排序后,即可實現任意比例/數量的特征選擇或剔除。
缺點是,他們分別單獨查看每個特征,評估其與目標的關系。這使得他們很容易放棄一些有用的特征,而這些特征本身是目標的弱預測因子,但與其他特征結合后會為模型增加很多價值。

?包含:方差選擇、方差分析、相關系數
?適用場景:/
?優勢/各種方法之間的對比或差異:
方差選擇,計算各個特征的方差,然后根據閾值,選擇方差大于閾值的特征。優點:計算量較小,只需計算所有特征的方差即可;可作為第一次特征選擇對特征進行過濾,降低后續算法的計算成本。缺點:比較依賴閾值的選取,如果閾值選取過高,會篩選掉許多有用特征;閾值過低,又會留下較多無用數據;一些作用較大的數據可能因為數據不平衡等問題出現方差較小的情況,而這些特征容易被方差過濾法給誤刪了;只能用于離散型數據,對于連續型數據,應先劃分區間,將連續性化成離散型,再進行方差過濾。

?適用場景:由于方差過濾法的缺點較大,所以往往是先采用方差過濾法將一些變化極小或為無變化的特征先行篩選掉,減少一部分數據,然后再采用模型方法進行二次篩選。
方差分析,是一種假設檢驗的方法,它是分析目標在于檢驗各組的均值間差異是否在統計意義上顯著。優點:(1)它不受統計組數的限制,可接受大樣本統計數量進行多重比較,能夠充分地利用試驗所提供數據來估計試驗誤差,可以將各因素對試驗指標的影響從試驗誤差中分離開,是一種定量分析方法,可比性強,分析精度高;(2)方差分析可以考察多個因素的交互作用。缺點:(1)涉及到全部數據,計算復雜;(2)前提條件較為苛刻,需要數據樣本之間相互獨立,且滿足正態分布和方差齊性,所以需要對數據進行方差齊性檢驗。
相關系數:其主要思想是通過計算各個特征之間的相關系數,篩選出與目標變量相關性最高的特征。優點是,最簡單的,能幫助理解特征和響應變量之間關系的方法,該方法衡量的是變量之間的線性相關性。速度快、易于計算,經常在拿到數據(經過清洗和特征提取之后的)之后第一時間就執行。缺陷是,它假設兩個變量都是正態分布的,并且只測量它們之間的線性相關性。當相關性為非線性時,皮爾遜r將無法檢測到它,即使它真的很強。
效果:簡單描述操作+最終效果圖
方差選擇
數據分析處理
輸出大于閾值的字段名為重要特征。

方差分析
數據分析處理
相關系數
數據分析處理
2)模型方法
?定義: 它使用一個模型對不同的特征子集進行評分,最終選擇最佳的特征。每個新子集用于訓練一個模型,該模型的性能隨后在保持集上進行評估。選擇產生最佳模型性能的特征子集。
?包含:邏輯回歸分類、隨機森林分類、梯度提升決策樹分類、ReliefF、RFE
?適用場景:如果我們并不了解業務,或者有成千上萬的特征,那我們也可以使用算法來幫助我們。或者,可以讓算法先幫助我們篩選過一遍特征,然后在少量的特征中,我們再根據業務常識來選擇更少量的特征。
?優勢/各種方法之間的對比或差異:
邏輯回歸分類、隨機森林、RFE等,可以幫助我們識別哪些變量對于分類預測最有用。這可以提高模型的準確性。將特征選擇看做是一個黑盒問題:即僅需指定目標函數(這個目標函數一般就是特定模型下的評估指標),通過一定方法實現這個目標函數最大化,而不關心其內部實現的問題。進一步地,從具體實現的角度來看,給定一個含有N個特征的特征選擇問題,可將其抽象為從中選擇最優的K個特征子集從而實現目標函數取值最優。
優點是,為特定類型的模型提供性能最佳的特征集。缺點是,可能會過度適用于模型類型,如果希望使用不同的機器學習模型嘗試它們,則它們生成的特征子集可能不會泛化。計算量大。他們需要訓練大量的模型,這可能需要一些時間和計算能力。

?效果:簡單描述操作+最終效果圖
邏輯回歸
數據分析處理
隨機森林
隨機森林算法
梯度提升決策樹
梯度提升決策樹
ReliefF
ReliefF算法

RFE
RFE算法
 
僅展示重要特征。

3)集成方法

?定義:python分析重要性的幾個工具。
?包含:Shap、Permutation Importance、Boruta、Partial Dependence Plots
?適用場景:/
?優勢/各種方法之間的對比或差異:
Shap做特征篩選,能夠提高性能,但缺點是時間成本高。參數組合越多,或者選擇過程越準確,持續時間越長。這是我們實際上無法克服的物理限制。
Permutation Importance適用于表格型數據,其對于特征重要性的評判取決于該特征被隨機重排后,模型表現評分的下降程度。優點是,計算速度快;應用廣泛、易于理解;與我們期望一個特征重要性度量所具有的性質一致。
Boruta是一種簡單但統計上很優雅的算法。它使用來自隨機森林模型的特征重要性度量來選擇特征的最佳子集,并通過引入兩個極好的思路來實現。Boruta對特征進行了精確的分類,而不是排序,這與許多其他特征選擇方法形成了鮮明對比。
Partial Dependence Plots跟排列重要性一樣,部分依賴圖也是要在擬合出模型之后才能進行計算。

?效果:簡單描述操作+最終效果圖
Permutation Importance
大數據分析數據處理
Boruta
大數據分析數據處理
Shap
大數據分析數據處理

Partial Dependence Plots
大數據分析數據處理
波動大說明特征越重要。


服務熱線
400-608-2558
咨詢熱線
15502965860-
美林數據
微信掃描二維碼,立即在線咨詢
女生裸体视频一区二区三区_久久久久九九九_美日韩精品视频_欧美日韩亚洲一区二区三区在线_激情成人亚洲_亚洲一区自拍_日韩亚洲精品在线_国产精品入口66mio_亚洲在线日韩_久久亚洲二区
欧美揉bbbbb揉bbbbb| 制服丝袜激情欧洲亚洲| 国产精品人成在线观看免费| 精品一二三四在线| 免费在线播放第一区高清av| 中文字幕一区免费在线观看| www.色精品| 日韩一卡二卡三卡四卡| 激情丁香综合五月| 欧美日韩一区久久| 美女免费视频一区| 色欧美乱欧美15图片| 亚洲高清在线视频| 午夜亚洲伦理| 亚洲国产精品天堂| 国产伦精品一区二区三| 一区二区三区不卡视频在线观看| 狠狠干成人综合网| 国产精品国产三级国产专播品爱网 | 国产精品高清亚洲| 欧美久久久久久久| 国产精品亲子乱子伦xxxx裸| 欧美成人日韩| 欧美国产在线观看| 在线播放不卡| 成人欧美一区二区三区白人| 极品av少妇一区二区| 一色桃子久久精品亚洲| 红桃视频亚洲| 亚洲卡通欧美制服中文| 中文有码久久| 亚洲大片免费看| 久久综合九色综合久99| 免费成人在线网站| 欧美日韩国产综合草草| 精品一区二区三区在线播放视频| 在线播放日韩导航| 97se亚洲国产综合自在线观| 国产日韩高清在线| 亚洲国产一区二区精品专区| 亚洲午夜久久久| 色狠狠一区二区| 国产一区在线不卡| 国产婷婷色一区二区三区| 欧美日一区二区在线观看| 亚洲视频免费看| 久久九九电影| 国产伦精一区二区三区| 久久久精品黄色| 亚洲私拍自拍| 日日欢夜夜爽一区| 91精品国产综合久久久久久漫画 | 久久久久九九九| 国产自产2019最新不卡| 久久亚洲综合色一区二区三区| 欧美chengren| 亚洲理论在线观看| 欧美日韩三级视频| gogogo免费视频观看亚洲一| √…a在线天堂一区| 色婷婷一区二区三区四区| 国产成人免费高清| 国产精品久久看| 色婷婷精品久久二区二区蜜臀av | 美女在线观看视频一区二区| 久久免费午夜影院| 亚洲免费综合| 国产福利一区二区三区在线视频| 欧美国产乱子伦| 色视频一区二区| 欧美激情国产日韩| 日韩国产在线观看一区| 欧美一级免费大片| 亚洲精品一区二区三区樱花| 精品一区二区三区的国产在线播放 | 一区二区三区福利| 国内精品久久久久影院薰衣草| 欧美国产日本视频| 欧美亚洲禁片免费| 国产一区二区在线观看免费播放| 日本午夜精品一区二区三区电影| 欧美精品一区二区精品网| 香蕉久久夜色精品国产| 成人av免费网站| 视频一区二区三区在线| 亚洲国产高清在线观看视频| 欧美午夜精品一区| 激情婷婷久久| 国产精品一品二品| 夜夜精品视频一区二区 | 久久久久99精品一区| 色噜噜狠狠色综合欧洲selulu| 欧美日韩国产在线一区| 国产在线国偷精品免费看| 亚洲女人小视频在线观看| 欧美一区二视频| 麻豆成人av| 狠狠噜噜久久| 成人av资源在线观看| 免费人成网站在线观看欧美高清| 国产精品乱人伦| 亚洲精品一线二线三线| 欧美日韩午夜在线视频| 国产精品久久国产愉拍| 97se狠狠狠综合亚洲狠狠| 久久精品噜噜噜成人88aⅴ| 亚洲精品乱码久久久久久久久 | 亚洲午夜免费电影| 亚洲国产成人在线| www国产亚洲精品久久麻豆| 欧美日韩国产系列| 久久福利影视| 99热这里只有精品8| 欧美69视频| 成人自拍视频在线观看| 国产在线精品视频| 奇米一区二区三区| 亚洲成人一二三| 亚洲另类春色校园小说| 中文字幕亚洲一区二区va在线| 久久综合999| 日韩色视频在线观看| 欧美人伦禁忌dvd放荡欲情| 老**午夜毛片一区二区三区| 夜夜爽99久久国产综合精品女不卡| 国产精品v亚洲精品v日韩精品| 99久久久久久| 成人污污视频在线观看| 国产成人自拍高清视频在线免费播放 | 91麻豆精品国产91| 欧美日韩一区二区在线观看视频| 91福利精品第一导航| 色婷婷久久综合| 色婷婷久久99综合精品jk白丝| 久久久久久精| 一本一道久久a久久精品| 免费在线亚洲欧美| 老鸭窝91久久精品色噜噜导演| 亚洲永久网站| 免费在线观看成人av| 色狠狠综合天天综合综合| 在线影院国内精品| 欧美日韩另类国产亚洲欧美一级| 在线观看日韩电影| 欧美日韩免费一区二区三区| 欧美日韩国产一级片| 欧美日韩在线直播| 日韩一区二区三区视频在线| 日韩视频免费观看高清完整版| 日韩精品一区二区三区在线| 欧美精品一区二区三区在线| 亚洲国产精品成人综合| 亚洲欧美成aⅴ人在线观看| 亚洲精选视频免费看| 亚洲不卡在线观看| 蜜臀av一区二区在线观看| 国产高清不卡二三区| 97精品久久久久中文字幕| 国产精品大片| 一区二区三区四区五区在线 | 亚洲精品美女| 日本高清不卡一区| 在线不卡的av| 国产亚洲人成网站| 夜夜爽夜夜爽精品视频| 免费成人你懂的| 粉嫩av一区二区三区粉嫩| 97精品久久久久中文字幕| 国产精品xvideos88| 午夜宅男欧美| 91精品在线麻豆| 国产欧美一区二区三区网站| 亚洲精品免费播放| 激情五月激情综合网| 白白色 亚洲乱淫| 亚洲毛片av| 欧美日韩免费不卡视频一区二区三区| 日韩精品一区二区三区swag| 中文字幕制服丝袜成人av| 日本欧美在线看| bt7086福利一区国产| 亚洲深爱激情| 5566中文字幕一区二区电影 | 日韩一区二区在线看片| 中文字幕一区二区三区在线观看 | 成人h动漫精品| 日韩午夜激情| 51精品秘密在线观看| 国产精品素人一区二区| 婷婷六月综合亚洲| 9人人澡人人爽人人精品| 中文在线一区| 精品欧美一区二区久久| 亚洲自拍偷拍麻豆| 国产91露脸合集magnet | 激情视频一区| 91精品国产综合久久福利| 亚洲美女免费视频| 国产福利一区二区| 亚洲一区bb|