您好,現在漢漢來為大家解答以上的問題。如何做ROC曲線,roc曲線制作具體步驟相信很多小伙伴還不知道,現在讓我們一起來看看吧!
1、正因為我們比較關注正例的情形,所以設置了兩個相應的指標:TPR與FPR。
2、 TPR:True Positive Rate,將實際的1正確地預測為1的概率,d/(c+d)。
3、 FPR:False Positive Rate,將實際的0錯誤地預測為1的概率,b/(a+b)。
4、 TPR也稱為Sensitivity(即生物統計學中的敏感度),在這里也可以稱為“正例的覆蓋率”——將實際為1的樣本數找出來的概率。
5、覆蓋率是重要的指標,例如若分類的目標是找出潛在的劣質客戶(響應變量取值為1),則覆蓋率越大表示越多的劣質客戶被找出。
6、 類似地,1-FPR其實就是“負例的覆蓋率”,也就是把負例正確地識別為負例的概率。
7、 TPR與FPR相互影響,而我們希望能夠使TPR盡量地大,而FPR盡量地小。
8、影響TPR與FPR的重要因素就是上文提到的“閾值”。
9、當閾值為0時,所有的樣本都被預測為正例,因此TPR=1,而FPR=1。
10、此時的FPR過大,無法實現分類的效果。
11、隨著閾值逐漸增大,被預測為正例的樣本數逐漸減少,TPR和FPR各自減小,當閾值增大至1時,沒有樣本被預測為正例,此時TPR=0,FPR=0。
12、 由上述變化過程可以看出,TPR與FPR存在同方向變化的關系(這種關系一般是非線性的),即,為了提升TPR(通過降低閾值),意味著FPR也將得到提升,兩者之間存在類似相互制約的關系。
13、我們希望能夠在犧牲較少FPR的基礎上盡可能地提高TPR,由此畫出了ROC曲線。
14、 ROC曲線的全稱為“接受者操作特性曲線”(receiver operating characteristic) 當預測效果較好時,ROC曲線凸向左上角的頂點。
15、平移圖中對角線,與ROC曲線相切,可以得到TPR較大而FPR較小的點。
16、模型效果越好,則ROC曲線越遠離對角線,極端的情形是ROC曲線經過(0,1)點,即將正例全部預測為正例而將負例全部預測為負例。
17、ROC曲線下的面積可以定量地評價模型的效果,記作AUC,AUC越大則模型效果越好。
18、 由于ROC曲線描述了在TPR與FPR之間的取舍,因此我一般將其理解為投入產出曲線,receive of cost。
19、(事實上我理解錯了。
20、相對而言lorenz曲線更適合這個名字。
21、當然啦其實FPR可以理解為另一種cost。
22、2010.10.15) 當我們分類的目標是將正例識別出來時(例如識別有違約傾向的信用卡客戶),我們關注TPR,此時ROC曲線是評價模型效果的準繩。
本文就為大家分享到這里,希望小伙伴們會喜歡。