pythonwoe函數(shù),python swoole

銀行數(shù)據(jù)倉庫體系實(shí)踐（18）--數(shù)據(jù)應(yīng)用之信用風(fēng)險(xiǎn)建模

信用風(fēng)險(xiǎn)

成都創(chuàng)新互聯(lián)公司主要從事成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站制作、網(wǎng)頁設(shè)計(jì)、企業(yè)做網(wǎng)站、公司建網(wǎng)站等業(yè)務(wù)。立足成都服務(wù)敖漢,十年網(wǎng)站建設(shè)經(jīng)驗(yàn),價(jià)格優(yōu)惠、服務(wù)專業(yè),歡迎來電咨詢建站服務(wù):18980820575

銀行的經(jīng)營風(fēng)險(xiǎn)的機(jī)構(gòu)，那在第15節(jié)也提到了巴塞爾新資本協(xié)議對于銀行風(fēng)險(xiǎn)的計(jì)量和監(jiān)管要求，其中信用風(fēng)險(xiǎn)是銀行經(jīng)營的主要風(fēng)險(xiǎn)之一，它的管理好壞直接影響到銀行的經(jīng)營利潤和穩(wěn)定經(jīng)營。信用風(fēng)險(xiǎn)是指交易對手未能履行約定契約中的義務(wù)而給銀行造成經(jīng)濟(jì)損失的風(fēng)險(xiǎn)。典型的表現(xiàn)形式包括借款人發(fā)生違約或信用等級下降。借款人因各種原因未能及時(shí)、足額償還債務(wù)/銀行貸款、未能履行合同義務(wù)而發(fā)生違約時(shí)，債權(quán)人或銀行必將因?yàn)槲茨艿玫筋A(yù)期的收益而承擔(dān)財(cái)務(wù)上的損失。

那如何來表示某個(gè)交易對手的信用情況呢，一般使用信用等級或信用評分來來表示，等級越低或評分越低，發(fā)生違約的概率會(huì)增加。這個(gè)信用評分主要應(yīng)用在客戶的貸前和貸后管理中，貸前是指客戶貸款申請階段，銀行受理客戶貸款申請時(shí)會(huì)根據(jù)客戶提交的信息、人行征信、其它數(shù)據(jù)源按一定的規(guī)則計(jì)算出一個(gè)違約概率和風(fēng)險(xiǎn)評分或信用等級。再根據(jù)這個(gè)評分或評級來確定客戶的授信額度和利率。計(jì)算出的評分或評級越高，違約概率越低，比如在進(jìn)行個(gè)人貸前評分時(shí)主要關(guān)注以下5方面：

（1）People：貸款人狀況，包括歷史還款表現(xiàn)、當(dāng)前負(fù)債情況、資金饑渴度等；

（2）Payment：還款來源，如基本收入、資產(chǎn)水平、月收支負(fù)債比、無擔(dān)保總負(fù)債等；???????

（3）Purpose：資金用途，如消費(fèi)、買房，需要規(guī)避貸款資金用于投資或投機(jī)性質(zhì)較高領(lǐng)域，如股票和數(shù)字貨幣；

（4）Protection：債權(quán)確保，主要是看是否有抵押物或擔(dān)保，需要看抵押物用途、質(zhì)量、價(jià)格等關(guān)鍵要素；

（5）Perspective：借款戶展望，從地域、行業(yè)、人生階段等考察穩(wěn)定性及潛力；

貸后是指客戶借款后銀行持續(xù)跟進(jìn)客戶的信用情況，如果發(fā)現(xiàn)信用評分降低或者某些指標(biāo)達(dá)到風(fēng)險(xiǎn)預(yù)警指標(biāo)的閾值，說明風(fēng)險(xiǎn)升高，則會(huì)進(jìn)行凍結(jié)額度甚至提前進(jìn)行貸款收回。特別是對于逾期客戶。

風(fēng)險(xiǎn)建模步驟

在進(jìn)行信用評估時(shí)如何選擇客戶屬性、如何確定評分或評級規(guī)則呢？這就需要進(jìn)行風(fēng)險(xiǎn)建模，通過分析歷史數(shù)據(jù)來確定哪些特征或指標(biāo)對客戶的違約相關(guān)性大，可以了解客戶的還款能力以及還款意愿。并通過一定方法來建立評分和評級的規(guī)則。那風(fēng)險(xiǎn)建模主要分為以下步驟：

（1）業(yè)務(wù)理解：主要評估當(dāng)前現(xiàn)狀、確定業(yè)務(wù)目標(biāo)，選擇建模方法，比如需要進(jìn)行XX貸款產(chǎn)品的貸前評分模型并確定準(zhǔn)入規(guī)則，建模方式比如為評分卡，評分應(yīng)用為基于評分確定貸款準(zhǔn)入規(guī)則以及額度和利率規(guī)則，同時(shí)需要確定分析數(shù)據(jù)的好客戶和壞客戶標(biāo)準(zhǔn)，如逾期90天以上為壞客戶；

（2）數(shù)據(jù)理解：首先需要準(zhǔn)備建模的樣本數(shù)據(jù)，如抽取近2年的獲得類似產(chǎn)品的客戶相關(guān)信息以及根據(jù)好客戶和壞客戶標(biāo)準(zhǔn)確定的結(jié)果。并針對業(yè)務(wù)數(shù)據(jù)進(jìn)行業(yè)務(wù)含義理解、對數(shù)據(jù)進(jìn)行收集、探索，了解每個(gè)變量的數(shù)據(jù)質(zhì)量、缺失情況，數(shù)據(jù)分布等。比如對于客戶在人行的征信數(shù)據(jù)、客戶在銀行的存款、理財(cái)?shù)刃畔ⅰ⒁约翱蛻羯暾執(zhí)顚懙募彝?、房產(chǎn)信息、外部獲得的客戶教育、司法等相關(guān)信息進(jìn)行業(yè)務(wù)理解和數(shù)據(jù)分布、質(zhì)量的探索，對缺失值比例過大的變量或準(zhǔn)確性不高的變量進(jìn)行剔除，同時(shí)也要確定對于樣本數(shù)據(jù)中哪些數(shù)據(jù)進(jìn)行建模，哪些數(shù)據(jù)進(jìn)行驗(yàn)證。

（3）數(shù)據(jù)準(zhǔn)備：主要對數(shù)據(jù)進(jìn)行預(yù)處理和指標(biāo)加工，指標(biāo)加工指基于基礎(chǔ)數(shù)據(jù)進(jìn)行指標(biāo)加工，如最近1個(gè)月的征信查詢次數(shù)，最近1年的逾期次數(shù)等，數(shù)據(jù)預(yù)處理主要工作包括對每一個(gè)變量進(jìn)行數(shù)據(jù)清洗、缺失值處理、異常值處理、數(shù)據(jù)標(biāo)準(zhǔn)化等，主要目的是將獲取的原始數(shù)據(jù)轉(zhuǎn)變成可用于建模的結(jié)構(gòu)化數(shù)據(jù)。

比如對于連續(xù)變量，就是要尋找合適的切割點(diǎn)把變量分為幾個(gè)區(qū)間段以使其具有最強(qiáng)的預(yù)測能力，也稱為“分箱”。例如客戶年齡就是連續(xù)變量，在這一步就是要研究分成幾組、每組切割點(diǎn)在哪里預(yù)測能力是最強(qiáng)的。分箱的方法有等寬、等頻、聚類（k-means）、卡方分箱法、單變量決策樹算法（ID3、C4.5、CART）、IV最大化分箱法、best-ks分箱法等。如果是離散變量，每個(gè)變量值都有一定的預(yù)測能力，但是考慮到可能幾個(gè)變量值有相近的預(yù)測能力，因此也需要進(jìn)行分組。

通過對變量的分割、分組和合并轉(zhuǎn)換，分析每個(gè)變量對于結(jié)果的相關(guān)性，剔除掉預(yù)測能力較弱的變量，篩選出符合實(shí)際業(yè)務(wù)需求、具有較強(qiáng)預(yù)測能力的變量。檢測變量預(yù)測能力的方法有：WOE(weight of Evidence) 、IV(informationvalue)等。

（4）分析建模：即對于篩選出來的變量以及完成好壞定義的樣本結(jié)果。放入模型進(jìn)行擬合。如評分卡一般采用常見的邏輯回歸的模型，PYTHON、SAS、R都有相關(guān)的函數(shù)實(shí)現(xiàn)模型擬合。以下是生成的評分卡的例子。

（5）評估及報(bào)告：即通過驗(yàn)證樣本對模型的預(yù)測進(jìn)行校驗(yàn)。評估模型的準(zhǔn)確性和穩(wěn)健性，并得出分析報(bào)告。常用的方法有ROC曲線、lift提升指數(shù)、KS(Kolmogorov-Smirnov)曲線、GINI系數(shù)等。

（6）應(yīng)用：對模型進(jìn)行實(shí)際部署和應(yīng)用，如基于評分進(jìn)行客戶準(zhǔn)入和產(chǎn)生額度，并在貸款系統(tǒng)進(jìn)行模型部署，自動(dòng)對申請客戶進(jìn)行評分。

（7）監(jiān)測：建立多種報(bào)表對模型的有效性、穩(wěn)定性進(jìn)行監(jiān)測，如穩(wěn)定性監(jiān)控報(bào)表來比較新申請客戶與開發(fā)樣本客戶的分值分布，不良貸款分析報(bào)表來評估不同分?jǐn)?shù)段的不良貸款，并且與開發(fā)時(shí)的預(yù)測進(jìn)行比較，監(jiān)控客戶信貸質(zhì)量。隨著時(shí)間的推移和環(huán)境變化，評分模型的預(yù)測力會(huì)減弱，所以需要持續(xù)監(jiān)控并進(jìn)行適當(dāng)調(diào)整或重建。

在信用風(fēng)險(xiǎn)建模中，目前評分卡建模還是主要的方式，除了申請?jiān)u分（A卡（Application score card））還有B卡（Behavior score card）行為評分卡、C卡（Collection score card）催收評分卡。B卡主要進(jìn)行客戶貸后管理，如何進(jìn)行風(fēng)險(xiǎn)預(yù)警，C卡進(jìn)行催收管理，確定如何催收以及催收方式和時(shí)間點(diǎn)。信用風(fēng)險(xiǎn)模型中還有一個(gè)是反欺詐模型，它主要是識別假冒身份、虛假信息、批量薅羊毛等欺詐行為。隨著機(jī)器學(xué)習(xí)和大數(shù)據(jù)的發(fā)展，其它的一些建模方式如決策樹、深度神經(jīng)網(wǎng)絡(luò)也越來越多的應(yīng)用到了風(fēng)險(xiǎn)建模中。

信用風(fēng)險(xiǎn)模型是數(shù)據(jù)倉庫支持的重要數(shù)據(jù)應(yīng)用之一，在風(fēng)險(xiǎn)建模分析階段，數(shù)據(jù)倉庫是建模樣本數(shù)據(jù)以及衍生指標(biāo)加工的主要提供者，業(yè)務(wù)人員一般在自助分析平臺進(jìn)行數(shù)據(jù)分析和建模，模型建立完成并部署后，會(huì)基于數(shù)據(jù)倉庫數(shù)據(jù)進(jìn)行模型效果的監(jiān)控。在貸后管理中，風(fēng)險(xiǎn)集市也會(huì)進(jìn)行貸后指標(biāo)的加工。另外風(fēng)險(xiǎn)模型以及預(yù)警中會(huì)經(jīng)常使用到外部數(shù)據(jù)，這部分?jǐn)?shù)據(jù)也是通過數(shù)據(jù)倉庫進(jìn)行對接、加工和存儲(chǔ)。

python最優(yōu)分箱中woe計(jì)算（求大圣）

list =[None,None,None,None,"a","b","c",None,"d",12,None,2,4,5,4] list = list[4:] len(list)11 list['a', 'b', 'c', None, 'd', 12, None, 2, 4, 5, 4]#如果你的list 格式是相同的比如前面4個(gè)都是None，這個(gè)格式是固定的，那么切片很容易解決

woe與iv （python）

IV 與 WOE:

IV表示一個(gè)變量的預(yù)測能力：

=0.02,沒有預(yù)測能力，不可用

0.02~0.1?弱預(yù)測性

0.1~0.2?有一定預(yù)測能力

0.2+高預(yù)測性

IV還可以用來挑選變量，IV就越大，它就越應(yīng)該進(jìn)入到入模變量列表中。

Psi

def calculate_psi(expected, actual, buckets=10): # test, base

def psi(expected_array, actual_array, buckets):

def scale_range(input, min, max):

input += -(np.min(input))

input /= np.max(input) / (max - min)

input += min

return input

#?按照概率值分10段

breakpoints = np.arange(0, buckets + 1) / (buckets) * 100

breakpoints = scale_range(breakpoints, np.min(expected_array), np.max(expected_array))

expected_percents = np.histogram(expected_array, breakpoints)[0] / len(expected_array)

# print(expected_percents)

actual_percents = np.histogram(actual_array, breakpoints)[0] / len(actual_array)

def sub_psi(test, base): # test,base

if base == 0:

base = 0.0001

if test == 0:

test = 0.0001

value = (test - base) * np.log(test / base)

return(value)

psi_value = np.sum(sub_psi(expected_percents[i], actual_percents[i]) for i in range(0, len(expected_percents)))

return(psi_value)

if len(expected.shape) == 1:

psi_values = np.empty(len(expected.shape))

else:

psi_values = np.empty(expected.shape[0])

for i in range(0, len(psi_values)):

if len(psi_values) == 1:

psi_values = psi(expected, actual, buckets)

else:

psi_values[i] = psi(expected[:,i], actual[:,i], buckets)

return(psi_values)

python 對toad里面的toad.metrics.KS_bucket函數(shù)改寫成自定義分段

toad函數(shù)里面有個(gè) 類似于woe 統(tǒng)計(jì)各段的好壞，好壞比，累計(jì)好壞比，KS的一個(gè)數(shù)為

toad.metrics.KS_bucket

此函數(shù)中有兩個(gè)參數(shù)，可以是等頻分，也可以是等距分箱，但此分箱均是以分?jǐn)?shù)的最大最小值為基礎(chǔ)劃分的。

我想把整成0~1區(qū)間的，所以對原函數(shù)進(jìn)行了修改。

python: split的用法，在后面的括號不同，輸出的也不一樣，大神能不能幫忙解釋一下下面的例子。

split的第一個(gè)參數(shù)是分隔符。

如果省略第一個(gè)參數(shù)，默認(rèn)把所有的空格、制表符、回車符當(dāng)作分隔符，并過濾掉空串。這個(gè)也是你第一種寫法的效果。

line.split(‘\t''\n')

'\t'和'\n'是兩個(gè)字符串，會(huì)自動(dòng)進(jìn)行拼接，形成'\t\n'作為分隔符。而在你輸入的字符串中，不包含這樣的字串，所以就分割的結(jié)果就是原串。

split(‘\t')

以'\t'作為分隔符，分割的結(jié)果就是第三種寫法。

split不支持同時(shí)使用多種字符做分隔符，如果想實(shí)現(xiàn)這樣的效果，可以用re，例如：

'wowofbfwjowoefbwfoweojbwoefja'

import re

re.split('[ab]', a)

['wowof', 'fwjowoef', 'wfoweoj', 'woefj', '']

分享標(biāo)題：pythonwoe函數(shù),python swoole
新聞來源：http://jinyejixie.com/article22/hsdocc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供建站公司、域名注冊、定制網(wǎng)站、標(biāo)簽優(yōu)化、關(guān)鍵詞優(yōu)化、虛擬主機(jī)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容