本篇內容主要講解“怎么在MaxCompute上分析IP來源”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“怎么在MaxCompute上分析IP來源”吧!
淘寶IP地址庫官網(wǎng)地址 http://ip.taobao.com/ ,其查詢接口[ http://ip.taobao.com/service/getIpInfo.php?ip=[ip 地址字串]]( http://ip.taobao.com/service/getIpInfo.php?ip=[ip 地址字串]),如下所示:
但是在MaxCompute中禁止使用http請求,那么如何實現(xiàn)在MaxCompute中進行IP的查詢?
目前有三種方式:
用SQL將數(shù)據(jù)查詢到本地,再發(fā)起http請求查詢。-->效率低下,且淘寶IP庫查詢頻率需小于10qps,否則拒絕請求。
下載IP地址庫到本地,進行查詢。-->同樣效率低,且不利于數(shù)倉等分析使用。
將IP地址庫定期維護上傳至MaxCompute,進行連接查詢。-->比較高效,但是IP地址庫需自己定期維護。
① IP地址庫下載, http://ip.taobao.org:9999/ipdata_download.html 下載需要的格式數(shù)據(jù)。本文以[基本數(shù)據(jù)格式]為例。
②下載UTF-8數(shù)據(jù),打開看看數(shù)據(jù)格式。
前四個數(shù)據(jù)是IP地址的起始地址與結束地址,前兩個是十進制整數(shù)形式,后兩個是點分形式。這里我們使用整數(shù)形式,以便計算IP是否屬于這個網(wǎng)段。
①創(chuàng)建表DDL:
DROP TABLE IF EXISTS ipresource ;CREATE TABLE IF NOT EXISTS ipresource ( start_ip BIGINT ,end_ip BIGINT ,start_ip_arg string ,end_ip_arg string ,country STRING ,area STRING ,city STRING ,county STRING ,isp STRING) ;
②使用Tunnel上傳文件(文件>10MB需要使用 Tunnel upload命令 )
odps@ workshop_demo>tunnel upload ipdata.txt.utf8 ipresource;
可以通過SQL查看到表中共計上傳2369306條數(shù)據(jù)。
③查看ipresource表樣本數(shù)據(jù)。
通過編寫Python UDF將點號分割的IP地址轉化為int類型的IP。詳細如下:
①添加Python 資源。
②編寫Python資源代碼。
from odps.udf import annotate@annotate("string->bigint")class ipint(object): def evaluate(self, ip): try: return reduce(lambda x, y: (x << 8) + y, map(int, ip.split('.'))) except: return 0
點擊提交并解鎖。
③新建自定義函數(shù):
提交并解鎖:
④驗證ipint函數(shù)是否生效并滿足預期值。
以具體IP地址為例,在正常情況會以具體表的字段來讀進來。
保證數(shù)據(jù)準確性可以定期從淘寶IP庫獲取數(shù)據(jù)來維護ipresource這個表。
到此,相信大家對“怎么在MaxCompute上分析IP來源”有了更深的了解,不妨來實際操作一番吧!這里是創(chuàng)新互聯(lián)網(wǎng)站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續(xù)學習!
網(wǎng)站標題:怎么在MaxCompute上分析IP來源-創(chuàng)新互聯(lián)
文章起源:http://jinyejixie.com/article18/gpidp.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站收錄、網(wǎng)站維護、全網(wǎng)營銷推廣、小程序開發(fā)、網(wǎng)站改版、網(wǎng)站建設
聲明:本網(wǎng)站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)