工作中經(jīng)常遇到一類需求,根據(jù) IP 地址段來(lái)查找 IP 對(duì)應(yīng)的歸屬地信息。如果把查詢過(guò)程放到關(guān)系型數(shù)據(jù)庫(kù)中,會(huì)帶來(lái)很大的 IO 消耗,速度也不能滿足,顯然是不合適的。
那有哪些更好的辦法呢?為此做了一些嘗試,下面來(lái)詳細(xì)說(shuō)明。
構(gòu)建索引文件
在 GitHub 上看到一個(gè)ip2region 項(xiàng)目,作者通過(guò)生成一個(gè)包含有二級(jí)索引的文件來(lái)實(shí)現(xiàn)快速查詢,查詢速度足夠快,毫秒級(jí)別。但如果想更新地址段或歸屬地信息,每次都要重新生成文件,并不是很方便。
不過(guò)還是推薦大家看看這個(gè)項(xiàng)目,其中建索引的思想還是很值得學(xué)習(xí)的。作者的開(kāi)源項(xiàng)目中只有查詢的相關(guān)代碼,并沒(méi)有生成索引文件的代碼,我依照原理圖寫(xiě)了一段生成索引文件的代碼,如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
|
# -*- coding:utf-8 -*- import time import socket import struct IP_REGION_FILE = './data/ip_to_region.db' SUPER_BLOCK_LENGTH = 8 INDEX_BLOCK_LENGTH = 12 HEADER_INDEX_LENGTH = 8192 def generate_db_file(): pointer = SUPER_BLOCK_LENGTH + HEADER_INDEX_LENGTH region, index = ' ', ' ' # 文件格式 # 1.0.0.0|1.0.0.255|澳大利亞|0|0|0|0 # 1.0.1.0|1.0.3.255|中國(guó)|0|福建省|福州市|電信 with open ( './ip.merge.txt' , 'r' ) as f: for line in f.readlines(): item = line.strip().split( '|' ) print item[ 0 ], item[ 1 ], item[ 2 ], item[ 3 ], item[ 4 ], item[ 5 ], item[ 6 ] start_ip = struct.pack( 'I' , struct.unpack( '!L' , socket.inet_aton(item[ 0 ]))[ 0 ]) end_ip = struct.pack( 'I' , struct.unpack( '!L' , socket.inet_aton(item[ 1 ]))[ 0 ]) region_item = '|' .join([item[ 2 ], item[ 3 ], item[ 4 ], item[ 5 ], item[ 6 ]]) region + = region_item ptr = struct.pack( 'I' , int ( bin ( len (region_item))[ 2 :].zfill( 8 ) + bin (pointer)[ 2 :].zfill( 24 ), 2 )) index + = start_ip + end_ip + ptr pointer + = len (region_item) index_start_ptr = pointer index_end_ptr = pointer + len (index) - 12 super_block = struct.pack( 'I' , index_start_ptr) + struct.pack( 'I' , index_end_ptr) n = 0 header_index = '' for index_block in range (pointer, index_end_ptr, 8184 ): header_index_block_ip = index[n * 8184 :n * 8184 + 4 ] header_index_block_ptr = index_block header_index + = header_index_block_ip + struct.pack( 'I' , header_index_block_ptr) n + = 1 header_index + = index[ len (index) - 12 : len (index) - 8 ] + struct.pack( 'I' , index_end_ptr) with open (IP_REGION_FILE, 'wb' ) as f: f.write(super_block) f.write(header_index) f.seek(SUPER_BLOCK_LENGTH + HEADER_INDEX_LENGTH, 0 ) f.write(region) f.write(index) if __name__ = = '__main__' : start_time = time.time() generate_db_file() print 'cost time: ' , time.time() - start_time |
使用 Redis 緩存
目前有兩種方式對(duì) IP 以及歸屬地信息進(jìn)行緩存:
第一種是將起始 IP,結(jié)束 IP 以及中間所有 IP 轉(zhuǎn)換成整型,然后以字符串方式,用轉(zhuǎn)換后的 IP 作為 key,歸屬地信息作為 value 存入 Redis;
第二種是采用有序集合和散列方式,首先將起始 IP 和結(jié)束 IP 添加到有序集合 ip2cityid,城市 ID 作為成員,轉(zhuǎn)換后的 IP 作為分值,然后再將城市 ID 和歸屬地信息添加到散列 cityid2city,城市 ID 作為 key,歸屬地信息作為 value。
第一種方式就不多做介紹了,簡(jiǎn)單粗暴,非常不推薦。查詢速度當(dāng)然很快,毫秒級(jí)別,但缺點(diǎn)也十分明顯,我用 1000 條數(shù)據(jù)做了測(cè)試,緩存時(shí)間長(zhǎng),大概 20 分鐘,占用空間大,將近 1G。
下面介紹第二種方式,直接看代碼:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
|
# generate_to_redis.py # -*- coding:utf-8 -*- import time import json from redis import Redis def ip_to_num(x): return sum ([ 256 * * j * int (i) for j, i in enumerate (x.split( '.' )[:: - 1 ])]) # 連接 Redis conn = Redis(host = '127.0.0.1' , port = 6379 , db = 10 ) start_time = time.time() # 文件格式 # 1.0.0.0|1.0.0.255|澳大利亞|0|0|0|0 # 1.0.1.0|1.0.3.255|中國(guó)|0|福建省|福州市|電信 with open ( './ip.merge.txt' , 'r' ) as f: i = 1 for line in f.readlines(): item = line.strip().split( '|' ) # 將起始 IP 和結(jié)束 IP 添加到有序集合 ip2cityid # 成員分別是城市 ID 和 ID + #, 分值是根據(jù) IP 計(jì)算的整數(shù)值 conn.zadd( 'ip2cityid' , str (i), ip_to_num(item[ 0 ]), str (i) + '#' , ip_to_num(item[ 1 ]) + 1 ) # 將城市信息添加到散列 cityid2city,key 是城市 ID,值是城市信息的 json 序列 conn.hset( 'cityid2city' , str (i), json.dumps([item[ 2 ], item[ 3 ], item[ 4 ], item[ 5 ]])) i + = 1 end_time = time.time() print 'start_time: ' + str (start_time) + ', end_time: ' + str (end_time) + ', cost time: ' + str (end_time - start_time) |
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
|
# test.py # -*- coding:utf-8 -*- import sys import time import json import socket import struct from redis import Redis # 連接 Redis conn = Redis(host = '127.0.0.1' , port = 6379 , db = 10 ) # 將 IP 轉(zhuǎn)換成整數(shù) ip = struct.unpack( "!L" , socket.inet_aton(sys.argv[ 1 ]))[ 0 ] start_time = time.time() # 將有序集合從大到小排序,取小于輸入 IP 值的第一條數(shù)據(jù) cityid = conn.zrevrangebyscore( 'ip2cityid' , ip, 0 , start = 0 , num = 1 ) # 如果返回 cityid 是空,或者匹配到了 # 號(hào),說(shuō)明沒(méi)有找到對(duì)應(yīng)地址段 if not cityid or cityid[ 0 ].endswith( '#' ): print 'no city info...' else : # 根據(jù)城市 ID 到散列表取出城市信息 ret = json.loads(conn.hget( 'cityid2city' , cityid[ 0 ])) print ret[ 0 ], ret[ 1 ], ret[ 2 ] end_time = time.time() print 'start_time: ' + str (start_time) + ', end_time: ' + str (end_time) + ', cost time: ' + str (end_time - start_time) |
1
2
|
# python generate_to_redis.py start_time: 1554300310.31 , end_time: 1554300425.65 , cost time: 115.333260059 |
1
2
3
|
# python test_2.py 1.0.16.0 日本 0 0 start_time: 1555081532.44 , end_time: 1555081532.45 , cost time: 0.000912189483643 |
測(cè)試數(shù)據(jù)大概 50 萬(wàn)條,緩存所用時(shí)間不到 2 分鐘,占用內(nèi)存 182M,查詢速度毫秒級(jí)別。顯而易見(jiàn),這種方式更值得嘗試。
zrevrangebyscore 方法的時(shí)間復(fù)雜度是 O(log(N)+M), N 為有序集的基數(shù), M 為結(jié)果集的基數(shù)。可見(jiàn)當(dāng) N 的值越大,查詢效率越慢,具體在多大的數(shù)據(jù)量還可以高效查詢,這個(gè)有待驗(yàn)證。不過(guò)這個(gè)問(wèn)題我覺(jué)得并不用擔(dān)心,遇到了再說(shuō)吧。
以上所述是小編給大家介紹的使用Redis有序集合實(shí)現(xiàn)IP歸屬地查詢?cè)斀庹希M麑?duì)大家有所幫助,如果大家有任何疑問(wèn)請(qǐng)給我留言,小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)服務(wù)器之家網(wǎng)站的支持!
原文鏈接:https://juejin.im/post/5cb4971fe51d456e660d4492