当前位置:首页 > PHP技巧:PHP对GB编码动态转UTF-8几种方法评测

PHP技巧:PHP对GB编码动态转UTF-8几种方法评测

点击次数:1731  更新日期:2011-01-04
\n

在《IP地址->地理位置转换的测评》一文中提到用ip2addr函数直接读取IP数据库文件是效率最高的,相比用MySQL数据库存储IP数据,用SQL查询是效率最低的。但是IP数据库文件QQWry.dat是GB2312编码的。现在我需要UTF-8编码的地理位置结果。如果用MySQL方法,可以在数据存入数据库时就转换为UTF-8编码,一劳永逸。但是QQWry.dat文件又无法修改,只能把ip2addr函数的输出结果再进行动态转换。

动态转换GB->UTF-8编码至少有四种方法:

用PHP的iconv扩展转换

用PHP的mb_string扩展转换

用对换表转换,对换表存储在MySQL数据库中

用对换表转换,对换表存储在文本文件中

前两种方法要服务器作了相应设置(编译安装了相应扩展)才能使用。我的虚拟主机没有这两个扩展,只好考虑后两种方法。前两个方法本文也不进行测评。

测评程序如下(func_ip.php参见《IP地址->地理位置转换的测评》一文):


\n

<?php
require_once (\\”func_ip.php\\”);
function u2utf8(c) {
str = \\”\\”;
if (c < 0×80) {
str .= c;
} elseif (c < 0×800) {
str .= chr(0xC0 | c >> 6);
str .= chr(0×80 | c & 0x3F);
} elseif (c < 0×10000) {
str .= chr(0xE0 | c >> 12);
str .= chr(0×80 | c >> 6 & 0x3F);
str .= chr(0×80 | c & 0x3F);
} elseif (c < 0×200000) {
str .= chr(0xF0 | c >> 18);
str .= chr(0×80 | c >> 12 & 0x3F);
str .= chr(0×80 | c >> 6 & 0x3F);
str .= chr(0×80 | c & 0x3F);
}
return str;
}
function GB2UTF8_SQL(strGB) {
if (!trim(strGB)) return strGB;
strRet = \\”\\”;
intLen = strlen(strGB);
for (i = 0; i < intLen; i++) {
if (ord(strGB{i}) > 127) {
strCurr = substr(strGB, i, 2);
intGB = hexdec(bin2hex(strCurr)) – 0×8080;
strSql = \\”SELECT code_unicode FROM nnstats_gb_unicode
WHERE code_gb = \\”.intGB.\\” LIMIT 1\\”
;
resResult = mysql_query(strSql);
if (arrCode = mysql_fetch_array(resResult)) strRet .= u2utf8(arrCode[\\"code_unicode\\"]);
else strRet .= \\”??\\”;
i++;
} else {
strRet .= strGB{i};
}
}
return strRet;
}
function GB2UTF8_FILE(strGB) {
if (!trim(strGB)) return strGB;
arrLines = file(\\”gb_unicode.txt\\”);
foreach (arrLines as strLine) {
arrCodeTable[hexdec(substr(strLine, 0, 6))] = hexdec(substr(strLine, 7, 6));
}
strRet = \\”\\”;
intLen = strlen(strGB);
for (i = 0; i < intLen; i++) {
if (ord(strGB{i}) > 127) {
strCurr = substr(strGB, i, 2);
intGB = hexdec(bin2hex(strCurr)) – 0×8080;
if (arrCodeTable[intGB]) strRet .= u2utf8(arrCodeTable[intGB]);
else strRet .= \\”??\\”;
i++;
} else {
strRet .= strGB{i};
}
}
return strRet;
}
function EncodeIp(strDotquadIp) {
arrIpSep = explode(\\’.\\’, strDotquadIp);
if (count(arrIpSep) != 4) return 0;
intIp = 0;
foreach (arrIpSep as k => v) intIp += (int)v * pow(256, 3 – k);
return intIp;
//return sprintf(\\’%02x%02x%02x%02x\\’, arrIpSep[0], arrIpSep[1], arrIpSep[2], arrIpSep[3]);
}
function GetMicroTime() {
list(msec, sec) = explode(\\” \\”, microtime());
return ((double)msec + (double)sec);
}
for (i = 0; i < 100; i++) { // 随机产生100个ip地址
strIp = mt_rand(0, 255).\\”.\\”.mt_rand(0, 255).\\”.\\”.mt_rand(0, 255).\\”.\\”.mt_rand(0, 255);
arrAddr[i] = ip2addr(EncodeIp(strIp));
}
resConn = mysql_connect(\\”localhost\\”, \\”netnest\\”, \\”netnest\\”);
mysql_select_db(\\”test\\”);
// 测评MySQL查询的编码转换
dblTimeStart = GetMicroTime();
for (i = 0; i < 100; i++) {
strUTF8Region = GB2UTF8_SQL(arrAddr[i][\\"region\\"]);
strUTF8Address = GB2UTF8_SQL(arrAddr[i][\\"address\\"]);
}
dblTimeDuration = GetMicroTime() – dblTimeStart;
// 测评结束并输出结果
echo dblTimeDuration; echo \\”\\r\\n\\”;
// 测评文本文件查询的编码转换
dblTimeStart = GetMicroTime();
for (i = 0; i < 100; i++) {
strUTF8Region = GB2UTF8_FILE(arrAddr[i][\\"region\\"]);
strUTF8Address = GB2UTF8_FILE(arrAddr[i][\\"address\\"]);
}
dblTimeDuration = GetMicroTime() – dblTimeStart;
// 测评结束并输出结果
echo dblTimeDuration; echo \\”\\r\\n\\”;
?>

\n