前言:
此刻各位老铁们对“微博短域名生成算法”大致比较注重,大家都需要学习一些“微博短域名生成算法”的相关知识。那么小编也在网络上网罗了一些有关“微博短域名生成算法””的相关文章,希望我们能喜欢,小伙伴们快快来了解一下吧!短网址指在形式上比较短的网址。国内短网址用的比较重的产品属新浪微博(t.cn),随时随地可以在微博上看到开头的网址。短网址一般应用于对字数有限制的产品业务中。例如发送短信消息、发微博。短网址一方面可以让内容看起来精简美观。另一方面可以节省存储空间。借助短网址您可以用简短的网址替代原来冗长的网址,让使用者可以更容易地分享访问链接。
短网址整体算是个功能单一的平台化服务。产品需求包含生成短网址、短网址去重、管理平台。但技术难点不小包含高并发、热点网址、短网址重复率。下面是我总结的一些短网址生成算法和技术难点的解决方案。
1、crc32算法
function short_url_crc32($strUrl) { $strShortUrl = ""; //求字符串crc32数字 $intCrc32 = floatval(sprintf('%u', crc32($strUrl, '%u'))); //循环取余求ascii码 while($intCrc32) { $intfMod = fmod($intCrc32, 62); if ($intfMod >= 0 && $intfMod <= 9) { $intfMod = chr($intfMod + 48); } elseif ($intfMod >= 10 && $intfMod <= 35) { $intfMod = chr($intfMod + 55); } elseif ($intfMod >= 36 && $intfMod <= 62) { $intfMod = chr($intfMod + 61); } $strShortUrl .= $intfMod; $intCrc32 = floor($intCrc32 / 62); } return $strShortUrl;}$strUrl = ";;var_dump(short_url_crc32($strUrl));运行结果:string(5) "MajOz"
2、crc64算法
function crc64Table(){ $crc64tab = []; // ECMA polynomial $poly64rev = (0xC96C5795 << 32) | 0xD7870F42; // ISO polynomial // $poly64rev = (0xD8 << 56); for ($i = 0; $i < 256; $i++) { for ($part = $i, $bit = 0; $bit < 8; $bit++) { if ($part & 1) { $part = (($part >> 1) & ~(0x8 << 60)) ^ $poly64rev; } else { $part = ($part >> 1) & ~(0x8 << 60); } } $crc64tab[$i] = $part; } return $crc64tab;}/*** @param string $string* @param string $format* @return mixed** Formats:* crc64('php'); // afe4e823e7cef190* crc64('php', '0x%x'); // 0xafe4e823e7cef190* crc64('php', '0x%X'); // 0xAFE4E823E7CEF190* crc64('php', '%d'); // -5772233581471534704 signed int* crc64('php', '%u'); // 12674510492238016912 unsigned int*/function crc64($string, $format = '%x'){ static $crc64tab; if ($crc64tab === null) { $crc64tab = crc64Table(); } $crc = 0; for ($i = 0; $i < strlen($string); $i++) { $crc = $crc64tab[($crc ^ ord($string[$i])) & 0xff] ^ (($crc >> 8) & ~(0xff << 56)); } return sprintf($format, $crc);}function short_url_crc64($strUrl) { $strShortUrl = ""; //求字符串crc64数字 $intCrc64 = floatval(sprintf('%u', crc64($strUrl, '%u'))); //循环取余求ascii码 while($intCrc64) { $intfMod = fmod($intCrc64, 62); if ($intfMod >= 0 && $intfMod <= 9) { $intfMod = chr($intfMod + 48); } elseif ($intfMod >= 10 && $intfMod <= 35) { $intfMod = chr($intfMod + 55); } elseif ($intfMod >= 36 && $intfMod <= 62) { $intfMod = chr($intfMod + 61); } $strShortUrl .= $intfMod; $intCrc64 = floor($intCrc64 / 62); } return ((strlen($strShortUrl) > 6) ? substr($strShortUrl, -6) : $strShortUrl);}$strUrl = ";;var_dump(short_url_crc64($strUrl));运行结果:string(6) "vlm2UF"
3、Hash MD5算法
function short_url_hashmd5($strUrl) { $arrChars = array( 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', '0', '1', '2', '3', '4', '5', '7','8','9','A','B','C','D','E','F','G', 'H','I','J','K','L','M','N','O','P','Q', 'R','S','T','U','V','W','X','Y','Z' ); $arrShortUrl = array(); //求字符串md5 32字节值 $strMd5 = md5($strUrl); for ($i = 0; $i < 4; $i++) { $strShortUrl = ''; //每段8字节 $subHex = substr($strMd5, $i * 8, 8); //取8字节的前30位 $intHex = 0x3FFFFFFF & (1 * bin2hex('0x' . $subHex)); for ($j = 0; $j < 6; $j++) { //与0x0000003E进行位与运算,取得字符数组chars索引 $intIndex = 0x0000003E & $intHex; $strShortUrl .= $arrChars[$intIndex]; $intHex = $intHex >> 5; } $arrShortUrl[] = $strShortUrl; } $intRandIndex = array_rand($arrShortUrl, 1); return $arrShortUrl[$intRandIndex];}$strUrl = ";;var_dump(short_url_hashmd5($strUrl));运行结果:string(6) "aaVqLw"
4、自增id+openssl加密算法
function short_url_openssl($intUrlId) { $strEncodeUrl = openssl_encrypt($intUrlId, 'aes128', "2022", false, "1234567890123456"); return substr($strEncodeUrl, 0, 6);}$intUrlId = 112; var_dump(short_url_openssl($intUrlId));运行结果:string(6) "W7noUA"
5、随机字符串算法
function short_url_randchar() { $strChars = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789abcdefghijklmnopqrstuvwxyz"; $strRandChar = substr(str_shuffle($strChars), mt_rand(0, strlen($strChars) - 11), 6); return $strRandChar;}var_dump(short_url_randchar());运行结果:string(6) "OZYzkH"
6、数据效验(效验位)
function short_url_valid($strShortUrl) { $intSum = 0; $intLen = strlen($strShortUrl); for($i = 0; $i < $intLen; ++$i) { $intSum += ord($strShortUrl[$i]); } $strOdd = "X"; $intOdd = $intSum % 62; if ($intOdd >= 0 && $intOdd <= 9) { $strOdd = chr($intOdd + 48); } elseif ($intOdd >= 10 && $intOdd <= 35) { $strOdd = chr($intOdd + 55); } elseif ($intOdd >= 36 && $intOdd <= 62) { $strOdd = chr($intOdd + 61); } return $strOdd;}$strShortUrl = 'W7noUA';var_dump(short_url_valid($strShortUrl));运行结果:string(1) "H"
7、Nginx Rewrite配置
location ~ /[a-zA-Z0-9]+$ { root /home/work/shorturl; fastcgi_pass 127.0.0.1:9000; fastcgi_index shorturl.php; fastcgi_param SCRIPT_FILENAME $document_root/$fastcgi_script_name; include fastcgi_params; rewrite ^/([a-zA-Z0-9]+)$ /shorturl.php last;}
8、技术难点
高并发:
水平扩容Web服务器分布式Redis集群MySQL一主多从(写少读多)
热点网址
增加Web服务器的本地缓存+管理平台同步热点网址到Redis集群ALL服务器+管理平台
热点网址监控
Redis SortSet集合排序(短时间内访问量达到一定阈值的key才入Set)大数据实时数据监控(前端打点日志)。
9、总结
根据存储量和重复率分析5种生成算法个人推荐使用crc64算法。原因是扩展性强、重复率低。短网址增加数据效验位减少恶意流量的无效业务逻辑处理。Redis内存使用量根据产品前期需要计算清楚。
感谢大家的评论、点赞、分享。。。
标签: #微博短域名生成算法