哈希和散列来源于英文单词“hash”,前者是音译,后者是意译。哈希算法是一种能将任意长度的二进制值映射成固定长度二进制值的算法。映射后的固定长度二进制值称为哈希值。优秀的哈希算法应具备如下特质:
不可逆性:无法从哈希值反推导出原始数据;
敏感性:输入数据稍有变化,哈希值会产生显著差异;
低冲突率:哈希冲突的可能性较低;
高效性:即便原始数据较长,哈希算法仍能在短时间内计算出哈希值。
哈希算法的应用场景子标题:安全加密常见的哈希加密算法包括MD5和SHA。哈希值难以逆向解密,且冲突率低,使得哈希算法成为可靠的加密方式。然而,哈希算法无法完全避免冲突,只能尽量降低其可能性。
子标题:唯一标识校验两个文件是否相同时,不能仅依靠文件名称。通过从大文件中提取特定规则的二进制数据,运用哈希算法生成哈希值作为文件的唯一标识。这种方式既能保证效率,又能保证可靠性。
子标题:数据校验在P2P下载协议中,哈希算法用于检验文件完整性。预先对每个文件部分进行哈希计算并保存,下载完成后对比哈希值,以此验证文件是否完整。
子标题:负载均衡通过将客户端的IP或会话ID进行哈希计算,可以实现会话粘滞的负载均衡算法,即将同一客户端的所有请求均指向同一服务器。
子标题:数据分片面对海量数据,单台服务器无法承受,因此需要将数据均匀分配给多台服务器并行处理。通过对数据进行哈希计算,并用哈希值对服务器数量取模,可确定每条数据应分配的服务器。
子标题:分布式存储将海量数据存储在分布式缓存或分布式数据库中,采用类似数据分片的方式。然而,增减服务器可能引发问题,此时需借助一致性哈希算法解决问题。一致性哈希算法构建了一个哈希环,通过映射服务器IP和文件,使所有文件顺时针遇到的第一个服务器成为存放服务器。此方法避免全局雪崩的发生。