Dotcpp  >  编程教程  >  字符串相关  >  解析字符串哈希(Hash)

解析字符串哈希(Hash)

点击打开在线编译器,边学边练

说到什么是字符串哈希(Hash)?很多人都会疑惑,我们可以这么理解,定义一个把字符串映射到整数的函数 f,这个 f 称为是Hash函数。而我们希望这个函数 f 可以方便地帮我们判断两个字符串是否相等。


(1)Hash 的思想

Hash 的核心思想在于,将输入映射到一个值域较小、可以方便比较的范围


(2)使用场景

当一个字符串规模很大,并且需要多次访问该字符串或者子串的时候,我们可以用哈希函数对每个字符串进行哈希,分别映射到不同的数字中去,即一个整数哈希值,然后我们可以根据哈希值找到需要的字符串。


(3)什么是哈希函数?

哈希函数是哈希的关键,首先理论上任何一个函数都能做哈希函数,但是在字符串哈希中,为了避免冲突采用了一种进制哈希的方式(BKDRHash)。

原理:设定一个进制P,需要计算一个字符串的哈希值时,把每个字符看成每个进制位上的一个数字,这个串转化成了一个基于进制 P 的数,最后对 M 取余数,就得到了这个字符串的哈希值。为简化计算可以取空间大小为 M=264是 unsigned long long 的长度,一个 unsigned long long 型的哈希值 H,当 H 值大于 M 时会自动溢出,等价于自动对 M 取余,这样能避免低效的取余运算。

进制 PPP 常用的值有31、131、1313、13131、131313等,用这些数值能有效避免碰撞。

例如计算只用小写字母组成的字符串的哈希值,以 “abcabcabc”为例,令进制 P=131:

直接把每个字符的 ASCII 码看成代表它的数字,计算得:‘a’ * 131 ^2 + ‘b’ * 131 ^ 1 + ‘c’ * 131 ^ 0 = 1677554。


(4)如何实现求任意区间的哈希值

一般的我们对一个字符串的全部前缀进行哈希值的计算,这样我们就可以知道这个字符串任意连续子串的哈希值了。假设哈希前缀的值已经求出,我们现在求区间【i ~ j】的哈希值就是 区间【0 ~ j】的哈希值 – 区间【0 ~ i】的哈希值 * p^ j – i + 1;


(5)计算字符串前缀的哈希值

利用前缀和公式即可

//h【i】的意义就是求区间【0~i】的字符串的哈希值
//we【i】 是记录第i位字符的权值
for(int i = 1;i<=n;i++){
		h[i] = h[i - 1] * p + str[i];
		we[i] = we[i-1] * p;
	}

(6)字符串哈希代码模板

typedef unsigned long long ULL;
ULL h[N], p[N]; 

// 初始化
p[0] = 1;
for (int i = 1; i <= n; i ++ )
{
    h[i] = h[i - 1] * P + str[i];
    p[i] = p[i - 1] * P;
}

// 计算子串 str[l ~ r] 的哈希值
ULL get(int l, int r)
{
    return h[r] - h[l - 1] * p[r - l + 1];
}
```cpp



知识点标签:字符串


本文固定URL:https://www.dotcpp.com/course/964

C语言网提供由在职研发工程师或ACM蓝桥杯竞赛优秀选手录制的视频教程,并配有习题和答疑,点击了解:

一点编程也不会写的:零基础C语言学练课程

解决困扰你多年的C语言疑难杂症特性的C语言进阶课程

从零到写出一个爬虫的Python编程课程

只会语法写不出代码?手把手带你写100个编程真题的编程百练课程

信息学奥赛或C++选手的 必学C++课程

蓝桥杯ACM、信息学奥赛的必学课程:算法竞赛课入门课程

手把手讲解近五年真题的蓝桥杯辅导课程

算法竞赛教程
第一章 算法基础
第二章 搜索算法
第三章 排序算法
第四章 字符串相关
第五章 数学相关
第六章 动态规划
第七章 数据结构
第八章 图论
第九章 计算几何
第十章 其他算法
Dotcpp在线编译      (登录可减少运行等待时间)