3种创新方式实现Android系统级权限安全共享
2026/5/7 11:08:41
资料:https://pan.quark.cn/s/43d906ddfa1b、https://pan.quark.cn/s/90ad8fba8347、https://pan.quark.cn/s/d9d72152d3cf
后缀数组(Suffix Array,简称 SA)是一种针对字符串的高效数据结构,它将字符串的所有后缀按字典序排序后,存储这些后缀的起始索引。
给定一个长度为n的字符串S = s₀s₁…sₙ₋₁,其第i个后缀为S[i:] = sᵢsᵢ₊₁…sₙ₋₁。后缀数组sa是一个长度为n的数组,满足sa[k] = i表示第k小的后缀是S[i:],且字典序满足S[sa[0]:] < S[sa[1]:] < … < S[sa[n-1]:]。
为了高效处理后缀相关问题,通常会搭配两个辅助数组:
rk:rk[i] = k表示后缀S[i:]在排序后的后缀数组中排名为k,与sa互为逆数组,即sa[rk[i]] = i且rk[sa[k]] = k。height:height[k]表示排名为k的后缀与排名为k-1的后缀的**最长公共前缀(LCP)**长度,即height[k] = LCP(S[sa[k]:], S[sa[k-1]:]),规定height[0] = 0。sa和rk可以快速查询后缀的排名,或排名对应的后缀起始索引。height数组可快速计算任意两个后缀的最长公共前缀长度:LCP(i,j) = min{height[rk[i]+1 ... rk[j]]}(假设rk[i] < rk[j])。构建后缀数组的核心是对所有后缀进行高效排序,直接排序的时间复杂度为O(n² log n)(比较两个后缀的时间为O(n)),对于长字符串效率极低。因此需要更优的算法,常用的有:
核心思想:通过倍增长度的方式,逐步确定每个后缀的排名,避免直接比较长后缀。
sa和rk。len = 2,4,8,…,将每个后缀的前len个字符拆分为前len/2字符和后len/2字符,以(rk[i], rk[i+len/2])为关键字进行排序,更新sa和rk。len ≥ n时,所有后缀的排名已确定。O(n log n),实现简单且效率较高,是工程中常用的方法。核心思想:基于基数排序的分治算法,将后缀分为三类进行排序,进一步优化时间复杂度。
O(n),但实现复杂,适合对时间要求极高的场景。defbuild_sa(s):n=len(s)sa=list(range(n))rk=[ord(c)forcins]# 初始排名为字符的ASCII码tmp=[0]*n# 临时数组,用于排序k=1# 倍增长度whilek<n:# 排序关键字:(rk[i], rk[i+k]),i+k超出范围则为-1defcmp(i):return(rk[i],rk[i+k]ifi+k<nelse-1)# 对sa数组按新关键字排序sa.sort(key=cmp)# 更新tmp数组为新的排名tmp[sa[0]]=0p=0# 排名计数器foriinrange(1,n):# 若当前后缀与前一个后缀的关键字不同,排名+1ifcmp(sa[i])!=cmp(sa[i-1]):p+=1tmp[sa[i]]=p# 更新rk数组rk[:]=tmp[:]k*=2# 倍增长度returnsa,rkdefbuild_height(s,sa,rk):n=len(s)height=[0]*n k=0# 公共前缀长度foriinrange(n):ifrk[i]==0:continueifk>0:k-=1j=sa[rk[i]-1]# 前一个排名的后缀起始索引# 扩展公共前缀长度whilei+k<nandj+k<nands[i+k]==s[j+k]:k+=1height[rk[i]]=kreturnheights="abracadabra"n=len(s)sa,rk=build_sa(s)height=build_height(s,sa,rk)print("字符串:",s)print("后缀数组 sa:",sa)print("排名数组 rk:",rk)print("高度数组 height:",height)# 输出解释:# sa[0] = 10 表示排名0的后缀是 s[10:] = "a"# rk[10] = 0 表示后缀 s[10:] 排名为0# height[1] 表示排名1的后缀与排名0的后缀的最长公共前缀长度O(n log n),其中排序的时间为O(n log n),倍增的次数为log n。O(n),利用公共前缀的传递性,避免重复比较。height数组,查询时间为O(1),预处理时间为O(n log n)。后缀数组是处理字符串问题的“万能工具”,常用于以下场景:
S中匹配模式串P,可将P与S的后缀数组中的后缀进行二分查找,时间复杂度O(|P| log |S|)。height数组的最大值。S和T,拼接为S + '#' + T后构建后缀数组,找到分别来自S和T的后缀的最大height值。n(n+1)/2 - sum(height[1...n-1])(总子串数减去重复子串数)。| 数据结构 | 核心优势 | 适用场景 | 时间复杂度(构建) |
|---|---|---|---|
| 后缀数组 | 处理 LCP 问题高效,功能全面 | 重复子串、公共子串、匹配 | O(n log n) |
| 字典树(Trie) | 前缀匹配高效 | 前缀查询、词频统计 | O(n) |
| 后缀自动机(SAM) | 空间效率极高,支持动态添加 | 海量字符串的子串问题 | O(n) |
后缀数组的优势在于直观易懂且功能全面,缺点是空间复杂度较高(需存储sa、rk、height三个数组),而后缀自动机在空间和时间上更优,但理解和实现难度更大。