【学到一个新名词】String interning(字符串驻留/字符串内部化) - 服务器托管|北京服务器租用|机房托管租用|IDC托管租用|机房机柜带宽租用-价格及费用咨询

作者:张富春(ahfuzhang)，转载时请注明作者和引用链接，谢谢！

cnblogs博客
zhihu
Github
公众号:一本正经的瞎扯

在阅读 VictoriaMetrics v1.95.1 的命令行手册的时候，发现这样一段：

  -internStringCacheExpireDuration duration
     The expiry duration for caches for interned strings. See https://en.wikipedia.org/wiki/String_interning . See also -internStringMaxLen and -internStringDisableCache (default 6m0s)

什么是 String interning 呢？我通过了 wiki 链接学习了一下。
并且，我还找到了一个使用 String interning 技术的 golang 项目：https://github.com/josharian/intern . 作者还写了 blog: Interning strings in Go 来进一步介绍细节。

String interning 可以翻译为 字符串驻留 或者 字符串内部化。这个技巧用于节约频繁出现的字符串的空间占用，还可以用于频繁出现的字符串的比较的加速。
它的处理思路如下：

首先有一个全局的线程安全的键值对的字符串池；

类似于： map[string]string

然后把出现频率超级高的字符串存储在其中。

服务器托管网

当出现新的字符串的时候，要先去字符串池中匹配。
匹配到以后，程序就可以引用字符串池中的对象，而把当前引用的对象释放掉。
当存在大量的这样内容相同的字符串的时候，这样做无疑是可以节省空间的。
在这样的场景下，相当于时间换空间。
当字符串都来自字符串池，且需要频繁比较的时候，直接比较指针就可以确定是否是同一个字符串，而无需逐个字符比较。
在这样的场景下，相当于空间换时间。

让我们再看看那个简单的 golang 实现的字符串内部化的源码：
see: https://github.com/josharian/intern/blob/master/intern.go

package intern

import "sync"

var (
	pool sync.Pool = sync.Pool{   // 作者想用 sync.Pool 来解决不引用时候的释放问题。但是并发环境下可能导致分配了多个键值对的字符串池。
		New: func() interface{} {    // sync.Pool 能够在并发环境下工作，不管怎么说，并发情况下使用不会出错。
			return make(map[string]string)
		},
	}
)

// String returns s, interned.
func String(s string) string {
	m := pool.Get().(map[string]string)
	c, ok := m[s]  // 这里要经过  1.计算字符串 hashcode; 2.hash 查找; 3.字符串内容比较。时间换空间的成本还是挺高的。
	if ok {
		pool.Put(m)
		return c  // 如果字符串池中存在，就置换为字符串池中的对象
	}
	m[s] = s  // 这里不会发生并发问题
	pool.Put(m)
	return s
}

// Bytes returns b converted to a string, interned.
func Bytes(b []byte) string {
	m := pool.Get().(map[string]string)
	c, ok := m[string(b)]  // string(b) 这里有个隐含的知识点：这种情况下编译器不会分配新的字符串对象。
	if ok {
		pool.Put(m)
		return c
	}
	s := string(b)
	m[s] = s
	pool.Put(m)
	return s
}

// todo: 这里还缺乏一个内容：当字符串都来自字符串池的时候，可以提供按照指针比较的方法
// 类似于:
//  isSmae := &str1==&str2 || str1==str2

看完了源码，这个字符串内部化似乎也没有很复杂很高深。或许某个存在大量重复字符串的场景中，我们很能用上这个技术。

最后，ChatGPT 还给了我一段 VictoriaMetrics 中使用 String interning 技术的讲解：

// 以下内容由  ChatGPT 4.0 产生：
VictoriaMetrics采用了字符串内部化技术来优化其时间序列数据库的性能，尤其在处理度量指标的元数据时。这些元数据通常由标签-值对组成，并且在VictoriaMetrics中以字符串的形式表示。下面是VictoriaMetrics中字符串内部化实现的详细信息：

1. 字符串内部化的目的和效果：在VictoriaMetrics中，由于元数据字符串在实践中变化不大，因此在数据收集过程中会产生大量重复。例如，`go_info` 度量指标的元数据包含Go版本的标签-值对。这些版本并不经常变化，但每次从应用程序中收集此度量时，都需要解析其元数据并在内存中分配，直到它被垃圾回收。为了避免多次存储相同的字符串，VictoriaMetrics通过内部化每个独特字符串一次，并在需要时引用它，从而显著节省内存。服务器托管网

2. 实现方法：在单线程应用中，字符串内部化的一种简单实现方式是使用Go的map类型。但在vmagent这样的多线程应用中，这种方法由于多核系统上访问此映射时可能产生大量争用，因此不太适合。为了在多线程环境下实现内部化，VictoriaMetrics使用了Go标准库中的sync.Map，这是一个线程安全的实现。

3. sync.Map的优化用途：sync.Map特别适用于以下两种情况：
  * 当一个给定的键只被写入一次但多次使用时，即缓存命中率高的情况。
  * 当多个goroutine为不同的键集合读取、写入和覆盖条目时，即每个goroutine使用不同的键集。

4. 内部化的注意事项：
  * 内存增长问题：随着时间的推移，map会逐渐增长，无限制的内存增长是危险的。为了防止map无限增长，需要定期旋转map，通过删除并重建它，或为键实现某种形式的生存时间（TTL）逻辑。
  * 参数检查：intern函数在处理常规字符串时表现良好，但除非锁定接口，否则可能会有人尝试传递可能破坏函数的内容。例如，在Go中，字节切片是可变的，不适合作为映射中的键使用。

5. 内部化的通用建议：在实现字符串内部化时，克隆传递给函数的字符串是一个好主意。这可以帮助消除一些微妙的错误。VictoriaMetrics使用字符串内部化来减少解析度量元数据时的内存使用。这是一种对于读取密集型工作负载效果最佳的强大技术，尤其适用于潜在字符串变体较少的情况。

总的来说，VictoriaMetrics通过字符串内部化有效地优化了内存使用和性能，特别是在处理大量重复且不经常变化的度量元数据时。这一技术不仅提高了性能，还降低了对垃圾收集器的负担，是处理大规模时间序列数据的有效方法。

Have fun.

服务器托管，北京服务器托管，服务器租用 http://www.fwqtg.net
机房租用，北京机房租用，IDC机房托管， http://www.fwqtg.net

相关推荐: 如何利用亚马逊云科技和大型语言模型构建智能化的企业业务知识库

作者 | 摘要在数字化时代，企业需要应对庞大而复杂的信息流，因此有效管理和利用企业内部知识是提高业务竞争力的关键。本文介绍了如何借助亚马逊云科技云计算平台和先进的大型语言模型来构建高度智能化的企业业务知识库，以提供更快速、精准的知识获取和决策支持。我们以 C…

服务器托管，北京服务器托管，服务器租用，机房机柜带宽租用