golang 中獲取字符串個數
在 golang 中不能直接用 len 函數來統計字符串長度,查看了下源碼發現字符串是以 UTF-8 為格式存儲的,說明 len 函數是取得包含 byte 的個數
// string is the set of all strings of 8-bit bytes, conventionally but not
// necessarily representing UTF-8-encoded text. A string may be empty, but
// not nil. Values of string type are immutable.
舉個例子,”Hello, 世界“(因為,對比所以用了中文)
s := "Hello, 世界"
fmt.Println(len(s)) // 13
fmt.Println([]byte(s)) // [72 101 108 108 111 44 32 228 184 150 231 149 140]
既然是以 byte 存儲的,那自然就想到了取 byte 的長度
- bytes.Count()
- strings.Count()
- 將字符串轉換為 []runee 后調用 len 函數
- 使用 utf8.RuneCountInString()
package main
import (
"bytes"
"fmt"
"strings"
"testing"
"unicode/utf8"
)
/*
在 golang 中不能直接用 len 函數來統計字符串長度,查看了下源碼發現字符串是以 UTF-8 為格式存儲的,說明 len 函數是取得包含 byte 的個數
*/
func main() {
s := "hello, 世界"
fmt.Println(len(s)) // 13
fmt.Println([]byte(s)) // [72 101 108 108 111 44 32 228 184 150 231 149 140]
fmt.Print(f1(s))
}
func f1(s string) int {
return bytes.Count([]byte(s), nil) - 1
}
func f2(s string) int {
return strings.Count(s, "") - 1
}
func f3(s string) int {
return len([]rune(s))
}
func f4(s string) int {
return utf8.RuneCountInString(s)
}
var s = "Hello, 世界"
func Benchmark1(b *testing.B) {
for i := 0; i < b.N; i++ {
f1(s)
}
}
func Benchmark2(b *testing.B) {
for i := 0; i < b.N; i++ {
f2(s)
}
}
func Benchmark3(b *testing.B) {
for i := 0; i < b.N; i++ {
f3(s)
}
}
func Benchmark4(b *testing.B) {
for i := 0; i < b.N; i++ {
f4(s)
}
}
在 golang ldea配置中我沒有看到 benchamark配置,總說包不對,在命令行中輸入
go test stringCount_test.go -bench ".*"
得到以下結果
Benchmark1-12 100000000 17.7 ns/op
Benchmark2-12 100000000 14.0 ns/op
Benchmark3-12 100000000 14.5 ns/op
Benchmark4-12 100000000 13.1 ns/op
最快的是utf8.RuneCountInString()