Go на примерах: Строки и руны

Строка в Go — это неизменяемый слайс байтов. Язык и стандартная библиотека обрабатывают строки особым образом — как контейнеры текста в кодировке UTF-8. В других языках строки состоят из «символов». В Go понятие символа называется rune — это целое число, представляющее кодовую точку Unicode. Эта статья в блоге Go — хорошее введение в тему.

package main
import (
    "fmt"
    "unicode/utf8"
)
func main() {

s — это строка (string), которой присвоено литеральное значение, представляющее слово «привет» на тайском языке. Строковые литералы в Go кодируются в UTF-8.

    const s = "สวัสดี"

Поскольку строки эквивалентны []byte, эта операция вернёт длину хранящихся сырых байтов.

    fmt.Println("Len:", len(s))

Индексация строки возвращает сырые байтовые значения по каждому индексу. Этот цикл выводит шестнадцатеричные значения всех байтов, составляющих кодовые точки в s.

    for i := 0; i < len(s); i++ {
        fmt.Printf("%x ", s[i])
    }
    fmt.Println()

Чтобы подсчитать количество рун в строке, можно использовать пакет utf8. Обрати внимание, что время выполнения RuneCountInString зависит от размера строки, потому что функция должна декодировать каждую руну UTF-8 последовательно. Некоторые тайские символы представлены кодовыми точками UTF-8, занимающими несколько байтов, поэтому результат подсчёта может быть неожиданным.

    fmt.Println("Rune count:", utf8.RuneCountInString(s))

Цикл range обрабатывает строки особым образом и декодирует каждую rune вместе с её смещением в строке.

    for idx, runeValue := range s {
        fmt.Printf("%#U starts at %d\n", runeValue, idx)
    }

Того же результата можно достичь, явно используя функцию utf8.DecodeRuneInString.

    fmt.Println("\nUsing DecodeRuneInString")
    for i, w := 0, 0; i < len(s); i += w {
        runeValue, width := utf8.DecodeRuneInString(s[i:])
        fmt.Printf("%#U starts at %d\n", runeValue, i)
        w = width

Это демонстрирует передачу значения rune в функцию.

        examineRune(runeValue)
    }
}
func examineRune(r rune) {

Значения в одинарных кавычках — это руновые литералы. Мы можем напрямую сравнивать значение rune с руновым литералом.

    if r == 't' {
        fmt.Println("found tee")
    } else if r == 'ส' {
        fmt.Println("found so sua")
    }
}
$ go run strings-and-runes.go
Len: 18
e0 b8 aa e0 b8 a7 e0 b8 b1 e0 b8 aa e0 b8 94 e0 b8 b5 
Rune count: 6
U+0E2A 'ส' starts at 0
U+0E27 'ว' starts at 3
U+0E31 'ั' starts at 6
U+0E2A 'ส' starts at 9
U+0E14 'ด' starts at 12
U+0E35 'ี' starts at 15
Using DecodeRuneInString
U+0E2A 'ส' starts at 0
found so sua
U+0E27 'ว' starts at 3
U+0E31 'ั' starts at 6
U+0E2A 'ส' starts at 9
found so sua
U+0E14 'ด' starts at 12
U+0E35 'ี' starts at 15

Далее: .