Go語言正則模塊


基本使用

import "bytes"
import "fmt"
import "regexp"
func main() {
//這個測試一個字符串是否符合一個表達式。
    match, _ := regexp.MatchString("p([a-z]+)ch", "peach")
    fmt.Println(match)
//上面我們是直接使用字符串,但是對於一些其他的正則任務,你需要使用 Compile 一個優化的 Regexp 結構體。
    r, _ := regexp.Compile("p([a-z]+)ch")
//這個結構體有很多方法。這里是類似我們前面看到的一個匹配測試。
    fmt.Println(r.MatchString("peach"))
//這是查找匹配字符串的。
    fmt.Println(r.FindString("peach punch"))
//這個也是查找第一次匹配的字符串的,但是返回的匹配開始和結束位置索引,而不是匹配的內容。
    fmt.Println(r.FindStringIndex("peach punch"))
//Submatch 返回完全匹配和局部匹配的字符串。例如,這里會返回 p([a-z]+)ch 和 `([a-z]+) 的信息。
    fmt.Println(r.FindStringSubmatch("peach punch"))
//類似的,這個會返回完全匹配和局部匹配的索引位置。
    fmt.Println(r.FindStringSubmatchIndex("peach punch"))
//帶 All 的這個函數返回所有的匹配項,而不僅僅是首次匹配項。例如查找匹配表達式的所有項。
    fmt.Println(r.FindAllString("peach punch pinch", -1)) // 后面的int都代表限制的匹配次數
//All 同樣可以對應到上面的所有函數。
    fmt.Println(r.FindAllStringSubmatchIndex(
        "peach punch pinch", -1))
//這個函數提供一個正整數來限制匹配次數。
    fmt.Println(r.FindAllString("peach punch pinch", 2))
//上面的例子中,我們使用了字符串作為參數,並使用了如 MatchString 這樣的方法。我們也可以提供 []byte參數並將 String 從函數命中去掉。
    fmt.Println(r.Match([]byte("peach")))
//創建正則表示式常量時,可以使用 Compile 的變體MustCompile 。因為 Compile 返回兩個值,不能用語常量。
    r = regexp.MustCompile("p([a-z]+)ch")
    fmt.Println(r)
//regexp 包也可以用來替換部分字符串為其他值。
    fmt.Println(r.ReplaceAllString("a peach", "<fruit>"))
//Func 變量允許傳遞匹配內容到一個給定的函數中,
    in := []byte("a peach")
    out := r.ReplaceAllFunc(in, bytes.ToUpper)
    fmt.Println(string(out))
}

 

配合http模塊基本爬蟲應用

import (
    "fmt"
    "net/http"
    "io/ioutil"
    "regexp"
)

func main(){
    url := "http://www.cnblogs.com/yxi-liu/p/8542863.html"
    resp, err := http.Get(url)  // 發送get請求
    if err != nil{    // 處理錯誤
        panic(err)
    }
    defer resp.Body.Close()   // 關閉接口

    shtml,_ := ioutil.ReadAll(resp.Body)   //拿到body

    reg := regexp.MustCompile(`<h1 id="title2">(.*)</h1>`)   // 進行正則編譯
    // 反引號用來創建原生的字符串字面量,這些字符串可能由多行組成(不支持任何轉義序列),所以通常用來寫正則字符串

    result := reg.FindAllStringSubmatch(string(shtml),-1) //匹配
    fmt.Println(result[0][1])   
     // 這里返回一個二維數組,[0][0]為匹配到的整個字符串 [0][1]為捕獲匹配結果()內的內容
}

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM