UTF-8編碼中的特殊空格之C2 A0 -> NO-BREAK SPACE


異常數據追蹤

最近發現數據庫中的一個字段值數據異常的問題,業務場景中不允許這個字符串字段中出現空格,但是發現有部分數據依然有'空格',反復驗證過之后發現自己寫的代碼的的確確會把空格trim掉,反復調試后發現代碼沒有問題,但是什么情況使得這些數據逃過了業務代碼的校驗?

准備破案

難道我肉眼看到的'空格',不是我們平常見到或者理解的'空格'?

帶着這個疑問,我搜索了一下相關的問題,發現果不其然,很多人都遇到了C2 A0這個不可見字符,那么這個字符到底是什么呢?

打開UTF-8的編碼表,https://www.utf8-chartable.de/unicode-utf8-table.pl?utf8=dec 找到對應的字符

首先明確C2 A0代表的編碼序號是多少,很顯然我們只需要將這個十六進制轉為十進制,即C2=194 A0=160,這個在編碼表中對應的是

U+00A0   194 160 NO-BREAK SPACE

而我們一般意義上將的空格的編碼是32

U+0020   32 SPACE

那們我們通過代碼來模擬一下上面兩個字符

普通的空格 Unicode code point為U+0020即32

C2 A0空格 Unicode code point為U+00A0即160

找到原因之后,我們想辦法把這種C2 A0空格給去除掉

源代碼見下 

package com.lingyejun.dating.chap11;

import java.nio.charset.StandardCharsets;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class SpecialSpace {

    public static void main(String[] args) {
        String str1 = "lingyejun ";
        byte[] str1Bytes = str1.getBytes();
        String space = new String(str1Bytes, StandardCharsets.UTF_8);
        System.out.println("帶有32 Space的字符串:" + space);
        System.out.println("使用trim去掉32 -> Space:" + space.trim());

        byte[] str2Bytes = new byte[11];
        System.arraycopy(str1Bytes, 0, str2Bytes, 0, str1Bytes.length);
        str2Bytes[9] = (byte) 0xC2;
        str2Bytes[10] = (byte) 0xA0;
        String noBreakSpace = new String(str2Bytes, StandardCharsets.UTF_8);
        System.out.println("帶有C2 A0 -> NO-BREAK SPACE的字符串:" + noBreakSpace);
        System.out.println("使用trim無法去掉C2 A0 -> NO-BREAK SPACE:" + noBreakSpace.trim());

        // 32為我們平常談論的Space空格 -> SPACE
        byte[] bytes1 = new byte[]{(byte) 0x20};
        String space1 = new String(bytes1, StandardCharsets.UTF_8);
        System.out.println("UTF-8 字符編碼號32 -> 0x1F 輸出:" + space1);

        // 0xC2=194 0xA0=160  -> NO-BREAK SPACE
        byte[] bytes2 = new byte[]{(byte) 0xC2, (byte) 0xA0};
        String space2 = new String(bytes2, StandardCharsets.UTF_8);
        char[] chars3 = space2.toCharArray();
        System.out.println("UTF-8 字符編碼號194 -> 0xC2 160 -> 0xA0 輸出:" + space2);

        byte[] bytes3 = new byte[]{(byte) 0xC2, (byte) 0xA0};
        String c2a0Space = new String(bytes3, StandardCharsets.UTF_8);
        Pattern p = Pattern.compile(c2a0Space);
        Matcher m = null;
        m = p.matcher(noBreakSpace);
        noBreakSpace = m.replaceAll("");
        System.out.println("使用正則去掉C2 A0 -> NO-BREAK SPACE:" + noBreakSpace);
    }
}

  

如果對您有幫助,請不要忘了給翎野君點贊。  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM