http://blog.csdn.net/shootyou/article/details/44852639
Emoji表情字符現在在APP已經廣泛支持了。但是MySQL的UTF8編碼對Emoji字符的支持卻不是那么好。所以我們經常會遇到這樣的異常:
- Incorrect string value: '\xF0\x90\x8D\x83...' for column
原因是Mysql里UTF8編碼最多只能支持3個字節,而Emoji表情字符使用的UTF8編碼,很多都是4個字節,有些甚至是6個字節。
解決的方案有兩種:
1.使用utf8mb4的mysql編碼來容納這些字符。
2.過濾掉這些特殊的表情字符。
關於第一種解決方法,請參考:http://segmentfault.com/a/1190000000616820 和 http://info.michael-simons.eu/2013/01/21/Java-mysql-and-multi-byte-utf-8-support/
有大量細節需要注意,例如:mysql版本,mysql的配置,mysql connector的版本等等。。
因為我們使用的雲數據庫,所以我選擇了過濾這些特殊字符。其實過濾的方式很簡單,直接使用正則表達式匹配編碼范圍,然后替換就行了。
下面是我的代碼。
更多可以參考:http://stackoverflow.com/questions/27820971/why-a-surrogate-java-regexp-finds-hypen-minus
- import org.apache.commons.lang3.StringUtils;
- public class EmojiFilterUtils {
- /**
- * 將emoji表情替換成*
- *
- * @param source
- * @return 過濾后的字符串
- */
- public static String filterEmoji(String source) {
- if(StringUtils.isNotBlank(source)){
- return source.replaceAll("[\\ud800\\udc00-\\udbff\\udfff\\ud800-\\udfff]", "*");
- }else{
- return source;
- }
- }
- public static void main(String[] arg ){
- try{
- String text = "This is a smiley \uD83C\uDFA6 face\uD860\uDD5D \uD860\uDE07 \uD860\uDEE2 \uD863\uDCCA \uD863\uDCCD \uD863\uDCD2 \uD867\uDD98 ";
- System.out.println(text);
- System.out.println(text.length());
- System.out.println(text.replaceAll("[\\ud83c\\udc00-\\ud83c\\udfff]|[\\ud83d\\udc00-\\ud83d\\udfff]|[\\u2600-\\u27ff]", "*"));
- System.out.println(filterEmoji(text));
- }catch (Exception ex){
- ex.printStackTrace();
- }
- }
- }