正文

(原创)按字节截取含有中文汉字的字符串2008-07-21 00:32:00

【评论】 【打印】 【字体: 】 本文链接:http://blog.pfan.cn/billgacsli/36969.html

分享到:

  Java中1个char类型的变量可存储任意编码的1个字符,如1个ASC码和或1个中文字符,例如:含有3个ASC和含有3个汉字字符的字符串长度是一样的:     "1ac".length()==3;     "你好a".length()=3; 但上述两个字符串所占的byte是不一样的,前者是3,后者是5(1个汉字2byte)。 请编写函数:     public static String leftStr(String source, int maxByteLen)   从source中取最大maxByteLen个byte的子串。当最后一个byte恰好为一个汉字的前半个字节时,舍弃此byte。例如:      String str="我LRW爱JAVA";     leftStr(str,1)=="";     leftStr(str,2)=="我";     leftStr(str,4)=="我LR";     leftStr(str,11)=="我LRW";或者,当最后一个byte恰好为一个汉字的前半个字节时,补全汉字(多截取一个byte)。例如:      String str="我LRW爱JAVA";     leftStr(str,1)=="我";     leftStr(str,2)=="我";     leftStr(str,4)=="我LR";     leftStr(str,11)=="我LRW爱";   一种做法是依次判断每一个字符是否为中文。(参考http://zangweiren.javaeye.com/blog/216005中的四)   在此考虑另一种解决办法。因为汉字只涉及到最后一个字节,当最后一个字节是汉字的前半个字节时需要特殊处理,所以就围绕“怎么判断最后一个字节是汉字的前半个字节”进行考虑。单独来讲,是无法判定一个字节到底是不是一个汉字的前半个字节,但可以判断出是否是字串中某个汉字的前半个字节。汉字为:“\u4e00-\u9fa5”(未考证)   解决办法就是:将截取的最后一个字节与紧跟在后面的一个字节进行组合(考虑后面已经没字节的情况),判断组合出来的一个字符是否包含在原字符串中:如果包含,则说明是前半个汉字;如果不包含,则说明不是前半个汉字。(应该也无法区分汉字、韩文、日文)。   以“我LRW爱JAVA”为例。其getBytes()(使用默认的字符集)得到的二进制码为:CED2 4C 52 57 B0AE 4A 41 56 41。  截取前1个字节时,为“CE”,那么就判断“CED2”是否是前半个汉字,用“CED2”构造一个字符出来(亦使用默认字符集),判断构造出来的字符是否包含在原字串中。发现构造出来的字符是“我”,显然包含在原字串中,所以是前半个汉字。  截取前2个字节时,为“CED2”(就是“我”字),那么就判断“D2”是否是前半个汉字,用“D24C”构造一个字符出来(亦使用默认字符集),发现构造出来的字符是“襆”,显然不包含在原字串中,所以不是前半个汉字。   判断出来了最后一个字节是否为前半个汉字后就很容易处理了,一种是舍弃最后一个字节,一种是加多一个字节,以便保证汉字的完整。   所有过程均采用默认字符集,绕过了不同字符集编码不同的影响。 完整源码如下:    /**     * Java中1个char类型的变量可存储任意编码的1个字符,如1个ASC码和或1个中文字符,     * 例如:含有3个ASC和含有3个汉字字符的字符串长度是一样的: "1ac".length()==3;  "你好a".length()=3;     * 但上述两个字符串所占的byte是不一样的,前者是3,后者是5(1个汉字2byte)。     * 请编写函数:     *     public static String leftStr(String source, int maxByteLen)     * 从source中取最大maxByteLen个byte的子串。     * 当最后一个byte恰好为一个汉字的前半个字节时,舍弃此byte。例如:     *     String str="我LRW爱JAVA";     *     leftStr(str,1,-1)=="";     *     leftStr(str,2,-1)=="我";     *     leftStr(str,4,-1)=="我LR";     *     leftStr(str,11,-1)=="我LRW";     * 当最后一个byte恰好为一个汉字的前半个字节时,补全汉字(多取一个字节)。例如:     *     String str="我LRW爱JAVA";     *     leftStr(str,1,1)=="我";     *     leftStr(str,2,1)=="我";     *     leftStr(str,4,1)=="我LR";     *     leftStr(str,11,1)=="我LRW爱";     *     * @param source 原始字符串     * @param maxByteLen 截取的字节数     * @param flag 表示处理汉字的方式。1表示遇到半个汉字时补全,-1表示遇到半个汉字时舍弃     * @return 截取后的字符串     */    public static String leftStr(String source, int maxByteLen, int flag){        if(source == null || maxByteLen <= 0){            return "";        }        byte[] bStr = source.getBytes();        if(maxByteLen >= bStr.length)return source;        String cStr = new String(bStr, maxByteLen - 1, 2);        if(cStr.length() == 1 && source.contains(cStr)){            maxByteLen += flag;        }        return new String(bStr, 0, maxByteLen);    }

阅读(7817) | 评论(1)


版权声明:编程爱好者网站为此博客服务提供商,如本文牵涉到版权问题,编程爱好者网站不承担相关责任,如有版权问题请直接与本文作者联系解决。谢谢!

评论

loading...
您需要登录后才能评论,请 登录 或者 注册