其他分享
首页 > 其他分享> > 我误解了String#substring方法

我误解了String#substring方法

作者:互联网

我们一般使用substring进行字符串的截取操作,特别是模式匹配的时候,我们会获取匹配到的start和end,然后调用str.substring(start, end)截取[start, end)范围的子串。最近我在做关于敏感词过滤的业务,我想获取字符串中存在字典中的正向最长字符串匹配,然后进行脱敏处理,部分代码如下:

public CharSequence searchNextMatch(String sourceText, int start, int end) {
    TireTreeFindResult findResult = tireTree.find(sourceText, start, end);//获取匹配的结果,结果会包含匹配的起始下标和结束下标(exclude)
    return sourceText.substring(findResult.getMatchTextStart(), findResult.getMatchTextEnd());
}

我使用了String的substring方法返回字符串结果,这个其实没有太大问题。当时就看了一下substring的源码,发现他是通过substring方法先是拷贝了char数组,然后重新用该char数组创建了一个String对象,我一直认为substring会跟subList一样返回一个字符串视图,但是事实并非如此。所以产生了一些问题:这样子实现不会很慢吗?为什么Java api选择这样实现?

我去网上查了一下substring,果然找到了一点蛛丝马迹。substring在jdk7之前是通过视图实现的,但是到了jdk7,就修改成了创建字符数组副本的实现。很显然,新修改的是效率比较低的,但是这样修改是有一定考虑的。

我们如果通过爬虫获取到了一个页面的html源码htmlString,然后通过正则匹配和substring获取到满足匹配的一个List<String>List<String>里所有字符串指向的字符数组是htmlString.value,我们在获取到需要的信息后本应该是要丢弃htmlString的,让JVM回收掉,但是由于List<String>中所有元素都引用着htmlString.value,导致该字符串大对象无法被回收,这里就导致了内存泄漏。

有时候为了效率考虑,我们可以通过CharSequence自己实现一个视图类,代码如下:

/**
* 使用视图减少substring的开销
*/
private static class SubstringView implements CharSequence{
    private String sourceString;
    private int start;
    private int end;
    private int length;


    public SubstringView(String sourceString, int start, int end) {
        checkBounds(sourceString, start, end);
        this.sourceString = sourceString;
        this.start = start;
        this.end = end;
        this.length = end - start;
    }


    @Override
    public int length() {
        return this.length;
    }


    @Override
    public char charAt(int index) {
        if (start + index > end){
            throw new IndexOutOfBoundsException(String.valueOf(index));
        }
        return sourceString.charAt(start + index);
    }


    @Override
    public CharSequence subSequence(int start, int end) {
        return new SubstringView(sourceString, start, end);
    }


    private void checkBounds(String string, int start, int end){
        if (start > end){
            throw new IllegalArgumentException("start > end");
        }


        if (end > string.length()){
            throw new IllegalArgumentException("end is greater than source string length");
        }
    }
}

需要注意的是,String虽然提供CharSequence作为参数的api,但是内部可能只是调用了toString方法,而对于实现CharSequence的类,跟普通类一样toString默认实现为:全类名@hashCode

String str1 = "1234abc111";
String str2 = "abc";
CharSequence sequence = new SubstringView(str1, 4, 4 + 3);
System.out.println(str2.contains(sequence));

这个示例输出为false,原因就是contains内部的判断逻辑为:indexOf(s.toString()) > -1,调用了SubstringView#toString,toString我们是没有进行实现的。那我们怎么实现toString方法呢?要想实现toString方法只能调用String#substring方法,这就没有办法了。

参考:

  1. 这篇博文讲述得很详细,博主从数组复用安全性、旧新实现的对比角度进行分析,详见:https://www.cnblogs.com/antineutrino/p/4213268.html

  2. java.lang.String#substring源码

  3. java.lang.StringBuilder#substring源码

标签:end,String,int,误解,substring,start,CharSequence
来源: https://blog.csdn.net/lidelin10/article/details/102764626