我误解了String#substring方法
作者:互联网
我们一般使用substring进行字符串的截取操作,特别是模式匹配的时候,我们会获取匹配到的start和end,然后调用str.substring(start, end)
截取[start, end)范围的子串。最近我在做关于敏感词过滤的业务,我想获取字符串中存在字典中的正向最长字符串匹配,然后进行脱敏处理,部分代码如下:
public CharSequence searchNextMatch(String sourceText, int start, int end) {
TireTreeFindResult findResult = tireTree.find(sourceText, start, end);//获取匹配的结果,结果会包含匹配的起始下标和结束下标(exclude)
return sourceText.substring(findResult.getMatchTextStart(), findResult.getMatchTextEnd());
}
我使用了String的substring方法返回字符串结果,这个其实没有太大问题。当时就看了一下substring的源码,发现他是通过substring方法先是拷贝了char数组,然后重新用该char数组创建了一个String对象,我一直认为substring会跟subList一样返回一个字符串视图,但是事实并非如此。所以产生了一些问题:这样子实现不会很慢吗?为什么Java api选择这样实现?
我去网上查了一下substring,果然找到了一点蛛丝马迹。substring在jdk7之前是通过视图实现的,但是到了jdk7,就修改成了创建字符数组副本的实现。很显然,新修改的是效率比较低的,但是这样修改是有一定考虑的。
我们如果通过爬虫获取到了一个页面的html源码htmlString,然后通过正则匹配和substring获取到满足匹配的一个List<String>
,List<String>
里所有字符串指向的字符数组是htmlString.value
,我们在获取到需要的信息后本应该是要丢弃htmlString
的,让JVM回收掉,但是由于List<String>
中所有元素都引用着htmlString.value
,导致该字符串大对象无法被回收,这里就导致了内存泄漏。
有时候为了效率考虑,我们可以通过CharSequence自己实现一个视图类,代码如下:
/**
* 使用视图减少substring的开销
*/
private static class SubstringView implements CharSequence{
private String sourceString;
private int start;
private int end;
private int length;
public SubstringView(String sourceString, int start, int end) {
checkBounds(sourceString, start, end);
this.sourceString = sourceString;
this.start = start;
this.end = end;
this.length = end - start;
}
@Override
public int length() {
return this.length;
}
@Override
public char charAt(int index) {
if (start + index > end){
throw new IndexOutOfBoundsException(String.valueOf(index));
}
return sourceString.charAt(start + index);
}
@Override
public CharSequence subSequence(int start, int end) {
return new SubstringView(sourceString, start, end);
}
private void checkBounds(String string, int start, int end){
if (start > end){
throw new IllegalArgumentException("start > end");
}
if (end > string.length()){
throw new IllegalArgumentException("end is greater than source string length");
}
}
}
需要注意的是,String虽然提供CharSequence作为参数的api,但是内部可能只是调用了toString方法,而对于实现CharSequence的类,跟普通类一样toString默认实现为:全类名@hashCode
String str1 = "1234abc111";
String str2 = "abc";
CharSequence sequence = new SubstringView(str1, 4, 4 + 3);
System.out.println(str2.contains(sequence));
这个示例输出为false,原因就是contains内部的判断逻辑为:indexOf(s.toString()) > -1
,调用了SubstringView#toString
,toString我们是没有进行实现的。那我们怎么实现toString方法呢?要想实现toString方法只能调用String#substring
方法,这就没有办法了。
参考:
-
这篇博文讲述得很详细,博主从数组复用安全性、旧新实现的对比角度进行分析,详见:https://www.cnblogs.com/antineutrino/p/4213268.html
-
java.lang.String#substring
源码 -
java.lang.StringBuilder#substring
源码
标签:end,String,int,误解,substring,start,CharSequence 来源: https://blog.csdn.net/lidelin10/article/details/102764626