首页 > 其他分享> > Webmagic爬取网页内容时的“空格”变为“？”的问题

Webmagic爬取网页内容时的“空格”变为“？”的问题

2020-03-13 13:04:43 作者：互联网

一、问题如下

　　1、要爬取的新闻信息里出现“&ensp;”、“ ”等网页里的空白字符，爬取之后存入数据库时就变为“？”字样。

二、分析过程

　　1、使用Webmagic爬取内容后，出现了？的字样，尝试使用replace("？","")的方式将？替换为空字符串，但是调试之后并没有解决问题。

　　2、因此，内容中的？并不是平时的问号，而是由于编码问题导致的乱码。

　　问题所在：编码乱码

三、问题解决

　　1、对字符串进行处理

news_content=new String(news_content.getBytes(),"GBK").replace('?', ' ').replace(' ', ' ');

　　其中，replace(' ', ' ')这部分，前面的引号里是全角空格。

标签：content,replace,爬取,乱码,网页内容,news,Webmagic
来源： https://www.cnblogs.com/guobin-/p/12485804.html