C#读取超大文本文件
作者:互联网
现有一个超大TXT文件,内部以\t分格,每行244个值,一共250万行,大小1.9G,第一行是列名,现在要将每一行的数据读出来进行处理,如果一次性读进内存肯定是不行的。
目录
读第一行:
string headerLine = File.ReadLines(path).FirstOrDefault(); // Read the first row for headings
读后续行:
_filePath是文件路径
_currentLine是读过的行数
limit指定的是一次读多少行
_encoding指定编码为GBK或UTF-8
static private System.Text.Encoding _encoding = Encoding.GetEncoding("gb2312");//Encoding.UTF8; //Encoding.ASCII;
public static IEnumerable<string> readMultiLines(int limit = 100)
{
try
{
var lines = File.ReadLines(_filePath, _encoding).Skip(_currentLine).Take(limit);
_currentLine += limit;
return lines;
}
catch(Exception ){
return null;
}
}
遍历方法
ReadLines返回的是一个IEnumerable<string> 类型,可以用iter进行遍历。
iter.Current直接获取每一行的字符串,不可以用iter.toString(),会很费时间。
var lines = File.ReadLines(_filePath, _encoding).Skip(_currentLine).Take(bigStep);
var iter = lines.GetEnumerator();
int size = lines.Count<string>();
while (iter.MoveNext())
{
string dataStr = iter.Current;
fun(dataStr);
}
使用感受
每次读500行,在读取前100万行时感觉还非常快,但在后面感觉还是有一点的延时。不过应该满足需求了。
参考:
1.https://github.com/Agenty/FileReader/blob/master/FileReader/Core/Extension.cs
2.https://blog.csdn.net/callmeback/article/details/8295648
3.https://stackoverflow.com/questions/21136753/read-a-very-large-file-by-chunks-and-not-line-by-line
标签:读取,currentLine,Encoding,C#,ReadLines,encoding,lines,iter,文本文件 来源: https://blog.csdn.net/v6543210/article/details/88825466