首页 > 编程语言> > C#读取超大文本文件

C#读取超大文本文件

2019-07-29 18:36:55 作者：互联网

本文转载连接： https://blog.csdn.net/v6543210/article/details/88825466

现有一个超大TXT文件，内部以\t分格，每行244个值，一共250万行，大小1.9G，第一行是列名，现在要将每一行的数据读出来进行处理，如果一次性读进内存肯定是不行的。

读第一行：

读后续行：

遍历方法

使用感受

参考：

读第一行：

string headerLine = File.ReadLines(path).FirstOrDefault(); // Read the first row for headings
读后续行：
_filePath是文件路径

_currentLine是读过的行数

limit指定的是一次读多少行

_encoding指定编码为GBK或UTF-8

static private System.Text.Encoding _encoding = Encoding.GetEncoding("gb2312");//Encoding.UTF8; //Encoding.ASCII;

public static IEnumerable<string> readMultiLines(int limit = 100)
{
try
{
var lines = File.ReadLines(_filePath, _encoding).Skip(_currentLine).Take(limit);
_currentLine += limit;
return lines;
}
catch(Exception ){
return null;
}
}
遍历方法
ReadLines返回的是一个IEnumerable<string> 类型，可以用iter进行遍历。

iter.Current直接获取每一行的字符串，不可以用iter.toString()，会很费时间。

var lines = File.ReadLines(_filePath, _encoding).Skip(_currentLine).Take(bigStep);
var iter = lines.GetEnumerator();
int size = lines.Count<string>();

while (iter.MoveNext())
{
string dataStr = iter.Current;
fun(dataStr);

}
使用感受
每次读500行，在读取前100万行时感觉还非常快，但在后面感觉还是有一点的延时。不过应该满足需求了。

参考：
1.https://github.com/Agenty/FileReader/blob/master/FileReader/Core/Extension.cs

2.https://blog.csdn.net/callmeback/article/details/8295648

3.https://stackoverflow.com/questions/21136753/read-a-very-large-file-by-chunks-and-not-line-by-line
---------------------
作者：阿龙哥哥
来源：CSDN
原文：https://blog.csdn.net/v6543210/article/details/88825466
版权声明：本文为博主原创文章，转载请附上博文链接！

标签：读取,currentLine,Encoding,C#,encoding,lines,iter,文本文件,https
来源： https://blog.csdn.net/newbie_xymt/article/details/97664749