提问者:小点点

`系统。Xml。Linq`消耗大量内存


似乎是系统。Xml。Linq正在消耗大量内存,即使在应该释放任何资源之后也是如此。简单的演示

await using ( System.IO.FileStream stream = new ( xmlFilePath, System.IO.FileMode.Open) ) {
    using ( System.Xml.XmlReader reader = System.Xml.XmlReader.Create( stream, new () { ConformanceLevel = System.Xml.ConformanceLevel.Fragment, Async = true } ) ) {
        int i = 0;
        while ( await reader.ReadAsync().ConfigureAwait( false ) ) {
            while ( reader.NodeType != System.Xml.XmlNodeType.None ) {
                if ( reader.NodeType == System.Xml.XmlNodeType.XmlDeclaration ) {
                    await reader.SkipAsync().ConfigureAwait( false );
                    continue;
                }
                if ( ct.IsCancellationRequested ) {
                    continue;
                }
                i++;
                if ( i % 100000 == 0 ) {
                    Console.WriteLine( $"Processed {i}: {reader.ReadString()}" );
                }
                System.Xml.Linq.XNode node = await System.Xml.Linq.XNode.ReadFromAsync( reader, ct ).ConfigureAwait( false );

            }
        }
    }
}
Console.WriteLine( $"\n---->Memory Use/false: {GC.GetTotalMemory(false):N0}");
Console.WriteLine( $"---->Memory Use      : {GC.GetTotalMemory(true):N0}\n");
return;

产出:

---->Memory Use/false: 402,639,448
---->Memory Use      : 400,967,152

如果替换XNode部分,

                        string xmlFilePath = "/home/eric/dev/src/github.com/erichiller/mkmrk-dotnet/src/Cli/dataset/cme/definition/2021/11/2021-11-05/20211104.061134-05_20211104.030927-05_cmeg.nymex.fut.prf.xml";
                        
await using ( System.IO.FileStream stream = new ( xmlFilePath, System.IO.FileMode.Open) ) {
    using ( System.Xml.XmlReader reader = System.Xml.XmlReader.Create( stream, new () { ConformanceLevel = System.Xml.ConformanceLevel.Fragment, Async = true } ) ) {
        int i = 0;
        while ( await reader.ReadAsync().ConfigureAwait( false ) ) {
            while ( reader.NodeType != System.Xml.XmlNodeType.None ) {
                if ( reader.NodeType == System.Xml.XmlNodeType.XmlDeclaration ) {
                    await reader.SkipAsync().ConfigureAwait( false );
                    continue;
                }
                if ( ct.IsCancellationRequested ) {
                    continue;
                }
                i++;
                if ( i % 100000 == 0 ) {
                    Console.WriteLine( $"Processed {i}: {reader.ReadString()}" );
                }
                await reader.ReadAsync().ConfigureAwait( false );
            }
        }
    }
}
Console.WriteLine( $"\n---->Memory Use/false: {GC.GetTotalMemory(false):N0}");
Console.WriteLine( $"---->Memory Use      : {GC.GetTotalMemory(true):N0}\n");
return;

使用率大幅下降:

---->Memory Use/false: 11,048,992
---->Memory Use      : 6,317,248

我在这里误解了什么/做错了什么?正在加载的文件很大(~60MB),但即使XNode需要使用那么多内存,也不应该在时间控制台之前释放它。是否已到达写入线


共1个答案

匿名用户

LINQtoXML急切地将整个XML文档加载到内存中,创建许多对象来表示它。在读取时,您似乎在循环中执行了很多次,但没有对递归遍历进行太多保护。

但是,使用允许手动控制的XmlReader,它只能读取足够的信息,并允许消费者决定如何使用它。

当块被关闭时,内存并不总是被释放。堆上的东西会在某个时候被气相色谱清理掉。