我使用apache parquet创建Parquet表与机器的进程信息,我需要存储文件宽的元数据(机器ID和机器名称)。
据称,镶木地板文件能够存储文件宽元数据,但是我找不到任何关于它的留档。
还有另一个stackoverflow帖子告诉它是如何用pyarrow完成的。就帖子所说的而言,我需要某种键值对(也许是map
我发现了一个类内parquet源代码,被称为parque::FileMetaData,可以用于此目的,但没有在文档中关于它。
是否可以使用c存储文件范围的元数据?
目前我正在使用stream_reader_writer的例子来编写拼花文件
您可以在调用parque时传递文件级别的元数据::ParquetFileWriter::Open
,在这里查看源代码