be/src/format/parquet/vparquet_group_reader.h

Source
// Licensed to the Apache Software Foundation (ASF) under one
// or more contributor license agreements.  See the NOTICE file
// distributed with this work for additional information
// regarding copyright ownership.  The ASF licenses this file
// to you under the Apache License, Version 2.0 (the
// "License"); you may not use this file except in compliance
// with the License.  You may obtain a copy of the License at
//
//   http://www.apache.org/licenses/LICENSE-2.0
//
// Unless required by applicable law or agreed to in writing,
// software distributed under the License is distributed on an
// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
// KIND, either express or implied.  See the License for the
// specific language governing permissions and limitations
// under the License.
#pragma once
#include <stddef.h>
#include <stdint.h>

#include <limits>
#include <memory>
#include <string>
#include <tuple>
#include <unordered_map>
#include <utility>
#include <vector>

#include "common/status.h"
#include "core/block/block.h"
#include "core/column/column.h"
#include "exprs/vexpr_fwd.h"
#include "format/parquet/parquet_common.h"
#include "format/parquet/vparquet_column_reader.h"
#include "format/table/table_format_reader.h"
#include "format/table/table_schema_change_helper.h"
#include "io/fs/file_reader_writer_fwd.h"
#include "storage/id_manager.h"
#include "storage/segment/common.h"
#include "vparquet_column_reader.h"

namespace cctz {
class time_zone;
} // namespace cctz
namespace doris {
class ObjectPool;
class RowDescriptor;
class RuntimeState;
class SlotDescriptor;
class TupleDescriptor;

namespace io {
struct IOContext;
} // namespace io
class Block;
class FieldDescriptor;
struct RowLineageColumns;
} // namespace doris
namespace tparquet {
class ColumnMetaData;
class OffsetIndex;
class RowGroup;
} // namespace tparquet

namespace doris::segment_v2 {
class RowIdColumnIteratorV2;
}

namespace doris {
// TODO: we need to determine it by test.

class RowGroupReader : public ProfileCollector, public RowPositionProvider {
public:
    std::shared_ptr<TableSchemaChangeHelper::Node> _table_info_node_ptr;
    static const std::vector<int64_t> NO_DELETE;

    struct RowGroupIndex {
        int32_t row_group_id;
        int64_t first_row;
        int64_t last_row;
        RowGroupIndex(int32_t id, int64_t first, int64_t last)
                : row_group_id(id), first_row(first), last_row(last) {}
    };

    // table name
    struct LazyReadContext {
        // all conjuncts: in sql, join runtime filter, topn runtime filter.
        VExprContextSPtrs conjuncts;

        phmap::flat_hash_map<int, std::vector<std::shared_ptr<ColumnPredicate>>>
                slot_id_to_predicates;
        bool can_lazy_read = false;
        // block->rows() returns the number of rows of the first column,
        // so we should check and resize the first column
        bool resize_first_column = true;
        std::vector<std::string> all_read_columns;
        // include predicate_partition_columns & predicate_missing_columns
        std::vector<uint32_t> all_predicate_col_ids;
        // save slot_id to find dict filter column name, because expr column name may
        // be different with parquet column name
        // std::pair<std::vector<col_name>, std::vector<slot_id>>
        std::pair<std::vector<std::string>, std::vector<int>> predicate_columns;
        std::vector<std::string> lazy_read_columns;
        std::unordered_map<std::string, std::tuple<std::string, const SlotDescriptor*>>
                predicate_partition_columns;
        // lazy read partition columns or all partition columns
        std::unordered_map<std::string, std::tuple<std::string, const SlotDescriptor*>>
                partition_columns;
        std::unordered_map<std::string, VExprContextSPtr> predicate_missing_columns;
        VExprContextSPtrs missing_columns_conjuncts;
        // lazy read missing columns or all missing columns
        std::unordered_map<std::string, VExprContextSPtr> missing_columns;
        // should turn off filtering by page index, lazy read and dict filter if having complex type
        bool has_complex_type = false;

        // ColumnProcessor path: column name lists for each category.
        // Predicate phase: columns involved in predicate filtering.
        std::vector<std::string> predicate_partition_col_names;
        std::vector<std::string> predicate_missing_col_names;
        // Remaining phase: columns filled after lazy reads.
        std::vector<std::string> partition_col_names;
        std::vector<std::string> missing_col_names;
    };

    /**
     * Support row-level delete in iceberg:
     * https://iceberg.apache.org/spec/#position-delete-files
     */
    struct PositionDeleteContext {
        // the filtered rows in current row group
        const std::vector<int64_t>& delete_rows;
        // the first row id of current row group in parquet file
        const int64_t first_row_id;
        // the number of rows in current row group
        const int64_t num_rows;
        const int64_t last_row_id;
        // current row id to read in the row group
        int64_t current_row_id;
        // start index in delete_rows
        const int64_t start_index;
        // end index in delete_rows
        const int64_t end_index;
        // current index in delete_rows
        int64_t index;
        const bool has_filter;

        PositionDeleteContext(const std::vector<int64_t>& delete_rows, const int64_t num_rows,
                              const int64_t first_row_id, const int64_t start_index,
                              const int64_t end_index)
                : delete_rows(delete_rows),
                  first_row_id(first_row_id),
                  num_rows(num_rows),
                  last_row_id(first_row_id + num_rows),
                  current_row_id(first_row_id),
                  start_index(start_index),
                  end_index(end_index),
                  index(start_index),
                  has_filter(end_index > start_index) {}

        PositionDeleteContext(const int64_t num_rows, const int64_t first_row)
                : PositionDeleteContext(NO_DELETE, num_rows, first_row, 0, 0) {}

        PositionDeleteContext(const PositionDeleteContext& filter) = default;
    };

    RowGroupReader(io::FileReaderSPtr file_reader, const std::vector<std::string>& read_columns,
                   const int32_t row_group_id, const tparquet::RowGroup& row_group,
                   const cctz::time_zone* ctz, io::IOContext* io_ctx,
                   const PositionDeleteContext& position_delete_ctx,
                   const LazyReadContext& lazy_read_ctx, RuntimeState* state,
                   const std::set<uint64_t>& column_ids,
                   const std::set<uint64_t>& filter_column_ids);

    ~RowGroupReader();
    Status init(const FieldDescriptor& schema, RowRanges& row_ranges,
                std::unordered_map<int, tparquet::OffsetIndex>& col_offsets,
                const TupleDescriptor* tuple_descriptor, const RowDescriptor* row_descriptor,
                const std::unordered_map<std::string, int>* colname_to_slot_id,
                const VExprContextSPtrs* not_single_slot_filter_conjuncts,
                const std::unordered_map<int, VExprContextSPtrs>* slot_id_to_filter_conjuncts);
    Status next_batch(Block* block, size_t batch_size, size_t* read_rows, bool* batch_eof);
    int64_t lazy_read_filtered_rows() const { return _lazy_read_filtered_rows; }
    int64_t predicate_filter_time() const { return _predicate_filter_time; }
    int64_t dict_filter_rewrite_time() const { return _dict_filter_rewrite_time; }
    int64_t condition_cache_filtered_rows() const { return _condition_cache_filtered_rows; }

    ParquetColumnReader::ColumnStatistics merged_column_statistics();
    void set_remaining_rows(int64_t rows) { _remaining_rows = rows; }

    int64_t get_remaining_rows() { return _remaining_rows; }

    // Filters read_ranges by removing row chunks whose condition cache granules are all-false.
    // Pure algorithm, exposed as static for testability.
    static RowRanges filter_ranges_by_cache(const RowRanges& read_ranges,
                                            const std::vector<bool>& cache, int64_t first_row,
                                            int64_t base_granule = 0);

    void set_table_format_reader(TableFormatReader* reader) { _table_format_reader = reader; }

    // RowPositionProvider interface
    const std::vector<rowid_t>& current_batch_row_positions() const override {
        return _current_batch_row_ids;
    }

    void set_row_lineage_columns(std::shared_ptr<RowLineageColumns> row_lineage_columns) {
        _row_lineage_columns = std::move(row_lineage_columns);
    }

    void set_current_row_group_idx(RowGroupIndex row_group_idx) {
        _current_row_group_idx = row_group_idx;
    }

    void set_col_name_to_block_idx(
            std::unordered_map<std::string, uint32_t>* col_name_to_block_idx) {
        _col_name_to_block_idx = col_name_to_block_idx;
    }

    void set_condition_cache_context(std::shared_ptr<ConditionCacheContext> ctx) {
        _condition_cache_ctx = std::move(ctx);
    }

protected:
    void _collect_profile_before_close() override {
        if (_file_reader != nullptr) {
            _file_reader->collect_profile_before_close();
        }
    }

private:
    Status _read_empty_batch(size_t batch_size, size_t* read_rows, bool* batch_eof,
                             bool* modify_row_ids);

    Status _read_column_data(Block* block, const std::vector<std::string>& columns,
                             size_t batch_size, size_t* read_rows, bool* batch_eof,
                             FilterMap& filter_map);

    Status _do_lazy_read(Block* block, size_t batch_size, size_t* read_rows, bool* batch_eof);
    Status _rebuild_filter_map(FilterMap& filter_map,
                               DorisUniqueBufferPtr<uint8_t>& filter_map_data,
                               size_t pre_read_rows) const;

    Status _build_pos_delete_filter(size_t read_rows);
    Status _filter_block(Block* block, int column_to_keep,
                         const std::vector<uint32_t>& columns_to_filter);
    Status _filter_block_internal(Block* block, const std::vector<uint32_t>& columns_to_filter,
                                  const IColumn::Filter& filter);

    bool _can_filter_by_dict(int slot_id, const tparquet::ColumnMetaData& column_metadata);
    bool is_dictionary_encoded(const tparquet::ColumnMetaData& column_metadata);
    Status _rewrite_dict_predicates();
    Status _rewrite_dict_conjuncts(std::vector<int32_t>& dict_codes, int slot_id, bool is_nullable);
    Status _convert_dict_cols_to_string_cols(Block* block);
    void _filter_read_ranges_by_condition_cache();
    void _mark_condition_cache_granules(const uint8_t* filter_data, size_t num_rows,
                                        int64_t batch_seq_start);

    Status _get_current_batch_row_id(size_t read_rows);

    io::FileReaderSPtr _file_reader;
    std::unordered_map<std::string, std::unique_ptr<ParquetColumnReader>>
            _column_readers; // table_column_name
    const std::vector<std::string>& _read_table_columns;

    const int32_t _row_group_id;
    const tparquet::RowGroup& _row_group_meta;
    int64_t _remaining_rows;
    const cctz::time_zone* _ctz = nullptr;
    io::IOContext* _io_ctx = nullptr;
    PositionDeleteContext _position_delete_ctx;
    std::shared_ptr<RowLineageColumns> _row_lineage_columns;
    // merge the row ranges generated from page index and position delete.
    RowRanges _read_ranges;

    const LazyReadContext& _lazy_read_ctx;
    int64_t _lazy_read_filtered_rows = 0;
    int64_t _predicate_filter_time = 0;
    int64_t _dict_filter_rewrite_time = 0;
    int64_t _condition_cache_filtered_rows = 0;
    // If continuous batches are skipped, we can cache them to skip a whole page
    size_t _cached_filtered_rows = 0;
    std::shared_ptr<ConditionCacheContext> _condition_cache_ctx;
    std::unique_ptr<IColumn::Filter> _pos_delete_filter_ptr;
    int64_t _total_read_rows = 0;
    const TupleDescriptor* _tuple_descriptor = nullptr;
    const RowDescriptor* _row_descriptor = nullptr;
    const std::unordered_map<std::string, int>* _col_name_to_slot_id = nullptr;
    const std::unordered_map<int, VExprContextSPtrs>* _slot_id_to_filter_conjuncts = nullptr;
    VExprContextSPtrs _dict_filter_conjuncts;
    VExprContextSPtrs _filter_conjuncts;
    // std::pair<col_name, slot_id>
    std::vector<std::pair<std::string, int>> _dict_filter_cols;
    RuntimeState* _state = nullptr;
    std::shared_ptr<ObjectPool> _obj_pool;
    const std::set<uint64_t>& _column_ids;
    const std::set<uint64_t>& _filter_column_ids;
    bool _is_row_group_filtered = false;

    RowGroupIndex _current_row_group_idx {0, 0, 0};
    std::vector<rowid_t> _current_batch_row_ids;

    std::unordered_map<std::string, uint32_t>* _col_name_to_block_idx = nullptr;
    TableFormatReader* _table_format_reader = nullptr;
};

} // namespace doris

Coverage Report

Created: 2026-04-22 18:57

Line	Count	Source
1		// Licensed to the Apache Software Foundation (ASF) under one
2		// or more contributor license agreements. See the NOTICE file
3		// distributed with this work for additional information
4		// regarding copyright ownership. The ASF licenses this file
5		// to you under the Apache License, Version 2.0 (the
6		// "License"); you may not use this file except in compliance
7		// with the License. You may obtain a copy of the License at
8		//
9		// http://www.apache.org/licenses/LICENSE-2.0
10		//
11		// Unless required by applicable law or agreed to in writing,
12		// software distributed under the License is distributed on an
13		// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
14		// KIND, either express or implied. See the License for the
15		// specific language governing permissions and limitations
16		// under the License.
17		#pragma once
18		#include <stddef.h>
19		#include <stdint.h>
20
21		#include <limits>
22		#include <memory>
23		#include <string>
24		#include <tuple>
25		#include <unordered_map>
26		#include <utility>
27		#include <vector>
28
29		#include "common/status.h"
30		#include "core/block/block.h"
31		#include "core/column/column.h"
32		#include "exprs/vexpr_fwd.h"
33		#include "format/parquet/parquet_common.h"
34		#include "format/parquet/vparquet_column_reader.h"
35		#include "format/table/table_format_reader.h"
36		#include "format/table/table_schema_change_helper.h"
37		#include "io/fs/file_reader_writer_fwd.h"
38		#include "storage/id_manager.h"
39		#include "storage/segment/common.h"
40		#include "vparquet_column_reader.h"
41
42		namespace cctz {
43		class time_zone;
44		} // namespace cctz
45		namespace doris {
46		class ObjectPool;
47		class RowDescriptor;
48		class RuntimeState;
49		class SlotDescriptor;
50		class TupleDescriptor;
51
52		namespace io {
53		struct IOContext;
54		} // namespace io
55		class Block;
56		class FieldDescriptor;
57		struct RowLineageColumns;
58		} // namespace doris
59		namespace tparquet {
60		class ColumnMetaData;
61		class OffsetIndex;
62		class RowGroup;
63		} // namespace tparquet
64
65		namespace doris::segment_v2 {
66		class RowIdColumnIteratorV2;
67		}
68
69		namespace doris {
70		// TODO: we need to determine it by test.
71
72		class RowGroupReader : public ProfileCollector, public RowPositionProvider {
73		public:
74		std::shared_ptr<TableSchemaChangeHelper::Node> _table_info_node_ptr;
75		static const std::vector<int64_t> NO_DELETE;
76
77		struct RowGroupIndex {
78		int32_t row_group_id;
79		int64_t first_row;
80		int64_t last_row;
81		RowGroupIndex(int32_t id, int64_t first, int64_t last)
82	207	: row_group_id(id), first_row(first), last_row(last) {}
83		};
84
85		// table name
86		struct LazyReadContext {
87		// all conjuncts: in sql, join runtime filter, topn runtime filter.
88		VExprContextSPtrs conjuncts;
89
90		phmap::flat_hash_map<int, std::vector<std::shared_ptr<ColumnPredicate>>>
91		slot_id_to_predicates;
92		bool can_lazy_read = false;
93		// block->rows() returns the number of rows of the first column,
94		// so we should check and resize the first column
95		bool resize_first_column = true;
96		std::vector<std::string> all_read_columns;
97		// include predicate_partition_columns & predicate_missing_columns
98		std::vector<uint32_t> all_predicate_col_ids;
99		// save slot_id to find dict filter column name, because expr column name may
100		// be different with parquet column name
101		// std::pair<std::vector<col_name>, std::vector<slot_id>>
102		std::pair<std::vector<std::string>, std::vector<int>> predicate_columns;
103		std::vector<std::string> lazy_read_columns;
104		std::unordered_map<std::string, std::tuple<std::string, const SlotDescriptor*>>
105		predicate_partition_columns;
106		// lazy read partition columns or all partition columns
107		std::unordered_map<std::string, std::tuple<std::string, const SlotDescriptor*>>
108		partition_columns;
109		std::unordered_map<std::string, VExprContextSPtr> predicate_missing_columns;
110		VExprContextSPtrs missing_columns_conjuncts;
111		// lazy read missing columns or all missing columns
112		std::unordered_map<std::string, VExprContextSPtr> missing_columns;
113		// should turn off filtering by page index, lazy read and dict filter if having complex type
114		bool has_complex_type = false;
115
116		// ColumnProcessor path: column name lists for each category.
117		// Predicate phase: columns involved in predicate filtering.
118		std::vector<std::string> predicate_partition_col_names;
119		std::vector<std::string> predicate_missing_col_names;
120		// Remaining phase: columns filled after lazy reads.
121		std::vector<std::string> partition_col_names;
122		std::vector<std::string> missing_col_names;
123		};
124
125		/**
126		* Support row-level delete in iceberg:
127		* https://iceberg.apache.org/spec/#position-delete-files
128		*/
129		struct PositionDeleteContext {
130		// the filtered rows in current row group
131		const std::vector<int64_t>& delete_rows;
132		// the first row id of current row group in parquet file
133		const int64_t first_row_id;
134		// the number of rows in current row group
135		const int64_t num_rows;
136		const int64_t last_row_id;
137		// current row id to read in the row group
138		int64_t current_row_id;
139		// start index in delete_rows
140		const int64_t start_index;
141		// end index in delete_rows
142		const int64_t end_index;
143		// current index in delete_rows
144		int64_t index;
145		const bool has_filter;
146
147		PositionDeleteContext(const std::vector<int64_t>& delete_rows, const int64_t num_rows,
148		const int64_t first_row_id, const int64_t start_index,
149		const int64_t end_index)
150	38	: delete_rows(delete_rows),
151	38	first_row_id(first_row_id),
152	38	num_rows(num_rows),
153	38	last_row_id(first_row_id + num_rows),
154	38	current_row_id(first_row_id),
155	38	start_index(start_index),
156	38	end_index(end_index),
157	38	index(start_index),
158	38	has_filter(end_index > start_index) {}
159
160		PositionDeleteContext(const int64_t num_rows, const int64_t first_row)
161	38	: PositionDeleteContext(NO_DELETE, num_rows, first_row, 0, 0) {}
162
163		PositionDeleteContext(const PositionDeleteContext& filter) = default;
164		};
165
166		RowGroupReader(io::FileReaderSPtr file_reader, const std::vector<std::string>& read_columns,
167		const int32_t row_group_id, const tparquet::RowGroup& row_group,
168		const cctz::time_zone* ctz, io::IOContext* io_ctx,
169		const PositionDeleteContext& position_delete_ctx,
170		const LazyReadContext& lazy_read_ctx, RuntimeState* state,
171		const std::set<uint64_t>& column_ids,
172		const std::set<uint64_t>& filter_column_ids);
173
174		~RowGroupReader();
175		Status init(const FieldDescriptor& schema, RowRanges& row_ranges,
176		std::unordered_map<int, tparquet::OffsetIndex>& col_offsets,
177		const TupleDescriptor* tuple_descriptor, const RowDescriptor* row_descriptor,
178		const std::unordered_map<std::string, int>* colname_to_slot_id,
179		const VExprContextSPtrs* not_single_slot_filter_conjuncts,
180		const std::unordered_map<int, VExprContextSPtrs>* slot_id_to_filter_conjuncts);
181		Status next_batch(Block* block, size_t batch_size, size_t* read_rows, bool* batch_eof);
182	38	int64_t lazy_read_filtered_rows() const { return _lazy_read_filtered_rows; }
183	38	int64_t predicate_filter_time() const { return _predicate_filter_time; }
184	38	int64_t dict_filter_rewrite_time() const { return _dict_filter_rewrite_time; }
185	15	int64_t condition_cache_filtered_rows() const { return _condition_cache_filtered_rows; }
186
187		ParquetColumnReader::ColumnStatistics merged_column_statistics();
188	0	void set_remaining_rows(int64_t rows) { _remaining_rows = rows; }
189
190	0	int64_t get_remaining_rows() { return _remaining_rows; }
191
192		// Filters read_ranges by removing row chunks whose condition cache granules are all-false.
193		// Pure algorithm, exposed as static for testability.
194		static RowRanges filter_ranges_by_cache(const RowRanges& read_ranges,
195		const std::vector<bool>& cache, int64_t first_row,
196		int64_t base_granule = 0);
197
198	38	void set_table_format_reader(TableFormatReader* reader) { _table_format_reader = reader; }
199
200		// RowPositionProvider interface
201	5	const std::vector<rowid_t>& current_batch_row_positions() const override {
202	5	return _current_batch_row_ids;
203	5	}
204
205	0	void set_row_lineage_columns(std::shared_ptr<RowLineageColumns> row_lineage_columns) {
206	0	_row_lineage_columns = std::move(row_lineage_columns);
207	0	}
208
209	38	void set_current_row_group_idx(RowGroupIndex row_group_idx) {
210	38	_current_row_group_idx = row_group_idx;
211	38	}
212
213		void set_col_name_to_block_idx(
214	38	std::unordered_map<std::string, uint32_t>* col_name_to_block_idx) {
215	38	_col_name_to_block_idx = col_name_to_block_idx;
216	38	}
217
218	0	void set_condition_cache_context(std::shared_ptr<ConditionCacheContext> ctx) {
219	0	_condition_cache_ctx = std::move(ctx);
220	0	}
221
222		protected:
223	15	void _collect_profile_before_close() override {
224	15	if (_file_reader != nullptr) {
225	15	_file_reader->collect_profile_before_close();
226	15	}
227	15	}
228
229		private:
230		Status _read_empty_batch(size_t batch_size, size_t* read_rows, bool* batch_eof,
231		bool* modify_row_ids);
232
233		Status _read_column_data(Block* block, const std::vector<std::string>& columns,
234		size_t batch_size, size_t* read_rows, bool* batch_eof,
235		FilterMap& filter_map);
236
237		Status _do_lazy_read(Block* block, size_t batch_size, size_t* read_rows, bool* batch_eof);
238		Status _rebuild_filter_map(FilterMap& filter_map,
239		DorisUniqueBufferPtr<uint8_t>& filter_map_data,
240		size_t pre_read_rows) const;
241
242		Status _build_pos_delete_filter(size_t read_rows);
243		Status _filter_block(Block* block, int column_to_keep,
244		const std::vector<uint32_t>& columns_to_filter);
245		Status _filter_block_internal(Block* block, const std::vector<uint32_t>& columns_to_filter,
246		const IColumn::Filter& filter);
247
248		bool _can_filter_by_dict(int slot_id, const tparquet::ColumnMetaData& column_metadata);
249		bool is_dictionary_encoded(const tparquet::ColumnMetaData& column_metadata);
250		Status _rewrite_dict_predicates();
251		Status _rewrite_dict_conjuncts(std::vector<int32_t>& dict_codes, int slot_id, bool is_nullable);
252		Status _convert_dict_cols_to_string_cols(Block* block);
253		void _filter_read_ranges_by_condition_cache();
254		void _mark_condition_cache_granules(const uint8_t* filter_data, size_t num_rows,
255		int64_t batch_seq_start);
256
257		Status _get_current_batch_row_id(size_t read_rows);
258
259		io::FileReaderSPtr _file_reader;
260		std::unordered_map<std::string, std::unique_ptr<ParquetColumnReader>>
261		_column_readers; // table_column_name
262		const std::vector<std::string>& _read_table_columns;
263
264		const int32_t _row_group_id;
265		const tparquet::RowGroup& _row_group_meta;
266		int64_t _remaining_rows;
267		const cctz::time_zone* _ctz = nullptr;
268		io::IOContext* _io_ctx = nullptr;
269		PositionDeleteContext _position_delete_ctx;
270		std::shared_ptr<RowLineageColumns> _row_lineage_columns;
271		// merge the row ranges generated from page index and position delete.
272		RowRanges _read_ranges;
273
274		const LazyReadContext& _lazy_read_ctx;
275		int64_t _lazy_read_filtered_rows = 0;
276		int64_t _predicate_filter_time = 0;
277		int64_t _dict_filter_rewrite_time = 0;
278		int64_t _condition_cache_filtered_rows = 0;
279		// If continuous batches are skipped, we can cache them to skip a whole page
280		size_t _cached_filtered_rows = 0;
281		std::shared_ptr<ConditionCacheContext> _condition_cache_ctx;
282		std::unique_ptr<IColumn::Filter> _pos_delete_filter_ptr;
283		int64_t _total_read_rows = 0;
284		const TupleDescriptor* _tuple_descriptor = nullptr;
285		const RowDescriptor* _row_descriptor = nullptr;
286		const std::unordered_map<std::string, int>* _col_name_to_slot_id = nullptr;
287		const std::unordered_map<int, VExprContextSPtrs>* _slot_id_to_filter_conjuncts = nullptr;
288		VExprContextSPtrs _dict_filter_conjuncts;
289		VExprContextSPtrs _filter_conjuncts;
290		// std::pair<col_name, slot_id>
291		std::vector<std::pair<std::string, int>> _dict_filter_cols;
292		RuntimeState* _state = nullptr;
293		std::shared_ptr<ObjectPool> _obj_pool;
294		const std::set<uint64_t>& _column_ids;
295		const std::set<uint64_t>& _filter_column_ids;
296		bool _is_row_group_filtered = false;
297
298		RowGroupIndex _current_row_group_idx {0, 0, 0};
299		std::vector<rowid_t> _current_batch_row_ids;
300
301		std::unordered_map<std::string, uint32_t>* _col_name_to_block_idx = nullptr;
302		TableFormatReader* _table_format_reader = nullptr;
303		};
304
305		} // namespace doris