be/src/format/parquet/vparquet_group_reader.h

Source
// Licensed to the Apache Software Foundation (ASF) under one
// or more contributor license agreements.  See the NOTICE file
// distributed with this work for additional information
// regarding copyright ownership.  The ASF licenses this file
// to you under the Apache License, Version 2.0 (the
// "License"); you may not use this file except in compliance
// with the License.  You may obtain a copy of the License at
//
//   http://www.apache.org/licenses/LICENSE-2.0
//
// Unless required by applicable law or agreed to in writing,
// software distributed under the License is distributed on an
// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
// KIND, either express or implied.  See the License for the
// specific language governing permissions and limitations
// under the License.
#pragma once
#include <stddef.h>
#include <stdint.h>

#include <limits>
#include <memory>
#include <string>
#include <tuple>
#include <unordered_map>
#include <utility>
#include <vector>

#include "common/status.h"
#include "core/column/column.h"
#include "exprs/vexpr_fwd.h"
#include "format/parquet/parquet_common.h"
#include "format/parquet/vparquet_column_reader.h"
#include "format/table/table_format_reader.h"
#include "io/fs/file_reader_writer_fwd.h"
#include "storage/id_manager.h"
#include "storage/utils.h"

namespace cctz {
class time_zone;
} // namespace cctz
namespace doris {
class ObjectPool;
class RowDescriptor;
class RuntimeState;
class SlotDescriptor;
class TupleDescriptor;

namespace io {
struct IOContext;
} // namespace io
class Block;
class FieldDescriptor;
} // namespace doris
namespace tparquet {
class ColumnMetaData;
class OffsetIndex;
class RowGroup;
} // namespace tparquet

namespace doris::segment_v2 {
class RowIdColumnIteratorV2;
}

namespace doris {
#include "common/compile_check_begin.h"
// TODO: we need to determine it by test.

class RowGroupReader : public ProfileCollector {
public:
    std::shared_ptr<TableSchemaChangeHelper::Node> _table_info_node_ptr;
    static const std::vector<int64_t> NO_DELETE;

    struct RowGroupIndex {
        int32_t row_group_id;
        int64_t first_row;
        int64_t last_row;
        RowGroupIndex(int32_t id, int64_t first, int64_t last)
                : row_group_id(id), first_row(first), last_row(last) {}
    };

    // table name
    struct LazyReadContext {
        // all conjuncts: in sql, join runtime filter, topn runtime filter.
        VExprContextSPtrs conjuncts;

        // ParquetReader::set_fill_columns(xxx, xxx) will set these two members
        std::unordered_map<std::string, std::tuple<std::string, const SlotDescriptor*>>
                fill_partition_columns;
        std::unordered_map<std::string, VExprContextSPtr> fill_missing_columns;

        phmap::flat_hash_map<int, std::vector<std::shared_ptr<ColumnPredicate>>>
                slot_id_to_predicates;
        bool can_lazy_read = false;
        // block->rows() returns the number of rows of the first column,
        // so we should check and resize the first column
        bool resize_first_column = true;
        std::vector<std::string> all_read_columns;
        // include predicate_partition_columns & predicate_missing_columns
        std::vector<uint32_t> all_predicate_col_ids;
        // save slot_id to find dict filter column name, because expr column name may
        // be different with parquet column name
        // std::pair<std::vector<col_name>, std::vector<slot_id>>
        std::pair<std::vector<std::string>, std::vector<int>> predicate_columns;
        std::vector<std::string> lazy_read_columns;
        std::unordered_map<std::string, std::tuple<std::string, const SlotDescriptor*>>
                predicate_partition_columns;
        // lazy read partition columns or all partition columns
        std::unordered_map<std::string, std::tuple<std::string, const SlotDescriptor*>>
                partition_columns;
        std::unordered_map<std::string, VExprContextSPtr> predicate_missing_columns;
        VExprContextSPtrs missing_columns_conjuncts;
        // lazy read missing columns or all missing columns
        std::unordered_map<std::string, VExprContextSPtr> missing_columns;
        // should turn off filtering by page index, lazy read and dict filter if having complex type
        bool has_complex_type = false;
    };

    /**
     * Support row-level delete in iceberg:
     * https://iceberg.apache.org/spec/#position-delete-files
     */
    struct PositionDeleteContext {
        // the filtered rows in current row group
        const std::vector<int64_t>& delete_rows;
        // the first row id of current row group in parquet file
        const int64_t first_row_id;
        // the number of rows in current row group
        const int64_t num_rows;
        const int64_t last_row_id;
        // current row id to read in the row group
        int64_t current_row_id;
        // start index in delete_rows
        const int64_t start_index;
        // end index in delete_rows
        const int64_t end_index;
        // current index in delete_rows
        int64_t index;
        const bool has_filter;

        PositionDeleteContext(const std::vector<int64_t>& delete_rows, const int64_t num_rows,
                              const int64_t first_row_id, const int64_t start_index,
                              const int64_t end_index)
                : delete_rows(delete_rows),
                  first_row_id(first_row_id),
                  num_rows(num_rows),
                  last_row_id(first_row_id + num_rows),
                  current_row_id(first_row_id),
                  start_index(start_index),
                  end_index(end_index),
                  index(start_index),
                  has_filter(end_index > start_index) {}

        PositionDeleteContext(const int64_t num_rows, const int64_t first_row)
                : PositionDeleteContext(NO_DELETE, num_rows, first_row, 0, 0) {}

        PositionDeleteContext(const PositionDeleteContext& filter) = default;
    };

    RowGroupReader(io::FileReaderSPtr file_reader, const std::vector<std::string>& read_columns,
                   const int32_t row_group_id, const tparquet::RowGroup& row_group,
                   const cctz::time_zone* ctz, io::IOContext* io_ctx,
                   const PositionDeleteContext& position_delete_ctx,
                   const LazyReadContext& lazy_read_ctx, RuntimeState* state,
                   const std::set<uint64_t>& column_ids,
                   const std::set<uint64_t>& filter_column_ids);

    ~RowGroupReader();
    Status init(const FieldDescriptor& schema, RowRanges& row_ranges,
                std::unordered_map<int, tparquet::OffsetIndex>& col_offsets,
                const TupleDescriptor* tuple_descriptor, const RowDescriptor* row_descriptor,
                const std::unordered_map<std::string, int>* colname_to_slot_id,
                const VExprContextSPtrs* not_single_slot_filter_conjuncts,
                const std::unordered_map<int, VExprContextSPtrs>* slot_id_to_filter_conjuncts);
    Status next_batch(Block* block, size_t batch_size, size_t* read_rows, bool* batch_eof);
    int64_t lazy_read_filtered_rows() const { return _lazy_read_filtered_rows; }
    int64_t predicate_filter_time() const { return _predicate_filter_time; }
    int64_t dict_filter_rewrite_time() const { return _dict_filter_rewrite_time; }
    int64_t condition_cache_filtered_rows() const { return _condition_cache_filtered_rows; }

    ParquetColumnReader::ColumnStatistics merged_column_statistics();
    void set_remaining_rows(int64_t rows) { _remaining_rows = rows; }
    int64_t get_remaining_rows() { return _remaining_rows; }

    // Filters read_ranges by removing row chunks whose condition cache granules are all-false.
    // Pure algorithm, exposed as static for testability.
    static RowRanges filter_ranges_by_cache(const RowRanges& read_ranges,
                                            const std::vector<bool>& cache, int64_t first_row,
                                            int64_t base_granule = 0);

    void set_row_id_column_iterator(
            const std::pair<std::shared_ptr<segment_v2::RowIdColumnIteratorV2>, int>&
                    iterator_pair) {
        _row_id_column_iterator_pair = iterator_pair;
    }

    void set_current_row_group_idx(RowGroupIndex row_group_idx) {
        _current_row_group_idx = row_group_idx;
    }

    void set_col_name_to_block_idx(
            std::unordered_map<std::string, uint32_t>* col_name_to_block_idx) {
        _col_name_to_block_idx = col_name_to_block_idx;
    }

    void set_condition_cache_context(std::shared_ptr<ConditionCacheContext> ctx) {
        _condition_cache_ctx = std::move(ctx);
    }

protected:
    void _collect_profile_before_close() override {
        if (_file_reader != nullptr) {
            _file_reader->collect_profile_before_close();
        }
    }

private:
    Status _read_empty_batch(size_t batch_size, size_t* read_rows, bool* batch_eof,
                             bool* modify_row_ids);

    Status _read_column_data(Block* block, const std::vector<std::string>& columns,
                             size_t batch_size, size_t* read_rows, bool* batch_eof,
                             FilterMap& filter_map);

    Status _do_lazy_read(Block* block, size_t batch_size, size_t* read_rows, bool* batch_eof);
    Status _rebuild_filter_map(FilterMap& filter_map,
                               DorisUniqueBufferPtr<uint8_t>& filter_map_data,
                               size_t pre_read_rows) const;
    Status _fill_partition_columns(
            Block* block, size_t rows,
            const std::unordered_map<std::string, std::tuple<std::string, const SlotDescriptor*>>&
                    partition_columns);
    Status _fill_missing_columns(
            Block* block, size_t rows,
            const std::unordered_map<std::string, VExprContextSPtr>& missing_columns);
    Status _build_pos_delete_filter(size_t read_rows);
    Status _filter_block(Block* block, int column_to_keep,
                         const std::vector<uint32_t>& columns_to_filter);
    Status _filter_block_internal(Block* block, const std::vector<uint32_t>& columns_to_filter,
                                  const IColumn::Filter& filter);

    bool _can_filter_by_dict(int slot_id, const tparquet::ColumnMetaData& column_metadata);
    bool is_dictionary_encoded(const tparquet::ColumnMetaData& column_metadata);
    Status _rewrite_dict_predicates();
    Status _rewrite_dict_conjuncts(std::vector<int32_t>& dict_codes, int slot_id, bool is_nullable);
    Status _convert_dict_cols_to_string_cols(Block* block);
    void _filter_read_ranges_by_condition_cache();
    void _mark_condition_cache_granules(const uint8_t* filter_data, size_t num_rows,
                                        int64_t batch_seq_start);

    Status _get_current_batch_row_id(size_t read_rows);
    Status _fill_row_id_columns(Block* block, size_t read_rows, bool is_current_row_ids);

    io::FileReaderSPtr _file_reader;
    std::unordered_map<std::string, std::unique_ptr<ParquetColumnReader>>
            _column_readers; // table_column_name
    const std::vector<std::string>& _read_table_columns;

    const int32_t _row_group_id;
    const tparquet::RowGroup& _row_group_meta;
    int64_t _remaining_rows;
    const cctz::time_zone* _ctz = nullptr;
    io::IOContext* _io_ctx = nullptr;
    PositionDeleteContext _position_delete_ctx;
    // merge the row ranges generated from page index and position delete.
    RowRanges _read_ranges;

    const LazyReadContext& _lazy_read_ctx;
    int64_t _lazy_read_filtered_rows = 0;
    int64_t _predicate_filter_time = 0;
    int64_t _dict_filter_rewrite_time = 0;
    int64_t _condition_cache_filtered_rows = 0;
    // If continuous batches are skipped, we can cache them to skip a whole page
    size_t _cached_filtered_rows = 0;
    std::shared_ptr<ConditionCacheContext> _condition_cache_ctx;
    std::unique_ptr<IColumn::Filter> _pos_delete_filter_ptr;
    int64_t _total_read_rows = 0;
    const TupleDescriptor* _tuple_descriptor = nullptr;
    const RowDescriptor* _row_descriptor = nullptr;
    const std::unordered_map<std::string, int>* _col_name_to_slot_id = nullptr;
    const std::unordered_map<int, VExprContextSPtrs>* _slot_id_to_filter_conjuncts = nullptr;
    VExprContextSPtrs _dict_filter_conjuncts;
    VExprContextSPtrs _filter_conjuncts;
    // std::pair<col_name, slot_id>
    std::vector<std::pair<std::string, int>> _dict_filter_cols;
    RuntimeState* _state = nullptr;
    std::shared_ptr<ObjectPool> _obj_pool;
    const std::set<uint64_t>& _column_ids;
    const std::set<uint64_t>& _filter_column_ids;
    bool _is_row_group_filtered = false;

    RowGroupIndex _current_row_group_idx {0, 0, 0};
    std::pair<std::shared_ptr<segment_v2::RowIdColumnIteratorV2>, int>
            _row_id_column_iterator_pair = {nullptr, -1};
    std::vector<rowid_t> _current_batch_row_ids;

    std::unordered_map<std::string, uint32_t>* _col_name_to_block_idx = nullptr;
};
#include "common/compile_check_end.h"

} // namespace doris

Coverage Report

Created: 2026-03-17 02:57

Line	Count	Source
1		// Licensed to the Apache Software Foundation (ASF) under one
2		// or more contributor license agreements. See the NOTICE file
3		// distributed with this work for additional information
4		// regarding copyright ownership. The ASF licenses this file
5		// to you under the Apache License, Version 2.0 (the
6		// "License"); you may not use this file except in compliance
7		// with the License. You may obtain a copy of the License at
8		//
9		// http://www.apache.org/licenses/LICENSE-2.0
10		//
11		// Unless required by applicable law or agreed to in writing,
12		// software distributed under the License is distributed on an
13		// "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
14		// KIND, either express or implied. See the License for the
15		// specific language governing permissions and limitations
16		// under the License.
17		#pragma once
18		#include <stddef.h>
19		#include <stdint.h>
20
21		#include <limits>
22		#include <memory>
23		#include <string>
24		#include <tuple>
25		#include <unordered_map>
26		#include <utility>
27		#include <vector>
28
29		#include "common/status.h"
30		#include "core/column/column.h"
31		#include "exprs/vexpr_fwd.h"
32		#include "format/parquet/parquet_common.h"
33		#include "format/parquet/vparquet_column_reader.h"
34		#include "format/table/table_format_reader.h"
35		#include "io/fs/file_reader_writer_fwd.h"
36		#include "storage/id_manager.h"
37		#include "storage/utils.h"
38
39		namespace cctz {
40		class time_zone;
41		} // namespace cctz
42		namespace doris {
43		class ObjectPool;
44		class RowDescriptor;
45		class RuntimeState;
46		class SlotDescriptor;
47		class TupleDescriptor;
48
49		namespace io {
50		struct IOContext;
51		} // namespace io
52		class Block;
53		class FieldDescriptor;
54		} // namespace doris
55		namespace tparquet {
56		class ColumnMetaData;
57		class OffsetIndex;
58		class RowGroup;
59		} // namespace tparquet
60
61		namespace doris::segment_v2 {
62		class RowIdColumnIteratorV2;
63		}
64
65		namespace doris {
66		#include "common/compile_check_begin.h"
67		// TODO: we need to determine it by test.
68
69		class RowGroupReader : public ProfileCollector {
70		public:
71		std::shared_ptr<TableSchemaChangeHelper::Node> _table_info_node_ptr;
72		static const std::vector<int64_t> NO_DELETE;
73
74		struct RowGroupIndex {
75		int32_t row_group_id;
76		int64_t first_row;
77		int64_t last_row;
78		RowGroupIndex(int32_t id, int64_t first, int64_t last)
79	182	: row_group_id(id), first_row(first), last_row(last) {}
80		};
81
82		// table name
83		struct LazyReadContext {
84		// all conjuncts: in sql, join runtime filter, topn runtime filter.
85		VExprContextSPtrs conjuncts;
86
87		// ParquetReader::set_fill_columns(xxx, xxx) will set these two members
88		std::unordered_map<std::string, std::tuple<std::string, const SlotDescriptor*>>
89		fill_partition_columns;
90		std::unordered_map<std::string, VExprContextSPtr> fill_missing_columns;
91
92		phmap::flat_hash_map<int, std::vector<std::shared_ptr<ColumnPredicate>>>
93		slot_id_to_predicates;
94		bool can_lazy_read = false;
95		// block->rows() returns the number of rows of the first column,
96		// so we should check and resize the first column
97		bool resize_first_column = true;
98		std::vector<std::string> all_read_columns;
99		// include predicate_partition_columns & predicate_missing_columns
100		std::vector<uint32_t> all_predicate_col_ids;
101		// save slot_id to find dict filter column name, because expr column name may
102		// be different with parquet column name
103		// std::pair<std::vector<col_name>, std::vector<slot_id>>
104		std::pair<std::vector<std::string>, std::vector<int>> predicate_columns;
105		std::vector<std::string> lazy_read_columns;
106		std::unordered_map<std::string, std::tuple<std::string, const SlotDescriptor*>>
107		predicate_partition_columns;
108		// lazy read partition columns or all partition columns
109		std::unordered_map<std::string, std::tuple<std::string, const SlotDescriptor*>>
110		partition_columns;
111		std::unordered_map<std::string, VExprContextSPtr> predicate_missing_columns;
112		VExprContextSPtrs missing_columns_conjuncts;
113		// lazy read missing columns or all missing columns
114		std::unordered_map<std::string, VExprContextSPtr> missing_columns;
115		// should turn off filtering by page index, lazy read and dict filter if having complex type
116		bool has_complex_type = false;
117		};
118
119		/**
120		* Support row-level delete in iceberg:
121		* https://iceberg.apache.org/spec/#position-delete-files
122		*/
123		struct PositionDeleteContext {
124		// the filtered rows in current row group
125		const std::vector<int64_t>& delete_rows;
126		// the first row id of current row group in parquet file
127		const int64_t first_row_id;
128		// the number of rows in current row group
129		const int64_t num_rows;
130		const int64_t last_row_id;
131		// current row id to read in the row group
132		int64_t current_row_id;
133		// start index in delete_rows
134		const int64_t start_index;
135		// end index in delete_rows
136		const int64_t end_index;
137		// current index in delete_rows
138		int64_t index;
139		const bool has_filter;
140
141		PositionDeleteContext(const std::vector<int64_t>& delete_rows, const int64_t num_rows,
142		const int64_t first_row_id, const int64_t start_index,
143		const int64_t end_index)
144	35	: delete_rows(delete_rows),
145	35	first_row_id(first_row_id),
146	35	num_rows(num_rows),
147	35	last_row_id(first_row_id + num_rows),
148	35	current_row_id(first_row_id),
149	35	start_index(start_index),
150	35	end_index(end_index),
151	35	index(start_index),
152	35	has_filter(end_index > start_index) {}
153
154		PositionDeleteContext(const int64_t num_rows, const int64_t first_row)
155	35	: PositionDeleteContext(NO_DELETE, num_rows, first_row, 0, 0) {}
156
157		PositionDeleteContext(const PositionDeleteContext& filter) = default;
158		};
159
160		RowGroupReader(io::FileReaderSPtr file_reader, const std::vector<std::string>& read_columns,
161		const int32_t row_group_id, const tparquet::RowGroup& row_group,
162		const cctz::time_zone* ctz, io::IOContext* io_ctx,
163		const PositionDeleteContext& position_delete_ctx,
164		const LazyReadContext& lazy_read_ctx, RuntimeState* state,
165		const std::set<uint64_t>& column_ids,
166		const std::set<uint64_t>& filter_column_ids);
167
168		~RowGroupReader();
169		Status init(const FieldDescriptor& schema, RowRanges& row_ranges,
170		std::unordered_map<int, tparquet::OffsetIndex>& col_offsets,
171		const TupleDescriptor* tuple_descriptor, const RowDescriptor* row_descriptor,
172		const std::unordered_map<std::string, int>* colname_to_slot_id,
173		const VExprContextSPtrs* not_single_slot_filter_conjuncts,
174		const std::unordered_map<int, VExprContextSPtrs>* slot_id_to_filter_conjuncts);
175		Status next_batch(Block* block, size_t batch_size, size_t* read_rows, bool* batch_eof);
176	35	int64_t lazy_read_filtered_rows() const { return _lazy_read_filtered_rows; }
177	35	int64_t predicate_filter_time() const { return _predicate_filter_time; }
178	35	int64_t dict_filter_rewrite_time() const { return _dict_filter_rewrite_time; }
179	14	int64_t condition_cache_filtered_rows() const { return _condition_cache_filtered_rows; }
180
181		ParquetColumnReader::ColumnStatistics merged_column_statistics();
182	0	void set_remaining_rows(int64_t rows) { _remaining_rows = rows; }
183	0	int64_t get_remaining_rows() { return _remaining_rows; }
184
185		// Filters read_ranges by removing row chunks whose condition cache granules are all-false.
186		// Pure algorithm, exposed as static for testability.
187		static RowRanges filter_ranges_by_cache(const RowRanges& read_ranges,
188		const std::vector<bool>& cache, int64_t first_row,
189		int64_t base_granule = 0);
190
191		void set_row_id_column_iterator(
192		const std::pair<std::shared_ptr<segment_v2::RowIdColumnIteratorV2>, int>&
193	35	iterator_pair) {
194	35	_row_id_column_iterator_pair = iterator_pair;
195	35	}
196
197	35	void set_current_row_group_idx(RowGroupIndex row_group_idx) {
198	35	_current_row_group_idx = row_group_idx;
199	35	}
200
201		void set_col_name_to_block_idx(
202	35	std::unordered_map<std::string, uint32_t>* col_name_to_block_idx) {
203	35	_col_name_to_block_idx = col_name_to_block_idx;
204	35	}
205
206	0	void set_condition_cache_context(std::shared_ptr<ConditionCacheContext> ctx) {
207	0	_condition_cache_ctx = std::move(ctx);
208	0	}
209
210		protected:
211	14	void _collect_profile_before_close() override {
212	14	if (_file_reader != nullptr) {
213	14	_file_reader->collect_profile_before_close();
214	14	}
215	14	}
216
217		private:
218		Status _read_empty_batch(size_t batch_size, size_t* read_rows, bool* batch_eof,
219		bool* modify_row_ids);
220
221		Status _read_column_data(Block* block, const std::vector<std::string>& columns,
222		size_t batch_size, size_t* read_rows, bool* batch_eof,
223		FilterMap& filter_map);
224
225		Status _do_lazy_read(Block* block, size_t batch_size, size_t* read_rows, bool* batch_eof);
226		Status _rebuild_filter_map(FilterMap& filter_map,
227		DorisUniqueBufferPtr<uint8_t>& filter_map_data,
228		size_t pre_read_rows) const;
229		Status _fill_partition_columns(
230		Block* block, size_t rows,
231		const std::unordered_map<std::string, std::tuple<std::string, const SlotDescriptor*>>&
232		partition_columns);
233		Status _fill_missing_columns(
234		Block* block, size_t rows,
235		const std::unordered_map<std::string, VExprContextSPtr>& missing_columns);
236		Status _build_pos_delete_filter(size_t read_rows);
237		Status _filter_block(Block* block, int column_to_keep,
238		const std::vector<uint32_t>& columns_to_filter);
239		Status _filter_block_internal(Block* block, const std::vector<uint32_t>& columns_to_filter,
240		const IColumn::Filter& filter);
241
242		bool _can_filter_by_dict(int slot_id, const tparquet::ColumnMetaData& column_metadata);
243		bool is_dictionary_encoded(const tparquet::ColumnMetaData& column_metadata);
244		Status _rewrite_dict_predicates();
245		Status _rewrite_dict_conjuncts(std::vector<int32_t>& dict_codes, int slot_id, bool is_nullable);
246		Status _convert_dict_cols_to_string_cols(Block* block);
247		void _filter_read_ranges_by_condition_cache();
248		void _mark_condition_cache_granules(const uint8_t* filter_data, size_t num_rows,
249		int64_t batch_seq_start);
250
251		Status _get_current_batch_row_id(size_t read_rows);
252		Status _fill_row_id_columns(Block* block, size_t read_rows, bool is_current_row_ids);
253
254		io::FileReaderSPtr _file_reader;
255		std::unordered_map<std::string, std::unique_ptr<ParquetColumnReader>>
256		_column_readers; // table_column_name
257		const std::vector<std::string>& _read_table_columns;
258
259		const int32_t _row_group_id;
260		const tparquet::RowGroup& _row_group_meta;
261		int64_t _remaining_rows;
262		const cctz::time_zone* _ctz = nullptr;
263		io::IOContext* _io_ctx = nullptr;
264		PositionDeleteContext _position_delete_ctx;
265		// merge the row ranges generated from page index and position delete.
266		RowRanges _read_ranges;
267
268		const LazyReadContext& _lazy_read_ctx;
269		int64_t _lazy_read_filtered_rows = 0;
270		int64_t _predicate_filter_time = 0;
271		int64_t _dict_filter_rewrite_time = 0;
272		int64_t _condition_cache_filtered_rows = 0;
273		// If continuous batches are skipped, we can cache them to skip a whole page
274		size_t _cached_filtered_rows = 0;
275		std::shared_ptr<ConditionCacheContext> _condition_cache_ctx;
276		std::unique_ptr<IColumn::Filter> _pos_delete_filter_ptr;
277		int64_t _total_read_rows = 0;
278		const TupleDescriptor* _tuple_descriptor = nullptr;
279		const RowDescriptor* _row_descriptor = nullptr;
280		const std::unordered_map<std::string, int>* _col_name_to_slot_id = nullptr;
281		const std::unordered_map<int, VExprContextSPtrs>* _slot_id_to_filter_conjuncts = nullptr;
282		VExprContextSPtrs _dict_filter_conjuncts;
283		VExprContextSPtrs _filter_conjuncts;
284		// std::pair<col_name, slot_id>
285		std::vector<std::pair<std::string, int>> _dict_filter_cols;
286		RuntimeState* _state = nullptr;
287		std::shared_ptr<ObjectPool> _obj_pool;
288		const std::set<uint64_t>& _column_ids;
289		const std::set<uint64_t>& _filter_column_ids;
290		bool _is_row_group_filtered = false;
291
292		RowGroupIndex _current_row_group_idx {0, 0, 0};
293		std::pair<std::shared_ptr<segment_v2::RowIdColumnIteratorV2>, int>
294		_row_id_column_iterator_pair = {nullptr, -1};
295		std::vector<rowid_t> _current_batch_row_ids;
296
297		std::unordered_map<std::string, uint32_t>* _col_name_to_block_idx = nullptr;
298		};
299		#include "common/compile_check_end.h"
300
301		} // namespace doris