hw-native-sys · foundeachang-bit · Mar 11, 2026 · Mar 13, 2026 · Mar 13, 2026 · Mar 13, 2026
diff --git a/examples/batch_hash_lookup_dump/passes_dump/00_frontend.py b/examples/batch_hash_lookup_dump/passes_dump/00_frontend.py
@@ -0,0 +1,42 @@
+# pypto.program: BatchHashLookup
+import pypto.language as pl
+
+@pl.program
+class BatchHashLookup:
+    @pl.function
+    def batch_hash_lookup(self, search_key: pl.Tensor[[1024, 64, 32], pl.INT32], hash_table_size: pl.Tensor[[64, 32], pl.INT32], hash_base_ptr: pl.Tensor[[64, 32], pl.INT32], hash_pool: pl.Tensor[[64, 128, 32], pl.INT32], value_ptr_out: pl.Tensor[[1024, 64, 32], pl.INT32]) -> pl.Tensor[[1024, 64, 32], pl.INT32]:
+        for b in pl.parallel(0, 1024, 32):
+            with pl.incore():
+                for ti in pl.parallel(0, 64, 32):
+                    zero_src: pl.Tensor[[1, 32], pl.INT32] = pl.tensor.view(search_key, [1, 32], [b, ti, 0])
+                    zero_tile: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.mul(zero_src, 0)
+                    value_ptr_out: pl.Tensor[[1024, 64, 32], pl.INT32] = pl.tensor.assemble(value_ptr_out, zero_tile, [b, ti, 0])
+        for probe in pl.range(0, 8, 1):
+            round_has_active: pl.Scalar[pl.INDEX] = 0
+            with pl.incore():
+                for b in pl.parallel(0, 1024, 32):
+                    for ti in pl.parallel(0, 64, 32):
+                        keys_tile: pl.Tensor[[1, 32], pl.INT32] = pl.tensor.view(search_key, [1, 32], [b, ti, 0])
+                        mixed: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.mul(keys_tile, 2654435761)
+                        h_probe: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.ands(pl.tensor.add(mixed, probe * 2246822519), 64 - 1)
+                        cand_key: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.mul(keys_tile, 0)
+                        cand_val: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.mul(keys_tile, 0)
+                        for bucket in pl.range(0, 64, 1):
+                            bucket_mask: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.cmps(h_probe, bucket, cmp_type=0)
+                            bucket_keys: pl.Tensor[[1, 32], pl.INT32] = pl.tensor.view(hash_pool, [1, 32], [ti, bucket, 0])
+                            bucket_vals: pl.Tensor[[1, 32], pl.INT32] = pl.tensor.view(hash_pool, [1, 32], [ti, 64 + bucket, 0])
+                            cand_key: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.sel(bucket_mask, bucket_keys, cand_key)
+                            cand_val: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.sel(bucket_mask, bucket_vals, cand_val)
+                        result_prev: pl.Tensor[[1, 32], pl.INT32] = pl.tensor.view(value_ptr_out, [1, 32], [b, ti, 0])
+                        active_mask: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.cmps(result_prev, 0, cmp_type=0)
+                        active_count: pl.Tensor[[1, 1], pl.INDEX] = pl.tensor.row_sum(active_mask)
+                        active_count_s: pl.Scalar[pl.INDEX] = pl.tensor.read(active_count, [0, 0])
+                        if active_count_s != 0:
+                            round_has_active: pl.Scalar[pl.INDEX] = 1
+                        key_match: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.cmp(cand_key, keys_tile, cmp_type=0)
+                        hit_mask: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.and(active_mask, key_match)
+                        result_next: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.sel(hit_mask, cand_val, result_prev)
+                        value_ptr_out: pl.Tensor[[1024, 64, 32], pl.INT32] = pl.tensor.assemble(value_ptr_out, result_next, [b, ti, 0])
+            if round_has_active == 0:
+                break
+        return value_ptr_out
diff --git a/examples/batch_hash_lookup_dump/passes_dump/01_after_UnrollLoops.py b/examples/batch_hash_lookup_dump/passes_dump/01_after_UnrollLoops.py
@@ -0,0 +1,42 @@
+# pypto.program: BatchHashLookup
+import pypto.language as pl
+
+@pl.program
+class BatchHashLookup:
+    @pl.function
+    def batch_hash_lookup(self, search_key: pl.Tensor[[1024, 64, 32], pl.INT32], hash_table_size: pl.Tensor[[64, 32], pl.INT32], hash_base_ptr: pl.Tensor[[64, 32], pl.INT32], hash_pool: pl.Tensor[[64, 128, 32], pl.INT32], value_ptr_out: pl.Tensor[[1024, 64, 32], pl.INT32]) -> pl.Tensor[[1024, 64, 32], pl.INT32]:
+        for b in pl.parallel(0, 1024, 32):
+            with pl.incore():
+                for ti in pl.parallel(0, 64, 32):
+                    zero_src: pl.Tensor[[1, 32], pl.INT32] = pl.tensor.view(search_key, [1, 32], [b, ti, 0])
+                    zero_tile: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.mul(zero_src, 0)
+                    value_ptr_out: pl.Tensor[[1024, 64, 32], pl.INT32] = pl.tensor.assemble(value_ptr_out, zero_tile, [b, ti, 0])
+        for probe in pl.range(0, 8, 1):
+            round_has_active: pl.Scalar[pl.INDEX] = 0
+            with pl.incore():
+                for b in pl.parallel(0, 1024, 32):
+                    for ti in pl.parallel(0, 64, 32):
+                        keys_tile: pl.Tensor[[1, 32], pl.INT32] = pl.tensor.view(search_key, [1, 32], [b, ti, 0])
+                        mixed: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.mul(keys_tile, 2654435761)
+                        h_probe: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.ands(pl.tensor.add(mixed, probe * 2246822519), 64 - 1)
+                        cand_key: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.mul(keys_tile, 0)
+                        cand_val: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.mul(keys_tile, 0)
+                        for bucket in pl.range(0, 64, 1):
+                            bucket_mask: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.cmps(h_probe, bucket, cmp_type=0)
+                            bucket_keys: pl.Tensor[[1, 32], pl.INT32] = pl.tensor.view(hash_pool, [1, 32], [ti, bucket, 0])
+                            bucket_vals: pl.Tensor[[1, 32], pl.INT32] = pl.tensor.view(hash_pool, [1, 32], [ti, 64 + bucket, 0])
+                            cand_key: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.sel(bucket_mask, bucket_keys, cand_key)
+                            cand_val: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.sel(bucket_mask, bucket_vals, cand_val)
+                        result_prev: pl.Tensor[[1, 32], pl.INT32] = pl.tensor.view(value_ptr_out, [1, 32], [b, ti, 0])
+                        active_mask: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.cmps(result_prev, 0, cmp_type=0)
+                        active_count: pl.Tensor[[1, 1], pl.INDEX] = pl.tensor.row_sum(active_mask)
+                        active_count_s: pl.Scalar[pl.INDEX] = pl.tensor.read(active_count, [0, 0])
+                        if active_count_s != 0:
+                            round_has_active: pl.Scalar[pl.INDEX] = 1
+                        key_match: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.cmp(cand_key, keys_tile, cmp_type=0)
+                        hit_mask: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.and(active_mask, key_match)
+                        result_next: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.sel(hit_mask, cand_val, result_prev)
+                        value_ptr_out: pl.Tensor[[1024, 64, 32], pl.INT32] = pl.tensor.assemble(value_ptr_out, result_next, [b, ti, 0])
+            if round_has_active == 0:
+                break
+        return value_ptr_out
diff --git a/examples/batch_hash_lookup_dump/passes_dump/02_after_ConvertToSSA.py b/examples/batch_hash_lookup_dump/passes_dump/02_after_ConvertToSSA.py
@@ -0,0 +1,51 @@
+# pypto.program: BatchHashLookup
+import pypto.language as pl
+
+@pl.program
+class BatchHashLookup:
+    @pl.function
+    def batch_hash_lookup(self, search_key_0: pl.Tensor[[1024, 64, 32], pl.INT32], hash_table_size_0: pl.Tensor[[64, 32], pl.INT32], hash_base_ptr_0: pl.Tensor[[64, 32], pl.INT32], hash_pool_0: pl.Tensor[[64, 128, 32], pl.INT32], value_ptr_out_0: pl.Tensor[[1024, 64, 32], pl.INT32]) -> pl.Tensor[[1024, 64, 32], pl.INT32]:
+        for b_0, (value_ptr_out_iter_1,) in pl.parallel(0, 1024, 32, init_values=(value_ptr_out_0,)):
+            with pl.incore():
+                for ti_0, (value_ptr_out_iter_3,) in pl.parallel(0, 64, 32, init_values=(value_ptr_out_iter_1,)):
+                    zero_src_0: pl.Tensor[[1, 32], pl.INT32] = pl.tensor.view(search_key_0, [1, 32], [b_0, ti_0, 0])
+                    zero_tile_0: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.mul(zero_src_0, 0)
+                    value_ptr_out_5: pl.Tensor[[1024, 64, 32], pl.INT32] = pl.tensor.assemble(value_ptr_out_iter_3, zero_tile_0, [b_0, ti_0, 0])
+                    value_ptr_out_4: pl.Tensor[[1024, 64, 32], pl.INT32] = pl.yield_(value_ptr_out_5)
+            value_ptr_out_2: pl.Tensor[[1024, 64, 32], pl.INT32] = pl.yield_(value_ptr_out_4)
+        for probe_0, (b_iter_1, ti_iter_1, value_ptr_out_iter_6) in pl.range(0, 8, 1, init_values=(b_0, ti_0, value_ptr_out_2)):
+            round_has_active_0: pl.Scalar[pl.INDEX] = 0
+            with pl.incore():
+                for b_3, (round_has_active_iter_1, ti_iter_3, value_ptr_out_iter_8) in pl.parallel(0, 1024, 32, init_values=(round_has_active_0, ti_iter_1, value_ptr_out_iter_6)):
+                    for ti_5, (round_has_active_iter_3, value_ptr_out_iter_10) in pl.parallel(0, 64, 32, init_values=(round_has_active_iter_1, value_ptr_out_iter_8)):
+                        keys_tile_0: pl.Tensor[[1, 32], pl.INT32] = pl.tensor.view(search_key_0, [1, 32], [b_3, ti_5, 0])
+                        mixed_0: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.mul(keys_tile_0, 2654435761)
+                        h_probe_0: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.ands(pl.tensor.add(mixed_0, probe_0 * 2246822519), 64 - 1)
+                        cand_key_0: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.mul(keys_tile_0, 0)
+                        cand_val_0: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.mul(keys_tile_0, 0)
+                        for bucket_0, (cand_key_iter_1, cand_val_iter_1) in pl.range(0, 64, 1, init_values=(cand_key_0, cand_val_0)):
+                            bucket_mask_0: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.cmps(h_probe_0, bucket_0, cmp_type=0)
+                            bucket_keys_0: pl.Tensor[[1, 32], pl.INT32] = pl.tensor.view(hash_pool_0, [1, 32], [ti_5, bucket_0, 0])
+                            bucket_vals_0: pl.Tensor[[1, 32], pl.INT32] = pl.tensor.view(hash_pool_0, [1, 32], [ti_5, 64 + bucket_0, 0])
+                            cand_key_3: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.sel(bucket_mask_0, bucket_keys_0, cand_key_iter_1)
+                            cand_val_3: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.sel(bucket_mask_0, bucket_vals_0, cand_val_iter_1)
+                            cand_key_2, cand_val_2 = pl.yield_(cand_key_3, cand_val_3)
+                        result_prev_0: pl.Tensor[[1, 32], pl.INT32] = pl.tensor.view(value_ptr_out_iter_10, [1, 32], [b_3, ti_5, 0])
+                        active_mask_0: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.cmps(result_prev_0, 0, cmp_type=0)
+                        active_count_0: pl.Tensor[[1, 1], pl.INDEX] = pl.tensor.row_sum(active_mask_0)
+                        active_count_s_0: pl.Scalar[pl.INDEX] = pl.tensor.read(active_count_0, [0, 0])
+                        if active_count_s_0 != 0:
+                            round_has_active_5: pl.Scalar[pl.INDEX] = 1
+                            round_has_active_6: pl.Scalar[pl.INDEX] = pl.yield_(round_has_active_5)
+                        else:
+                            round_has_active_6: pl.Scalar[pl.INDEX] = pl.yield_(round_has_active_iter_3)
+                        key_match_0: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.cmp(cand_key_2, keys_tile_0, cmp_type=0)
+                        hit_mask_0: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.and(active_mask_0, key_match_0)
+                        result_next_0: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.sel(hit_mask_0, cand_val_2, result_prev_0)
+                        value_ptr_out_12: pl.Tensor[[1024, 64, 32], pl.INT32] = pl.tensor.assemble(value_ptr_out_iter_10, result_next_0, [b_3, ti_5, 0])
+                        round_has_active_4, value_ptr_out_11 = pl.yield_(round_has_active_6, value_ptr_out_12)
+                    round_has_active_2, ti_4, value_ptr_out_9 = pl.yield_(round_has_active_4, ti_5, value_ptr_out_11)
+            if round_has_active_2 == 0:
+                break
+            b_2, ti_2, value_ptr_out_7 = pl.yield_(b_3, ti_4, value_ptr_out_9)
+        return value_ptr_out_7
diff --git a/examples/batch_hash_lookup_dump/passes_dump/03_after_FlattenCallExpr.py b/examples/batch_hash_lookup_dump/passes_dump/03_after_FlattenCallExpr.py
@@ -0,0 +1,52 @@
+# pypto.program: BatchHashLookup
+import pypto.language as pl
+
+@pl.program
+class BatchHashLookup:
+    @pl.function
+    def batch_hash_lookup(self, search_key_0: pl.Tensor[[1024, 64, 32], pl.INT32], hash_table_size_0: pl.Tensor[[64, 32], pl.INT32], hash_base_ptr_0: pl.Tensor[[64, 32], pl.INT32], hash_pool_0: pl.Tensor[[64, 128, 32], pl.INT32], value_ptr_out_0: pl.Tensor[[1024, 64, 32], pl.INT32]) -> pl.Tensor[[1024, 64, 32], pl.INT32]:
+        for b_0, (value_ptr_out_iter_1,) in pl.parallel(0, 1024, 32, init_values=(value_ptr_out_0,)):
+            with pl.incore():
+                for ti_0, (value_ptr_out_iter_3,) in pl.parallel(0, 64, 32, init_values=(value_ptr_out_iter_1,)):
+                    zero_src_0: pl.Tensor[[1, 32], pl.INT32] = pl.tensor.view(search_key_0, [1, 32], [b_0, ti_0, 0])
+                    zero_tile_0: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.mul(zero_src_0, 0)
+                    value_ptr_out_5: pl.Tensor[[1024, 64, 32], pl.INT32] = pl.tensor.assemble(value_ptr_out_iter_3, zero_tile_0, [b_0, ti_0, 0])
+                    value_ptr_out_4: pl.Tensor[[1024, 64, 32], pl.INT32] = pl.yield_(value_ptr_out_5)
+            value_ptr_out_2: pl.Tensor[[1024, 64, 32], pl.INT32] = pl.yield_(value_ptr_out_4)
+        for probe_0, (b_iter_1, ti_iter_1, value_ptr_out_iter_6) in pl.range(0, 8, 1, init_values=(b_0, ti_0, value_ptr_out_2)):
+            round_has_active_0: pl.Scalar[pl.INDEX] = 0
+            with pl.incore():
+                for b_3, (round_has_active_iter_1, ti_iter_3, value_ptr_out_iter_8) in pl.parallel(0, 1024, 32, init_values=(round_has_active_0, ti_iter_1, value_ptr_out_iter_6)):
+                    for ti_5, (round_has_active_iter_3, value_ptr_out_iter_10) in pl.parallel(0, 64, 32, init_values=(round_has_active_iter_1, value_ptr_out_iter_8)):
+                        keys_tile_0: pl.Tensor[[1, 32], pl.INT32] = pl.tensor.view(search_key_0, [1, 32], [b_3, ti_5, 0])
+                        mixed_0: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.mul(keys_tile_0, 2654435761)
+                        _t0: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.add(mixed_0, probe_0 * 2246822519)
+                        h_probe_0: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.ands(_t0, 64 - 1)
+                        cand_key_0: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.mul(keys_tile_0, 0)
+                        cand_val_0: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.mul(keys_tile_0, 0)
+                        for bucket_0, (cand_key_iter_1, cand_val_iter_1) in pl.range(0, 64, 1, init_values=(cand_key_0, cand_val_0)):
+                            bucket_mask_0: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.cmps(h_probe_0, bucket_0, cmp_type=0)
+                            bucket_keys_0: pl.Tensor[[1, 32], pl.INT32] = pl.tensor.view(hash_pool_0, [1, 32], [ti_5, bucket_0, 0])
+                            bucket_vals_0: pl.Tensor[[1, 32], pl.INT32] = pl.tensor.view(hash_pool_0, [1, 32], [ti_5, 64 + bucket_0, 0])
+                            cand_key_3: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.sel(bucket_mask_0, bucket_keys_0, cand_key_iter_1)
+                            cand_val_3: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.sel(bucket_mask_0, bucket_vals_0, cand_val_iter_1)
+                            cand_key_2, cand_val_2 = pl.yield_(cand_key_3, cand_val_3)
+                        result_prev_0: pl.Tensor[[1, 32], pl.INT32] = pl.tensor.view(value_ptr_out_iter_10, [1, 32], [b_3, ti_5, 0])
+                        active_mask_0: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.cmps(result_prev_0, 0, cmp_type=0)
+                        active_count_0: pl.Tensor[[1, 1], pl.INDEX] = pl.tensor.row_sum(active_mask_0)
+                        active_count_s_0: pl.Scalar[pl.INDEX] = pl.tensor.read(active_count_0, [0, 0])
+                        if active_count_s_0 != 0:
+                            round_has_active_5: pl.Scalar[pl.INDEX] = 1
+                            round_has_active_6: pl.Scalar[pl.INDEX] = pl.yield_(round_has_active_5)
+                        else:
+                            round_has_active_6: pl.Scalar[pl.INDEX] = pl.yield_(round_has_active_iter_3)
+                        key_match_0: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.cmp(cand_key_2, keys_tile_0, cmp_type=0)
+                        hit_mask_0: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.and(active_mask_0, key_match_0)
+                        result_next_0: pl.Tensor[[1, 32], pl.INDEX] = pl.tensor.sel(hit_mask_0, cand_val_2, result_prev_0)
+                        value_ptr_out_12: pl.Tensor[[1024, 64, 32], pl.INT32] = pl.tensor.assemble(value_ptr_out_iter_10, result_next_0, [b_3, ti_5, 0])
+                        round_has_active_4, value_ptr_out_11 = pl.yield_(round_has_active_6, value_ptr_out_12)
+                    round_has_active_2, ti_4, value_ptr_out_9 = pl.yield_(round_has_active_4, ti_5, value_ptr_out_11)
+            if round_has_active_2 == 0:
+                break
+            b_2, ti_2, value_ptr_out_7 = pl.yield_(b_3, ti_4, value_ptr_out_9)
+        return value_ptr_out_7