refmvs.S - mozsearch

/*

 * Copyright © 2023, VideoLAN and dav1d authors

 * Copyright © 2023, Loongson Technology Corporation Limited

 * All rights reserved.

 * Redistribution and use in source and binary forms, with or without

 * modification, are permitted provided that the following conditions are met:

 * 1. Redistributions of source code must retain the above copyright notice, this

 *    list of conditions and the following disclaimer.

 * 2. Redistributions in binary form must reproduce the above copyright notice,

 *    this list of conditions and the following disclaimer in the documentation

 *    and/or other materials provided with the distribution.

 * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND

 * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED

 * WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE

 * DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER OR CONTRIBUTORS BE LIABLE FOR

 * ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES

 * (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;

 * LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND

 * ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT

 * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS

 * SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.

*/

#include "src/loongarch/loongson_asm.S"

/*

static void splat_mv_c(refmvs_block **rr, const refmvs_block *const rmv,

                       const int bx4, const int bw4, int bh4)

*/

function splat_mv_lsx

    vld           vr0,      a1,       0          // 0 1 ... 11 ...

    clz.w         t4,       a3

    vaddi.bu      vr1,      vr0,      0

    addi.w        t4,       t4,       -26

    vextrins.w    vr1,      vr0,      0x30       // 0 1 2 ... 11 0 1 2 3

    la.local      t5,       .SPLAT_LSX_JRTABLE

    vbsrl.v       vr2,      vr1,      4          // 4 5 6 7...11 0 1 2 3 0 0 0 0

    alsl.d        t6,       t4,       t5,     1

    vextrins.w    vr2,      vr0,      0x31       // 4 5 6 7...11 0 1 2 3 4 5 6 7

    ld.h          t7,       t6,       0

    vbsrl.v       vr3,      vr2,      4          // 8 9 10 11 0 1 2 3 4 5 6 7 0 0 0 0

    add.d         t8,       t5,       t7

    alsl.d        a2,       a2,       a2,     1

    vextrins.w    vr3,      vr0,      0x32       // 8 9 10 11 0 1 2 3 4 5 6 7 8 9 10 11

    slli.w        a2,       a2,       2

    jirl          $r0,      t8,       0

.SPLAT_LSX_JRTABLE:

    .hword .SPLAT_W32_LSX - .SPLAT_LSX_JRTABLE

    .hword .SPLAT_W16_LSX - .SPLAT_LSX_JRTABLE

    .hword .SPLAT_W8_LSX  - .SPLAT_LSX_JRTABLE

    .hword .SPLAT_W4_LSX  - .SPLAT_LSX_JRTABLE

    .hword .SPLAT_W2_LSX  - .SPLAT_LSX_JRTABLE

    .hword .SPLAT_W1_LSX  - .SPLAT_LSX_JRTABLE

.SPLAT_W1_LSX:

    ld.d          t3,       a0,       0

    addi.d        a0,       a0,       8

    addi.d        a4,       a4,       -1

    add.d         t3,       t3,       a2

    fst.d         f1,       t3,       0

    fst.s         f3,       t3,       8

    blt           zero,     a4,       .SPLAT_W1_LSX

    b             .splat_end

.SPLAT_W2_LSX:

    ld.d          t3,       a0,       0

    addi.d        a0,       a0,       8

    addi.d        a4,       a4,       -1

    add.d         t3,       t3,       a2

    vst           vr1,      t3,       0

    fst.d         f2,       t3,       16

    blt           zero,     a4,       .SPLAT_W2_LSX

    b             .splat_end

.SPLAT_W4_LSX:

    ld.d          t3,       a0,       0

    addi.d        a0,       a0,       8

    addi.d        a4,       a4,       -1

    add.d         t3,       t3,       a2

    vst           vr1,      t3,       0

    vst           vr2,      t3,       16

    vst           vr3,      t3,       32

    blt           zero,     a4,       .SPLAT_W4_LSX

    b             .splat_end

.SPLAT_W8_LSX:

    ld.d          t3,       a0,       0

    addi.d        a0,       a0,       8

    addi.d        a4,       a4,       -1

    add.d         t3,       t3,       a2

    vst           vr1,      t3,       0

    vst           vr2,      t3,       16

    vst           vr3,      t3,       32

    vst           vr1,      t3,       48

    vst           vr2,      t3,       64

    vst           vr3,      t3,       80

    blt           zero,     a4,       .SPLAT_W8_LSX

    b             .splat_end

.SPLAT_W16_LSX:

    ld.d          t3,       a0,       0

    addi.d        a0,       a0,       8

    addi.d        a4,       a4,       -1

    add.d         t3,       t3,       a2

.rept 2

    vst           vr1,      t3,       0

    vst           vr2,      t3,       16

    vst           vr3,      t3,       32

    vst           vr1,      t3,       48

    vst           vr2,      t3,       64

    vst           vr3,      t3,       80

    addi.d        t3,       t3,       96

.endr

    blt           zero,     a4,       .SPLAT_W16_LSX

    b             .splat_end

.SPLAT_W32_LSX:

    ld.d          t3,       a0,       0

    addi.d        a0,       a0,       8

    addi.d        a4,       a4,       -1

    add.d         t3,       t3,       a2

.rept 4

    vst           vr1,      t3,       0

    vst           vr2,      t3,       16

    vst           vr3,      t3,       32

    vst           vr1,      t3,       48

    vst           vr2,      t3,       64

    vst           vr3,      t3,       80

    addi.d        t3,       t3,       96

.endr

    blt           zero,     a4,       .SPLAT_W32_LSX

.splat_end:

endfunc

const la_div_mult

.short    0, 16384, 8192, 5461, 4096, 3276, 2730, 2340

.short 2048,  1820, 1638, 1489, 1365, 1260, 1170, 1092

.short 1024,   963,  910,  862,  819,  780,  744,  712

.short  682,   655,  630,  606,  585,  564,  546,  528

endconst

/*

 *  temp reg: a6 a7

*/

.macro LOAD_SET_LOOP is_odd

    slli.d          a6,      t6,     2

    add.d           a6,      a6,     t6  // col_w * 5

0:

    addi.d          a7,      zero,   0   // x

.if \is_odd

    stx.w           t7,      t3,     a7

    addi.d          a7,      a7,     5

    bge             a7,      a6,     2f

.endif

1:

    stx.w           t7,      t3,     a7

    addi.d          a7,      a7,     5

    stx.w           t7,      t3,     a7

    addi.d          a7,      a7,     5

    blt             a7,      a6,     1b

2:

    add.d           t3,      t3,     t2

    addi.d          t5,      t5,     1

    blt             t5,      a5,     0b

.endm

/*

 * static void load_tmvs_c(const refmvs_frame *const rf, int tile_row_idx,

 *                         const int col_start8, const int col_end8,

 *                         const int row_start8, int row_end8)

*/

function load_tmvs_lsx

    addi.d         sp,      sp,       -80

    st.d           s0,      sp,       0

    st.d           s1,      sp,       8

    st.d           s2,      sp,       16

    st.d           s3,      sp,       24

    st.d           s4,      sp,       32

    st.d           s5,      sp,       40

    st.d           s6,      sp,       48

    st.d           s7,      sp,       56

    st.d           s8,      sp,       64

    vld           vr16,     a0,       16

    vld           vr0,      a0,       52    // rf->mfmv_ref

    ld.w          s8,       a0,       152   // [0] - rf->n_mfmvs

    vld           vr17,     a0,       168   // [0] - rp_ref| [1]- rp_proj

    ld.d          t1,       a0,       184   // stride

    ld.w          t0,       a0,       200

    addi.w        t0,       t0,       -1

    bnez          t0,       1f

    addi.w        a1,       zero,     0

1:

    addi.d        t0,       a3,       8

    vinsgr2vr.w   vr1,      t0,       0

    vinsgr2vr.w   vr1,      a5,       1

    vmin.w        vr1,      vr1,      vr16  // [0] col_end8i [1] row_end8

    addi.d        t0,       a2,       -8

    bge           t0,       zero,     2f

    addi.w        t0,       zero,     0     // t0 col_start8i

2:

    vpickve2gr.d  t4,       vr17,     1     // rf->rp_proj

    slli.d        t2,       t1,       2

    add.d         t2,       t2,       t1    // stride * 5

    slli.d        a1,       a1,       4     // tile_row_idx * 16

    andi          t3,       a4,       0xf

    add.d         t3,       t3,       a1    // tile_row_idx * 16 + row_start8 & 15

    mul.w         t3,       t3,       t2

    mul.w         t8,       a1,       t2

    vpickve2gr.w  a5,       vr1,      1

    addi.d        t5,       a4,       0

    sub.d         t6,       a3,       a2     // col_end8 - col_start8

    li.w          t7,       0x80008000

    slli.d        a7,       a2,       2

    add.d         t3,       t3,       a2

    add.d         t3,       t3,       a7

    add.d         t3,       t3,       t4     // rp_proj

    andi          a6,       t6,       1

    bnez          a6,       3f

    LOAD_SET_LOOP 0

    b             4f

3:

    LOAD_SET_LOOP 1

4:

    addi.d        a6,       zero,     0      // n

    bge           a6,       s8,       .end_load

    add.d         t3,       t8,       t4     // rp_proj

    mul.w         t6,       a4,       t2

    addi.d        s7,       zero,     40

    vpickve2gr.w  t1,       vr1,      0      // col_end8i

    vbsrl.v       vr2,      vr0,      4      // rf->mfmv_ref2cur

    addi.d        t5,       a0,       64     // rf->mfmv_ref2ref

    la.local      t8,       la_div_mult

    vld           vr6,      t8,       0

    vld           vr7,      t8,       16

    vld           vr8,      t8,       32

    vld           vr9,      t8,       48

    li.w          t8,       0x3fff

    vreplgr2vr.h  vr21,     t8

    vxor.v        vr18,     vr18,     vr18   // zero

    vsub.h        vr20,     vr18,     vr21

    vpickev.b     vr12,     vr7,      vr6

    vpickod.b     vr13,     vr7,      vr6

    vpickev.b     vr14,     vr9,      vr8

    vpickod.b     vr15,     vr9,      vr8

    vpickve2gr.d  s6,       vr17,     0       // rf->rp_ref

5:

    vld           vr10,     t5,       0

    vld           vr11,     t5,       16

    vpickev.h     vr10,     vr11,     vr10

    vpickev.b     vr10,     vr11,     vr10    // [1...7]

    vbsrl.v       vr0,      vr0,      1

    vpickve2gr.wu t8,       vr2,      0       // ref2cur

    vbsrl.v       vr2,      vr2,      4

    srli.d        t4,       t8,       24

    xori          t4,       t4,       0x80

    beqz          t4,       8f

    vreplgr2vr.h  vr23,     t8

    vshuf.b       vr6,      vr14,     vr12,    vr10

    vshuf.b       vr7,      vr15,     vr13,    vr10

    vilvl.b       vr8,      vr7,      vr6

    vmulwev.w.h   vr6,      vr8,      vr23

    vmulwod.w.h   vr7,      vr8,      vr23

    vpickve2gr.b  s0,       vr0,      0       // ref

    slli.d        t8,       s0,       3

    ldx.d         s1,       s6,       t8      // rf->rp_ref[ref]

    addi.d        s0,       s0,       -4      // ref_sign

    vreplgr2vr.h  vr19,     s0

    add.d         s1,       s1,       t6      // &rf->rp_ref[ref][row_start8 * stride]

    addi.d        s2,       a4,       0       // y

    vilvl.w       vr8,      vr7,      vr6

    vilvh.w       vr9,      vr7,      vr6

6:                                            // for (int y = row_start8;

    andi          s3,       s2,       0xff8

    addi.d        s4,       s3,       8

    blt           a4,       s3,       0f

    addi.d        s3,       a4,       0        // y_proj_start

0:

    blt           s4,       a5,       0f

    addi.d        s4,       a5,       0        // y_proj_end

0:

    addi.d        s5,       t0,       0        // x

7:                                             // for (int x = col_start8i;

    slli.d        a7,       s5,       2

    add.d         a7,       a7,       s5

    add.d         a7,       s1,       a7      // rb

    vld           vr3,      a7,       0       // [rb]

    vpickve2gr.b  t4,       vr3,      4       // b_ref

    beqz          t4,       .end_x

    vreplve.b     vr11,     vr10,     t4

    vpickve2gr.b  t7,       vr11,     4       // ref2ref

    beqz          t7,       .end_x

    vsllwil.w.h   vr4,      vr3,      0

    vreplgr2vr.w  vr6,      t4

    vshuf.w       vr6,      vr9,      vr8      // frac

    vmul.w        vr5,      vr6,      vr4

    vsrai.w       vr4,      vr5,      31

    vadd.w        vr4,      vr4,      vr5

    vssrarni.h.w  vr4,      vr4,      14

    vclip.h       vr4,      vr4,      vr20,    vr21  // offset

    vxor.v        vr5,      vr4,      vr19    // offset.x ^ ref_sign

    vori.b        vr5,      vr5,      0x1     // offset.x ^ ref_sign

    vabsd.h       vr4,      vr4,      vr18

    vsrli.h       vr4,      vr4,      6       // abs(offset.x) >> 6

    vsigncov.h    vr4,      vr5,      vr4     // apply_sign

    vpickve2gr.h  s0,       vr4,      0

    add.d         s0,       s2,       s0      // pos_y

    blt           s0,       s3,       .n_posy

    bge           s0,       s4,       .n_posy

    andi          s0,       s0,       0xf

    mul.w         s0,       s0,       t2      // pos

    vpickve2gr.h  t7,       vr4,      1

    add.d         t7,       t7,       s5      // pos_x

    add.d         s0,       t3,       s0      // rp_proj + pos

.loop_posx:

    andi          t4,       s5,       0xff8 // x_sb_align

    blt           t7,       a2,       .n_posx

    addi.d        t8,       t4,       -8

    blt           t7,       t8,       .n_posx

    bge           t7,       a3,       .n_posx

    addi.d        t4,       t4,       16

    bge           t7,       t4,       .n_posx

    slli.d        t4,       t7,       2

    add.d         t4,       t4,       t7      // pos_x * 5

    add.d         t4,       s0,       t4      // rp_proj[pos + pos_x]

    vstelm.w      vr3,      t4,       0,   0

    vstelm.b      vr11,     t4,       4,   4

.n_posx:

    addi.d        s5,       s5,       1       // x + 1

    bge           s5,       t1,       .ret_posx

    addi.d        a7,       a7,       5       // rb + 1

    vld           vr4,      a7,       0       // [rb]

    vseq.b        vr5,      vr4,      vr3

    vpickve2gr.d  t8,       vr5,      0

    cto.d         t8,       t8

    blt           t8,       s7,       7b

    addi.d        t7,       t7,       1       // pos_x + 1

    /*  Core computing loop expansion(sencond)  */

    andi          t4,       s5,       0xff8 // x_sb_align

    blt           t7,       a2,       .n_posx

    addi.d        t8,       t4,       -8

    blt           t7,       t8,       .n_posx

    bge           t7,       a3,       .n_posx

    addi.d        t4,       t4,       16

    bge           t7,       t4,       .n_posx

    slli.d        t4,       t7,       2

    add.d         t4,       t4,       t7      // pos_x * 5

    add.d         t4,       s0,       t4      // rp_proj[pos + pos_x]

    vstelm.w      vr3,      t4,       0,   0

    vstelm.b      vr11,     t4,       4,   4

    addi.d        s5,       s5,       1       // x + 1

    bge           s5,       t1,       .ret_posx

    addi.d        a7,       a7,       5       // rb + 1

    vld           vr4,      a7,       0       // [rb]

    vseq.b        vr5,      vr4,      vr3

    vpickve2gr.d  t8,       vr5,      0

    cto.d         t8,       t8

    blt           t8,       s7,       7b

    addi.d        t7,       t7,       1       // pos_x + 1

    /*  Core computing loop expansion(third)  */

    andi          t4,       s5,       0xff8 // x_sb_align

    blt           t7,       a2,       .n_posx

    addi.d        t8,       t4,       -8

    blt           t7,       t8,       .n_posx

    bge           t7,       a3,       .n_posx

    addi.d        t4,       t4,       16

    bge           t7,       t4,       .n_posx

    slli.d        t4,       t7,       2

    add.d         t4,       t4,       t7      // pos_x * 5

    add.d         t4,       s0,       t4      // rp_proj[pos + pos_x]

    vstelm.w      vr3,      t4,       0,   0

    vstelm.b      vr11,     t4,       4,   4

    addi.d        s5,       s5,       1       // x + 1

    bge           s5,       t1,       .ret_posx

    addi.d        a7,       a7,       5       // rb + 1

    vld           vr4,      a7,       0       // [rb]

    vseq.b        vr5,      vr4,      vr3

    vpickve2gr.d  t8,       vr5,      0

    cto.d         t8,       t8

    blt           t8,       s7,       7b

    addi.d        t7,       t7,       1       // pos_x + 1

    b             .loop_posx

.n_posy:

    addi.d        s5,       s5,       1       // x + 1

    bge           s5,       t1,       .ret_posx

    addi.d        a7,       a7,       5       // rb + 1

    vld           vr4,      a7,       0       // [rb]

    vseq.b        vr5,      vr4,      vr3

    vpickve2gr.d  t8,       vr5,      0

    cto.d         t8,       t8

    blt           t8,       s7,       7b

    addi.d        s5,       s5,       1       // x + 1

    bge           s5,       t1,       .ret_posx

    addi.d        a7,       a7,       5       // rb + 1

    vld           vr4,      a7,       0       // [rb]

    vseq.b        vr5,      vr4,      vr3

    vpickve2gr.d  t8,       vr5,      0

    cto.d         t8,       t8

    blt           t8,       s7,       7b

    b             .n_posy

.end_x:

    addi.d        s5,       s5,       1       // x + 1

    blt           s5,       t1,       7b

.ret_posx:

    add.d         s1,       s1,       t2      // r + stride

    addi.d        s2,       s2,       1       // y + 1

    blt           s2,       a5,       6b

8:

    addi.d        a6,       a6,       1       // n + 1

    addi.d        t5,       t5,       28      // mfmv_ref2ref(offset) + 28

    blt           a6,       s8,       5b

.end_load:

    ld.d           s0,      sp,       0

    ld.d           s1,      sp,       8

    ld.d           s2,      sp,       16

    ld.d           s3,      sp,       24

    ld.d           s4,      sp,       32

    ld.d           s5,      sp,       40

    ld.d           s6,      sp,       48

    ld.d           s7,      sp,       56

    ld.d           s8,      sp,       64

    addi.d         sp,      sp,       80

endfunc

const mv_tbls

    .byte           255, 255, 255, 255, 255, 255, 255, 255, 255, 255, 255, 255, 255, 255, 255, 255

    .byte           0, 1, 2, 3, 8, 0, 1, 2, 3, 8, 0, 1, 2, 3, 8, 0

    .byte           4, 5, 6, 7, 9, 4, 5, 6, 7, 9, 4, 5, 6, 7, 9, 4

    .byte           4, 5, 6, 7, 9, 4, 5, 6, 7, 9, 4, 5, 6, 7, 9, 4

endconst

const mask_mult

    .byte           1, 0, 2, 0, 1, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0

endconst

const mask_mv0

    .byte           1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16

endconst

const mask_mv1

    .byte           4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19

endconst

// void dav1d_save_tmvs_lsx(refmvs_temporal_block *rp, ptrdiff_t stride,

//                          refmvs_block **rr, const uint8_t *ref_sign,

//                          int col_end8, int row_end8,

//                          int col_start8, int row_start8)

function save_tmvs_lsx

    addi.d      sp,         sp,        -0x28

    st.d        s0,         sp,         0x00

    st.d        s1,         sp,         0x08

    st.d        s2,         sp,         0x10

    st.d        s3,         sp,         0x18

    st.d        s4,         sp,         0x20

    move        t0,         ra

    vxor.v      vr10,       vr10,       vr10

    vld         vr11,       a3,         0       // Load ref_sign[0] ~ Load ref_sign[7]

    la.local    t2,         .save_tevs_tbl

    la.local    s1,         mask_mult

    la.local    t7,         mv_tbls

    vld         vr9,        s1,         0       // Load mask_mult

    vslli.d     vr11,       vr11,       8       // 0, ref_sign[0], ... ,ref_sign[6]

    la.local    s3,         mask_mv0

    vld         vr8,        s3,         0       // Load mask_mv0

    la.local    s4,         mask_mv1

    vld         vr7,        s4,         0       // Load mask_mv1

    li.d        s0,         5

    li.d        t8,         12 * 2

    mul.d       a1,         a1,         s0     // stride *= 5

    sub.d       a5,         a5,         a7      // h = row_end8 - row_start8

    slli.d      a7,         a7,         1       // row_start8 <<= 1

1:

    li.d        s0,         5

    andi        t3,         a7,         30      // (y & 15) * 2

    slli.d      s4,         t3,         3

    ldx.d       t3,         a2,         s4      // b = rr[(y & 15) * 2]

    addi.d      t3,         t3,         12      // &b[... + 1]

    mul.d       s4,         a4,         t8

    add.d       t4,         s4,         t3      // end_cand_b = &b[col_end8*2 + 1]

    mul.d       s3,         a6,         t8

    add.d       t3,         s3,         t3      // cand_b = &b[x*2 + 1]

    mul.d       s4,         a6,         s0

    add.d       a3,         s4,         a0      // &rp[x]

2:

    /* First cand_b */

    ld.b        t5,         t3,         10      // cand_b->bs

    vld         vr0,        t3,         0       // cand_b->mv and ref

    alsl.d      t5,         t5,         t2,     2  // bt2 index

    ld.h        s3,         t3,         8       // cand_b->ref

    ld.h        t6,         t5,         0       // bt2

    move        s0,         t2

    alsl.d      t3,         t6,         t3,     1   // Next cand_b += bt2 * 2

    vor.v       vr2,        vr0,        vr0

    vinsgr2vr.h vr1,        s3,         0

    move        t1 ,        t3

    bge         t3,         t4,        3f

    /* Next cand_b */

    ld.b        s0,         t3,         10      // cand_b->bs

    vld         vr4,        t3,         0       // cand_b->mv and ref

    alsl.d      s0,         s0,         t2,     2 // bt2 index

    ld.h        s4,         t3,         8       // cand_b->ref

    ld.h        t6,         s0,         0       // bt2

    alsl.d      t3,         t6,         t3,     1   // Next cand_b += bt2*2

    vpackev.d   vr2,        vr4,        vr0     // a0.mv[0] a0.mv[1] a1.mv[0], a1.mv[1]

    vinsgr2vr.h vr1,        s4,         1   // a0.ref[0] a0.ref[1], a1.ref[0], a1.ref[1]

3:

    vabsd.h     vr2,        vr2,        vr10    // abs(mv[].xy)

    vsle.b      vr16,       vr10,       vr1

    vand.v      vr1,        vr16,       vr1

    vshuf.b     vr1,        vr11,       vr11,   vr1     // ref_sign[ref]

    vsrli.h     vr2,        vr2,        12      // abs(mv[].xy) >> 12

    vilvl.b     vr1,        vr1,        vr1

    vmulwev.h.bu    vr1,    vr1,        vr9    // ef_sign[ref] * {1, 2}

    vseqi.w     vr2,        vr2,        0       // abs(mv[].xy) <= 4096

    vpickev.h   vr2,        vr2,        vr2     // abs() condition to 16 bit

    vand.v      vr1,        vr2,        vr1     // h[0-3] contains conditions for mv[0-1]

    vhaddw.wu.hu    vr1,    vr1,        vr1     // Combine condition for [1] and [0]

    vpickve2gr.wu   s1,     vr1,        0       // Extract case for first block

    vpickve2gr.wu   s2,     vr1,        1

    ld.hu           t5,     t5,         2       // Fetch jump table entry

    ld.hu           s0,     s0,         2

    alsl.d          s3,     s1,         t7,    4   // Load permutation table base on case

    vld             vr1,    s3,         0

    alsl.d          s4,     s2,         t7,    4

    vld             vr5,    s4,         0

    sub.d           t5,     t2,         t5     // Find jump table target

    sub.d           s0,     t2,         s0

    vshuf.b         vr0,    vr0,        vr0,    vr1 // Permute cand_b to output refmvs_temporal_block

    vshuf.b         vr4,    vr4,        vr4,    vr5

    vsle.b          vr16,   vr10,       vr1

    vand.v          vr0,    vr16,       vr0

    vsle.b          vr17,   vr10,       vr5

    vand.v          vr4,    vr17,       vr4

    // v1 follows on v0, with another 3 full repetitions of the pattern.

    vshuf.b         vr1,    vr0,        vr0,    vr8 // 1, 2, 3, ... , 15, 16

    vshuf.b         vr5,    vr4,        vr4,    vr8 // 1, 2, 3, ... , 15, 16

    // v2 ends with 3 complete repetitions of the pattern.

    vshuf.b         vr2,    vr1,        vr0,    vr7

    vshuf.b         vr6,    vr5,        vr4,    vr7    // 4, 5, 6, 7, ... , 12, 13, 14, 15, 16, 17, 18, 19

    jirl            ra,     t5,         0

    bge             t1 ,    t4,         4f      // if (cand_b >= end)

    vor.v           vr0,    vr4,        vr4

    vor.v           vr1,    vr5,        vr5

    vor.v           vr2,    vr6,        vr6

    jirl            ra,     s0,         0

    blt             t3,     t4,         2b      // if (cand_b < end)

4:

    addi.d          a5,     a5,         -1      // h--

    addi.d          a7,     a7,         2       // y += 2

    add.d           a0,     a0,         a1      // rp += stride

    blt             zero,   a5,         1b

    ld.d        s0,         sp,         0x00

    ld.d        s1,         sp,         0x08

    ld.d        s2,         sp,         0x10

    ld.d        s3,         sp,         0x18

    ld.d        s4,         sp,         0x20

    addi.d      sp,         sp,         0x28

    move            ra,     t0

    jirl            zero,   ra,         0x00

10:

    addi.d          s1,     a3,         4

    vstelm.w        vr0,    a3,         0,      0   // .mv

    vstelm.b        vr0,    s1,         0,      4   // .ref

    addi.d          a3,     a3,         5

    jirl            zero,   ra,         0x00

20:

    addi.d          s1,     a3,         8

    vstelm.d        vr0,    a3,         0,      0   // .mv

    vstelm.h        vr0,    s1,         0,      4   // .ref

    addi.d          a3,     a3,         2 * 5

    jirl            zero,   ra,         0x00

40:

    vst             vr0,    a3,         0

    vstelm.w        vr1,    a3,         0x10,   0

    addi.d          a3,     a3,         4 * 5

    jirl            zero,   ra,         0x00

80:

    vst             vr0,    a3,         0

    vst             vr1,    a3,         0x10           // This writes 6 full entries plus 2 extra bytes

    vst             vr2,    a3,         5 * 8 - 16     // Write the last few, overlapping with the first write.

    addi.d          a3,     a3,         8 * 5

    jirl            zero,   ra,         0x00

160:

    addi.d          s1,     a3,         6 * 5

    addi.d          s2,     a3,         12 * 5

    vst             vr0,    a3,         0

    vst             vr1,    a3,         0x10          // This writes 6 full entries plus 2 extra bytes

    vst             vr0,    a3,         6 * 5

    vst             vr1,    a3,         6 * 5 + 16    // Write another 6 full entries, slightly overlapping with the first set

    vstelm.d        vr0,    s2,         0,      0     // Write 8 bytes (one full entry) after the first 12

    vst             vr2,    a3,         5 * 16 - 16   // Write the last 3 entries

    addi.d          a3,     a3,         16 * 5

    jirl            zero,   ra,         0x00

.save_tevs_tbl:

        .hword 16 * 12   // bt2 * 12, 12 is sizeof(refmvs_block)

        .hword .save_tevs_tbl - 160b

        .hword 16 * 12

        .hword .save_tevs_tbl - 160b

        .hword 8 * 12

        .hword .save_tevs_tbl -  80b

        .hword 8 * 12

        .hword .save_tevs_tbl -  80b

        .hword 8 * 12

        .hword .save_tevs_tbl -  80b

        .hword 8 * 12

        .hword .save_tevs_tbl -  80b

        .hword 4 * 12

        .hword .save_tevs_tbl -  40b

        .hword 4 * 12

        .hword .save_tevs_tbl -  40b

        .hword 4 * 12

        .hword .save_tevs_tbl -  40b

        .hword 4 * 12

        .hword .save_tevs_tbl -  40b

        .hword 2 * 12

        .hword .save_tevs_tbl -  20b

        .hword 2 * 12

        .hword .save_tevs_tbl -  20b

        .hword 2 * 12

        .hword .save_tevs_tbl -  20b

        .hword 2 * 12

        .hword .save_tevs_tbl -  20b

        .hword 2 * 12

        .hword .save_tevs_tbl -  20b

        .hword 1 * 12

        .hword .save_tevs_tbl -  10b

        .hword 1 * 12

        .hword .save_tevs_tbl -  10b

        .hword 1 * 12

        .hword .save_tevs_tbl -  10b

        .hword 1 * 12

        .hword .save_tevs_tbl -  10b

        .hword 1 * 12

        .hword .save_tevs_tbl -  10b

        .hword 1 * 12

        .hword .save_tevs_tbl -  10b

        .hword 1 * 12

        .hword .save_tevs_tbl -  10b

endfunc

Source code

Revision control

Copy as Markdown

Other Tools