o Ù,ËhB6ã#@s UddlZddlZddlmZmZddlZddlmZejdedZiZ e ejjefe d<ehd£ƒZded ed eegeffdd„Zed dƒ d;ddddœdejdejdejdeejdededed ejfdd„ƒZdeeded efdd„Zdejdeded ejfd d!„Zd"ejd#ejd$ed%edeed&ed ejfd'd(„Zd$ed%ed dfd)d*„Zd"ejd#ejd$ed%edeed ejfd+d,„Zed-dƒ déé ééÚop_typeÚ opset_versionÚreturncsdtdtf‡‡fdd„}|S)zDDecorator to register an ONNX operator with a custom implementation.ÚfuncrcsPdˆ›}tjjdˆ›d|›dd|ƒ}|ttttjjˆƒ|ƒ<| |¡|S)NÚopsetzonnx::Ú.©)Úmutates_args)ÚtorchÚlibraryÚ custom_oprÚgetattrÚopsÚonnxÚ register_fake)rÚoverloadÚtorch_op©rr rúO/var/www/html/scripts/venv/lib/python3.10/site-packages/torch/onnx/ops/_impl.pyÚ decorators ÿþÿ z_onnx_op..decorator)r)rr rrrrÚ_onnx_ops r ÚRotaryEmbeddingéF)ÚinterleavedÚ num_headsÚrotary_embedding_dimÚxÚ cos_cacheÚ sin_cacheÚposition_idsr#r$r%csNˆjd}ˆjd}tˆjƒdkr2ˆjd} t |dk‡fdd„¡| |} |||| g}t ˆ|¡‰t tˆjƒdkdd„¡ˆjd} |dkrJ| }ˆd d …d d …d d …d |…f}ˆd d …d d …d d …|d …f} |d}|d ur{||}||}n|}|}|d d …d d …d |…f}|d d …d d …d |…f}t |d¡}t |d¡}|rÊ|d d …d d …d d …dd d…f}|d d …d d …d d …dd d…f}n tj|dd d\}}||||}||||}|rt |d ¡}t |d ¡}tj||fd d}t ||j¡}n tj||fd d}tj|| fd d}tˆjƒdkr%t |ˆj¡}|S)z_RotaryEmbedding-23 https://onnx.ai/onnx/operators/onnx__RotaryEmbedding.html#rotaryembedding-23rréécsdˆj›S)NzKnum_heads must be provided for 3D inputs. Received input tensor with shape )Úshaper©r&rrÚ>sz%rotary_embedding_23..écSódS)Nzx should be a 4D tensor by nowrrrrrr.CóNéÿÿÿÿ©Údim)r,ÚlenrÚ_checkÚreshapeÚ unsqueezeÚchunkÚcat)r&r'r(r)r#r$r%Ú batch_sizeÚsequence_lengthÚhidden_sizeÚ head_sizeÚ new_shapeÚx_rotateÚx_not_rotateÚrotary_embedding_dim_halfÚcosÚsinÚx1Úx2ÚrealÚimagÚx_rotate_concatÚoutputrr-rÚrotary_embedding_23+sn þ ÿÿÿÿÿÿ"$rKÚscaler>cCs|dur|Sdt |¡S)z/Get the scale factor for attention computation.Ngð?)ÚmathÚsqrt)rLr>rrrÚ_get_scale_factorsrOÚtensorr;cCs:|jd|jd}}||}| ||||¡ dd¡ ¡S)z1Reshape 3D tensor to 4D for multi-head attention.rr+)r,ÚviewÚ transposeÚ contiguous)rPr;r$r<r=r>rrrÚ_reshape_3d_to_4d†sýrTÚQÚKÚcurrent_q_num_headsÚcurrent_kv_num_headsÚqk_matmul_output_modec Cs2|dkrt|||||ƒSt t || dd¡¡¡S)z1Get QK output tensor based on the specified mode.réþÿÿÿr2)Ú_compute_qk_output_for_mode_0rÚ zeros_likeÚmatmulrR)rUrVrWrXrLrYrrrÚ_get_qk_output_for_aten_spda“s ÿr^cs"t ˆˆdk‡‡fdd„¡dS)z-Validate Group Query Attention configuration.rcsdˆ›dˆ›dS)Nz q_num_heads (z%) must be divisible by kv_num_heads (z ) for GQArr©rXrWrrr.«sz-_validate_gqa_configuration..N)rr6)rWrXrr_rÚ_validate_gqa_configuration¥s þr`cCs`|}||kr||}|j|dd}t||jdƒ}t |¡}||} ||} t | | dd¡¡S)zDHelper function to compute QK output for qk_matmul_output_mode == 0.rr3r*rZr2)Úrepeat_interleaverOr,rMrNrr]rR)rUrVrWrXrLÚK_for_qkÚ repeat_factorÚscale_factorÚ sqrt_scaleÚQ_scaledÚK_scaledrrrr[¯s r[Ú Attentionç)Ú is_causalÚkv_num_headsÚq_num_headsrYrLÚsoftcapÚsoftmax_precisionÚVÚ attn_maskÚpast_keyÚ past_valuerjrkrlrmrnc(Cs¸d\} }}t|jƒ}|jd}t|jƒdkr;t |dko|dkdd„¡|jd}t|||ƒ}t|||ƒ}t|||ƒ}t t|jƒdkoQt|jƒdkoQt|jƒdkdd„¡|j|}t| |ƒ} |d urmtj||g|d n| ¡}|d ur~tj||g|d n| ¡}||}}|j| }|j| }|j|}|j|}|dko°| dko°|d uo°|d up°|jtj k}t ||ƒ|ræd }|d urÉ|jtj krÇ|n|}tjjj ||||d|| t ||kƒd}t||||| | ƒ}nÞ||krü||}|j|| d }|j|| d }tj|||j|jd }|r+t |d udd„¡t tj||tj |jd ¡}| |tdƒ¡}|d urE|jtj krA| |tdƒ¡}n||}t| |jdƒ} t | ¡}!||!}"||!}#t |"|# dd¡¡}$|$}|$|}%| dkrq|%}|dkr|t |%|¡}%| dkr†|%}|d ur°|tvr¨|%j}&|% tj|¡}%tj|%dd }'|' |&¡}'ntj|%dd }'ntj|%dd }'| dkr¾|'}t |'|¡}|dkrÖ| dd¡ ¡ !||d¡}||||fS)zMAttention-23 https://onnx.ai/onnx/operators/onnx__Attention.html#attention-23)rr+r*rr*cSr0)Nz;q_num_heads and kv_num_heads must be provided for 3D inputsrrrrrr.âr1zattention_23..rr/cSr0)Nz'Q, K, and V should be 4D tensors by nowrrrrrr.ër1Nr3ri)rpÚ dropout_prjrLÚ enable_gqa)ÚdtypeÚdevicecSr0)Nz'Cannot use both is_causal and attn_maskrrrrrr.@r1z-infrZr2r+)"r5r,rr6rTrOr:ÚcloneruÚboolr`ÚnnÚ functionalÚscaled_dot_product_attentionr^raÚzerosrvÚtrilÚonesÚmasked_fillÚfloatrMrNr]rRÚtanhÚ-_ATTENTION_23_ALLOWED_INTERMEDIATE_PRECISIONSÚtorÚONNX_DTYPE_TO_TORCH_DTYPEÚsoftmaxrSrQ)(rUrVrorprqrrrjrkrlrYrLrmrnÚnum_head_dimÚsequence_dimÚhead_dimÚinput_shape_lenr;Úq_sequence_lengthÚq_head_sizeÚpresent_keyÚ present_valuerWrXÚkv_sequence_lengthÚcan_use_sdpaÚsdpa_attn_maskrJÚ qk_outputrcÚ attn_biasÚcausal_maskrdrerfrgÚqk_matmul_outputÚqk_with_biasÚoriginal_dtypeÚ qk_softmaxrrrÚattention_23Åsê þ (þ ÿýÿý ÿþü ÿø úÿÿüÿ ÿ ÿr˜)N)NNN)rMÚtypingrrrÚtorch.onnx.opsrÚTypeVarrrÚdictÚ_opsÚ OpOverloadÚ__annotations__Ú frozensetr‚ÚstrÚintr ÚTensorrxrKr€rOrTr^r`r[Útupler˜rrrrÚsð ÿ üøÿþýüúùø ÷Uÿÿÿ þ ÿþýüûú ùÿÿ þ ÿþýüû úúòÿþýüûúø ÷ öõô óòñ