ltp_sse.h
Go to the documentation of this file.00001
00002
00003
00004
00005
00006
00007
00008
00009
00010
00011
00012
00013
00014
00015
00016
00017
00018
00019
00020
00021
00022
00023
00024
00025
00026
00027
00028
00029
00030
00031
00032
00033
00034 static float inner_prod(float *a, float *b, int len)
00035 {
00036 float sum;
00037 __asm__ __volatile__ (
00038 "\tpush %%eax\n"
00039 "\tpush %%edi\n"
00040 "\tpush %%ecx\n"
00041 "\txorps %%xmm3, %%xmm3\n"
00042 "\txorps %%xmm4, %%xmm4\n"
00043
00044 "\tsub $20, %%ecx\n"
00045
00046 ".mul20_loop%=:\n"
00047
00048 "\tmovups (%%eax), %%xmm0\n"
00049 "\tmovups (%%edi), %%xmm1\n"
00050 "\tmulps %%xmm0, %%xmm1\n"
00051
00052 "\tmovups 16(%%eax), %%xmm5\n"
00053 "\tmovups 16(%%edi), %%xmm6\n"
00054 "\tmulps %%xmm5, %%xmm6\n"
00055 "\taddps %%xmm1, %%xmm3\n"
00056
00057 "\tmovups 32(%%eax), %%xmm0\n"
00058 "\tmovups 32(%%edi), %%xmm1\n"
00059 "\tmulps %%xmm0, %%xmm1\n"
00060 "\taddps %%xmm6, %%xmm4\n"
00061
00062 "\tmovups 48(%%eax), %%xmm5\n"
00063 "\tmovups 48(%%edi), %%xmm6\n"
00064 "\tmulps %%xmm5, %%xmm6\n"
00065 "\taddps %%xmm1, %%xmm3\n"
00066
00067 "\tmovups 64(%%eax), %%xmm0\n"
00068 "\tmovups 64(%%edi), %%xmm1\n"
00069 "\tmulps %%xmm0, %%xmm1\n"
00070 "\taddps %%xmm6, %%xmm4\n"
00071 "\taddps %%xmm1, %%xmm3\n"
00072
00073
00074 "\tadd $80, %%eax\n"
00075 "\tadd $80, %%edi\n"
00076
00077 "\tsub $20, %%ecx\n"
00078
00079 "\tjae .mul20_loop%=\n"
00080
00081 "\taddps %%xmm4, %%xmm3\n"
00082
00083 "\tmovhlps %%xmm3, %%xmm4\n"
00084 "\taddps %%xmm4, %%xmm3\n"
00085 "\tmovaps %%xmm3, %%xmm4\n"
00086 "\tshufps $0x55, %%xmm4, %%xmm4\n"
00087 "\taddss %%xmm4, %%xmm3\n"
00088 "\tmovss %%xmm3, (%%edx)\n"
00089
00090 "\tpop %%ecx\n"
00091 "\tpop %%edi\n"
00092 "\tpop %%eax\n"
00093 : : "a" (a), "D" (b), "c" (len), "d" (&sum) : "memory");
00094 return sum;
00095 }
Generated on Mon Oct 11 15:42:53 2004 for speex by
1.3.7