Context Navigation

← Previous Revision
Latest Revision
Next Revision →
Blame
Revision Log

compute.c @ 152

Last change on this file since 152 was 152, checked in by (none), 14 years ago

File size: 5.9 KB

Line
1	/* compute.c */
2	#include "SolarSim.h"
3
4	inline void
5	v_init( vector *v, real x, real y, real z ) {
6	v->x = x;
7	v->y = y;
8	v->z = z;
9	}
10
11	#if __INTEL_COMPILER
12	#if defined _DOUBLE_PRECISION_
13	/* double precision using SSE instructions */
14	inline void
15	compute_acc( vector rv1, vector rv2, vector vv1, vector vv2, vector av1, vector av2, real m1, real m2 ) {
16	__m128d r11, r12, r21, r22, d1, d2, t1, t2, a11, a12, a21, a22;
17	double tmp;
18
19	// load position vectors into SSE registers
20	r11 = _mm_loadu_pd((double*)rv1); // (x1, y1)
21	r12 = _mm_load1_pd((double*)rv1+2); // (z1, z1)
22	r21 = _mm_loadu_pd((double*)rv2); // (x2, y2)
23	r22 = _mm_load1_pd((double*)rv2+2); // (z2, z2)
24
25	// load acceleration vectors
26	a11 = _mm_loadu_pd((double*)av1);
27	a12 = _mm_load1_pd((double*)av1+2);
28	a21 = _mm_loadu_pd((double*)av2);
29	a22 = _mm_load1_pd((double*)av2+2);
30	// d = r2 - r1
31	d1= _mm_sub_pd(r21, r11); // (dx dy)
32	d2= _mm_sub_pd(r22, r12); // (dz dz)
33
34	t1 = _mm_mul_pd(d1, d1); // (dx^2, dy^2)
35	t2 = _mm_mul_pd(d2, d2); // (dz^2, dz^2)
36	t1 = _mm_hadd_pd(t1, t1); // (dx^2+dy^2, dx^2+dy^2)
37	t1 = _mm_add_pd(t1, t2); // (dx^2+dy^2+dz^2, dx^2+dy^2+dz^2)
38
39	t2 = _mm_sqrt_pd(t1); // t2 = (norm(d), norm(d))
40	d1 = _mm_div_pd(d1, t1); // d = d * (norm(d) ^(-3))
41	d1 = _mm_div_pd(d1, t2); // d = d * (norm(d) ^(-3))
42	d2 = _mm_div_pd(d2, t1); // d = d * (norm(d) ^(-3))
43	d2 = _mm_div_pd(d2, t2); // d = d * (norm(d) ^(-3))
44
45	tmp = G * m2;
46	t1 = _mm_load1_pd(&tmp);
47	t2 = _mm_mul_pd(t1, d1);
48	a11 = _mm_add_pd(a11, t2);
49	t2 = _mm_mul_pd(t1, d2);
50	a12 = _mm_add_pd(a12, t2);
51
52	tmp = - G * m1;
53	t1 = _mm_load1_pd(&tmp);
54	t2 = _mm_mul_pd(t1, d1);
55	a21 = _mm_add_pd(a21, t2);
56	t2 = _mm_mul_pd(t1, d2);
57	a22 = _mm_add_pd(a22, t2);
58
59	_mm_storeu_pd((double*)av1, a11);
60	_mm_store_sd((double*)av1+2, a12);
61	_mm_storeu_pd((double*)av2, a21);
62	_mm_store_sd((double*)av2+2, a22);
63	}
64
65	inline void
66	update_pos_vel( vector rv, vector vv, vector *av, long DT ) {
67	__m128d r1, r2, v1, v2, a1, a2, t1, t2;
68	double tmp;
69
70	r1 = _mm_loadu_pd((double*)rv);
71	r2 = _mm_load1_pd((double*)rv+2);
72	v1 = _mm_loadu_pd((double*)vv);
73	v2 = _mm_load1_pd((double*)vv+2);
74	a1 = _mm_loadu_pd((double*)av);
75	a2 = _mm_load1_pd((double*)av+2);
76
77	tmp = DT;
78	t1 = _mm_load1_pd(&tmp); // t1 = (DT,DT)
79
80	t2 = _mm_mul_pd(v1, t1); // t2 = (vxDT,vyDT)
81	r1 = _mm_add_pd(r1, t2); // r1 = (rx+vxDT, ry+vyDT)
82	t2 = _mm_mul_pd(v2, t1); // t2 = (vzDT,vzDT)
83	r2 = _mm_add_pd(r2, t2); // r2 = (rz+vzDT, rz+vzDT)
84
85	t2 = _mm_mul_pd(a1, t1); // t2 = (axDT, ayDT)
86	v1 = _mm_add_pd(v1, t2); // v1 = (vx+axDT, vy+ayDT)
87	t2 = _mm_mul_pd(a2, t1); // t2 = (azDT, azDT)
88	v2 = _mm_add_pd(v2, t2); // v1 = (vz+azDT, vz+azDT)
89
90	tmp = DT*DT/2;
91	t1 = _mm_load1_pd(&tmp); // t1 = (DTDT/2, DTDT/2)
92
93	t2 = _mm_mul_pd(a1, t1); // t2 = (axDTDT/2,ayDTDT/2)
94	r1 = _mm_add_pd(r1, t2); // r1 = (rx+vxDT+axDTDT/2, ry+vyDT+ayDTDT/2)
95	t2 = _mm_mul_pd(a2, t1); // t2 = (azDTDT/2,azDTDT/2)
96	r2 = _mm_add_pd(r2, t2); // r2 = (rz+vzDT+azDTDT/2, rz+vzDT+azDTDT/2)
97
98	_mm_storeu_pd((double*)rv, r1);
99	_mm_store_sd((double*)rv+2, r2);
100	_mm_storeu_pd((double*)vv, v1);
101	_mm_store_sd((double*)vv+2, v2);
102	}
103
104	#elif defined _SINGLE_PRECISION_
105	/* single precision using SSE instructions */
106	inline void
107	compute_acc( vector rv1, vector rv2, vector vv1, vector vv2, vector av1, vector av2, real m1, real m2 ) {
108	__m128 r1, r2, d, t1, t2, a1, a2;
109	float tmp;
110
111	// load position and acceleration vectors into SSE registers
112	r1 = _mm_loadu_ps((float*)rv1);
113	r2 = _mm_loadu_ps((float*)rv2);
114	a1 = _mm_loadu_ps((float*)av1);
115	a2 = _mm_loadu_ps((float*)av2);
116
117	d = _mm_sub_ps(r2, r1); // d = r2 - r1
118	t1 = _mm_mul_ps(d, d);
119	t1 = _mm_hadd_ps(t1, t1);
120	t1 = _mm_hadd_ps(t1, t1); // t1 = norm(d) ^ 2
121	t2 = _mm_rcp_ps(t1); // t2 = norm(d) ^ (-2)
122	t1 = _mm_rsqrt_ps(t1); // t1 = norm(d) ^ (-1)
123	d = _mm_mul_ps(d, t1); // d = d * (norm(d) ^(-1))
124	d = _mm_mul_ps(d, t2); // d = d * (norm(d) ^(-3))
125
126	tmp = G * m2;
127	t1 = _mm_load1_ps(&tmp);
128	t1 = _mm_mul_ps(t1, d);
129	a1 = _mm_add_ps(a1, t1);
130
131	tmp = - G * m1;
132	t2 = _mm_load1_ps(&tmp);
133	t2 = _mm_mul_ps(t2, d);
134	a2 = _mm_add_ps(a2, t2);
135
136	_mm_storeu_ps((float*)av1, a1);
137	_mm_storeu_ps((float*)av2, a2);
138	}
139
140	inline void
141	update_pos_vel( vector rv, vector vv, vector *av, long DT ) {
142	__m128 r, v, a, t1, t2;
143	float tmp;
144
145	r = _mm_loadu_ps((float*)rv);
146	v = _mm_loadu_ps((float*)vv);
147	a = _mm_loadu_ps((float*)av);
148
149	tmp = DT;
150	t1 = _mm_load1_ps(&tmp); // t1 = (DT,DT,DT)
151	t2 = _mm_mul_ps(v, t1); // t2 = v*DT
152	r = _mm_add_ps(r, t2); // r = r + v*DT
153
154	t2 = _mm_mul_ps(a, t1); // t2 = a*DT
155	v = _mm_add_ps(v, t2); // v = v + a*DT
156
157	tmp = DT*DT/2;
158	t1 = _mm_load1_ps(&tmp);
159	t2 = _mm_mul_ps(a, t1); // t2 = a * (DT*DT/2)
160	r = _mm_add_ps(r, t2); // r = r + vDT + a(DT*DT/2)
161
162	_mm_storeu_ps((float*)rv, r);
163	_mm_storeu_ps((float*)vv, v);
164	}
165	#else
166	#error "Either _SINGLE_PRECISION_ or _DOUBLE_PRECISION_ must be defined"
167	#endif
168
169	#else
170	/* Compatibility mode without SSE instructions */
171	inline void
172	compute_acc( vector rv1, vector rv2, vector vv1, vector vv2, vector av1, vector av2, real m1, real m2 ) {
173	// varianta fara SSE
174	vector d;
175	real w, norm3;
176
177	d.x = rv2->x - rv1->x;
178	d.y = rv2->y - rv1->y;
179	d.z = rv2->z - rv1->z;
180
181	w = d.xd.x + d.yd.y + d.z*d.z; // norm^2
182	norm3 = w * sqrt(w); // norm^3
183
184	av1->x += G * m2 * d.x / norm3;
185	av1->y += G * m2 * d.y / norm3;
186	av1->z += G * m2 * d.z / norm3;
187
188	av2->x -= G * m1 * d.x / norm3;
189	av2->y -= G * m1 * d.y / norm3;
190	av2->z -= G * m1 * d.z / norm3;
191	}
192
193	inline void
194	update_pos_vel( vector rv, vector vv, vector *av, long DT ) {
195	rv->x = rv->x + vv->x * DT + av->x * (DT*DT)/2;
196	rv->y = rv->y + vv->y * DT + av->y * (DT*DT)/2;
197	rv->z = rv->z + vv->z * DT + av->z * (DT*DT)/2;
198
199	vv->x = vv->x + av->x * DT;
200	vv->y = vv->y + av->y * DT;
201	vv->z = vv->z + av->z * DT;
202	}
203	#endif
204

Note: See TracBrowser for help on using the repository browser.

Context Navigation

source: proiecte/SolarSim/C/Parallel/src/compute.c @ 152

Download in other formats: