Forum: Mikrocontroller und Digitale Elektronik Einflußfaktoren zur Rechendauer bei Divisionen

Einflußfaktoren zur Rechendauer bei Divisionen

von Walter T. (nicolas)

07.01.2018 08:55

Lesenswert?

•

Guten Morgen,

ich habe eine Division einer 64-Bit-Zahl durch eine 32-Bit-Zahl habe 
(keine davon konstant), das Ergebnis ist eine 32-Bit-Zahl. In 
C-Pseudocode:

int32_t r, a, z, n
r = (int64_t) a*z/n;


Wovon hängt dann die Ausführungsdauer dieser Operation auf einer kleinen 
Plattform (konkret ARM Cortex M3 und M4, deren Divisionseinheit ja 
durchaus unterschiedlich ist) ab?

Vorstellen könnte ich mir:
 - Betrag des Divisors
 - Betrag des Dividenden
 - Nähe des Divisors zu einer Zweierpotenz (oder Abstand in einer 
bestimmten Richtung)

Konkrete Angaben über die implementierten Algorithmen oder 
Einflußfaktoren für die Ausführungsdauer finde ich allerdings nicht.

Hier geht es mir wirklich mal um eine Mikrooptimierung in einer 
hochfrequent aufgerufenen ISR. Konkret frage ich mich, ob es sinnvoll 
ist, den Bruch z/n
 a) zu kürzen
 b) durch Division durch eine Zweierpotenz anzunähern (was Zähler und 
Nenner vergrößert)
 c) nichts zu machen.


Viele Grüße
W.T.

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Einflußfaktoren zur Rechendauer bei Divisionen

von Possetitjel (Gast)

07.01.2018 09:44

Lesenswert?

•

▲
▼

Walter T. schrieb:

> Hier geht es mir wirklich mal um eine Mikrooptimierung
> in einer hochfrequent aufgerufenen ISR. Konkret frage
> ich mich, ob es sinnvoll ist, den Bruch z/n
>  a) zu kürzen
>  b) durch Division durch eine Zweierpotenz anzunähern
>     (was Zähler und Nenner vergrößert)
>  c) nichts zu machen.

d) durch einen Kettenbruch anzunähern,
e) in die Multiplikation z*(1/n) umzuformen.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Einflußfaktoren zur Rechendauer bei Divisionen

von Walter T. (nicolas)

07.01.2018 10:01

Lesenswert?

•

▲
▼

Possetitjel schrieb:
> d) durch einen Kettenbruch anzunähern,

Wie ist das gemeint? n in eine Zweierpotenz und einen Rest aufteilen?

Possetitjel schrieb:
> e) in die Multiplikation z*(1/n) umzuformen.

Verstehe ich nicht. Wenn z,n Integer sind, ist 1/n Null (für n != 1).


Aber was ich bei der Fragestellung tatsächlich vergessen habe:

Der Bruch z,n ändert sich selten und kann deswegen in Ruhe poliert 
werden, a ändert sich ständig, weswegen die Gesamtoperation r = a*z/n 
ziemlich häufig durchgeführt werden muß.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Einflußfaktoren zur Rechendauer bei Divisionen

von Nico W. (nico_w)

07.01.2018 10:04

Lesenswert?

•

▲
▼

https://stackoverflow.com/a/4144654

Sowas z.B.


Wenn sich nur a ändert kann man Z und n vorher berechnen.

qn und rn in dem Code oben.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Einflußfaktoren zur Rechendauer bei Divisionen

von Mark (Gast)

07.01.2018 10:33

Lesenswert?

•

▲
▼

Walter T. schrieb:
> Wovon hängt dann die Ausführungsdauer dieser Operation auf einer kleinen
> Plattform (konkret ARM Cortex M3 und M4, deren Divisionseinheit ja
> durchaus unterschiedlich ist) ab?
>
> Vorstellen könnte ich mir:
>  - Betrag des Divisors
>  - Betrag des Dividenden
>  - Nähe des Divisors zu einer Zweierpotenz (oder Abstand in einer
> bestimmten Richtung)
>
> Konkrete Angaben über die implementierten Algorithmen oder
> Einflußfaktoren für die Ausführungsdauer finde ich allerdings nicht.

Da musst du im Source-Code der Laufzeit-Bibliothek deines Compilers 
nachsehen. Weder Cortex-M3 noch Cortex-M4 haben eingebaute 64 Bit 
Divisionsbefehle. Daher muss der Algorithmus in Software implementiert 
sein, natürlich unter Verwendung der vorhandenen Assemblerbefehle.

Erschwerend oder vereinfacht kommt hinzu, dass der C Standard fordert, 
dass eine gemischte 64-Bit durch 32-Bit Division als 64-Bit durch 64-Bit 
ausgeführt werden muss. Bei einfach gebauten Compilern vereinfacht das 
die Dinge, da der Compiler den Divisor wirklich auf 64 Bit erweitert und 
64-Bit/64-Bit rechnet. Bei kompliziert/clever gebauten Compilern oder 
nicht standardkonformen Compilern kann das anders aussehen. Da mag der 
Optimizer den Sonderfall erkennen und eine spezielle 64-Bit/32-Bit 
Funktion aufrufen.

Für CLang habe ich den Code relativ fix finden können:

http://releases.llvm.org/5.0.1/compiler-rt-5.0.1.src.tar.xz

Da drin dann in compiler-rt-5.0.1.src\lib\builtins\

divdi3.c, das udivmoddi4.c aufruft (im Sourcecode auch udivmoddi6.c 
genannt). Und udivmoddi4.c hat es in sich. Du findest haufenweise 
Fallunterscheidungen im Code, damit hättest du eine erste Näherung wovon 
die Brechung zur Laufzeit abhängt.

/* ===-- udivmoddi6.c - Implement __udivmoddi4 -----------------------------===
 *                     The LLVM Compiler Infrastructure
 * This file is dual licensed under the MIT and the University of Illinois Open
 * Source Licenses. See LICENSE.TXT for details.
 * ===----------------------------------------------------------------------===
 * This file implements __udivmoddi4 for the compiler_rt library.
 * ===----------------------------------------------------------------------===
#include "int_lib.h"
/* Effects: if rem != 0, *rem = a % b
 * Returns: a / b
/* Translated from Figure 3-40 of The PowerPC Compiler Writer's Guide */
COMPILER_RT_ABI du_int
__udivmoddi4(du_int a, du_int b, du_int* rem)
    const unsigned n_uword_bits = sizeof(su_int) * CHAR_BIT;
    const unsigned n_udword_bits = sizeof(du_int) * CHAR_BIT;
    udwords n;
    n.all = a;
    udwords d;
    d.all = b;
    udwords q;
    udwords r;
    unsigned sr;
    /* special cases, X is unknown, K != 0 */
    if (n.s.high == 0)
        if (d.s.high == 0)
            if (rem)
                *rem = n.s.low % d.s.low;
            return n.s.low / d.s.low;
         * ---
        if (rem)
            *rem = n.s.low;
        return 0;
    /* n.s.high != 0 */
    if (d.s.low == 0)
        if (d.s.high == 0)
            if (rem)
                *rem = n.s.high % d.s.low;
            return n.s.high / d.s.low;
        /* d.s.high != 0 */
        if (n.s.low == 0)
            if (rem)
                r.s.high = n.s.high % d.s.high;
                r.s.low = 0;
                *rem = r.all;
            return n.s.high / d.s.high;
        /* K K
         * ---
        if ((d.s.high & (d.s.high - 1)) == 0)     /* if d is a power of 2 */
            if (rem)
                r.s.low = n.s.low;
                r.s.high = n.s.high & (d.s.high - 1);
                *rem = r.all;
            return n.s.high >> __builtin_ctz(d.s.high);
        /* K K
         * ---
        sr = __builtin_clz(d.s.high) - __builtin_clz(n.s.high);
        /* 0 <= sr <= n_uword_bits - 2 or sr large */
        if (sr > n_uword_bits - 2)
           if (rem)
                *rem = n.all;
            return 0;
        ++sr;
        /* 1 <= sr <= n_uword_bits - 1 */
        /* q.all = n.all << (n_udword_bits - sr); */
        q.s.low = 0;
        q.s.high = n.s.low << (n_uword_bits - sr);
        /* r.all = n.all >> sr; */
        r.s.high = n.s.high >> sr;
        r.s.low = (n.s.high << (n_uword_bits - sr)) | (n.s.low >> sr);
    else  /* d.s.low != 0 */
        if (d.s.high == 0)
            if ((d.s.low & (d.s.low - 1)) == 0)     /* if d is a power of 2 */
                if (rem)
                    *rem = n.s.low & (d.s.low - 1);
                if (d.s.low == 1)
                    return n.all;
                sr = __builtin_ctz(d.s.low);
                q.s.high = n.s.high >> sr;
                q.s.low = (n.s.high << (n_uword_bits - sr)) | (n.s.low >> sr);
                return q.all;
            sr = 1 + n_uword_bits + __builtin_clz(d.s.low) - __builtin_clz(n.s.high);
            /* 2 <= sr <= n_udword_bits - 1
             * q.all = n.all << (n_udword_bits - sr);
             * r.all = n.all >> sr;
            if (sr == n_uword_bits)
                q.s.low = 0;
                q.s.high = n.s.low;
                r.s.high = 0;
                r.s.low = n.s.high;
            else if (sr < n_uword_bits)  // 2 <= sr <= n_uword_bits - 1
                q.s.low = 0;
                q.s.high = n.s.low << (n_uword_bits - sr);
                r.s.high = n.s.high >> sr;
                r.s.low = (n.s.high << (n_uword_bits - sr)) | (n.s.low >> sr);
            else              // n_uword_bits + 1 <= sr <= n_udword_bits - 1
                q.s.low = n.s.low << (n_udword_bits - sr);
                q.s.high = (n.s.high << (n_udword_bits - sr)) |
                           (n.s.low >> (sr - n_uword_bits));
                r.s.high = 0;
                r.s.low = n.s.high >> (sr - n_uword_bits);
        else
            sr = __builtin_clz(d.s.high) - __builtin_clz(n.s.high);
            /* 0 <= sr <= n_uword_bits - 1 or sr large */
            if (sr > n_uword_bits - 1)
                if (rem)
                    *rem = n.all;
                return 0;
            ++sr;
            /* 1 <= sr <= n_uword_bits */
            /*  q.all = n.all << (n_udword_bits - sr); */
            q.s.low = 0;
            if (sr == n_uword_bits)
                q.s.high = n.s.low;
                r.s.high = 0;
                r.s.low = n.s.high;
                q.s.high = n.s.low << (n_uword_bits - sr);
                r.s.high = n.s.high >> sr;
                r.s.low = (n.s.high << (n_uword_bits - sr)) | (n.s.low >> sr);
    /* Not a special case
     * q and r are initialized with:
     * q.all = n.all << (n_udword_bits - sr);
     * r.all = n.all >> sr;
     * 1 <= sr <= n_udword_bits - 1
    su_int carry = 0;
    for (; sr > 0; --sr)
        /* r:q = ((r:q)  << 1) | carry */
        r.s.high = (r.s.high << 1) | (r.s.low  >> (n_uword_bits - 1));
        r.s.low  = (r.s.low  << 1) | (q.s.high >> (n_uword_bits - 1));
        q.s.high = (q.s.high << 1) | (q.s.low  >> (n_uword_bits - 1));
        q.s.low  = (q.s.low  << 1) | carry;
        /* carry = 0;
         * if (r.all >= d.all)
         *      r.all -= d.all;
         *      carry = 1;
        const di_int s = (di_int)(d.all - r.all - 1) >> (n_udword_bits - 1);
        carry = s & 1;
        r.all -= d.all & s;
    q.all = (q.all << 1) | carry;
    if (rem)
        *rem = r.all;
    return q.all;

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Einflußfaktoren zur Rechendauer bei Divisionen

von Possetitjel (Gast)

07.01.2018 10:37

Lesenswert?

•

▲
▼

Walter T. schrieb:

> Possetitjel schrieb:
>> d) durch einen Kettenbruch anzunähern,
>
> Wie ist das gemeint? n in eine Zweierpotenz und einen
> Rest aufteilen?

Verzeih', wenn das jetzt unhöflich wirkt:
https://de.wikipedia.org/wiki/Kettenbruch

Besonders interessant: Reguläre Kettenbrüche.

Der Kettenbruch alleine nützt Dir noch nicht viel, kann
aber helfen, einen guten Näherungsbruch zu finden (falls
das zulässig ist).

> Possetitjel schrieb:
>> e) in die Multiplikation z*(1/n) umzuformen.
>
> Verstehe ich nicht. Wenn z,n Integer sind, ist
> 1/n Null (für n != 1).

Entschuldigung, das war schlecht ausgedrückt. Es müsste
heißen: z*(2^k/n)
Läuft letztlich darauf hinaus, mithilfe von Shifts eine
simple Art Festkomma-Arithmetik zu implementieren.

Kernidee ist, dass Division fast immer langsam, Multiplikation
aber häufig ziemlich schnell ist. Also versucht man, die
Division durch Multiplikation mit dem Kehrwert auszudrücken.

Setzt natürlich passende Umskalierung mit 2^k voraus, damit
man die benötigten Nachkommastellen mitschleppen kann.

> Aber was ich bei der Fragestellung tatsächlich vergessen
> habe:
>
> Der Bruch z,n ändert sich selten und kann deswegen in
> Ruhe poliert werden, a ändert sich ständig, weswegen
> die Gesamtoperation r = a*z/n ziemlich häufig durchgeführt
> werden muß.

Ja, so hatte ich das verstanden.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Einflußfaktoren zur Rechendauer bei Divisionen

von Walter T. (nicolas)

07.01.2018 11:03

Lesenswert?

•

▲
▼

Possetitjel schrieb:
> Der Kettenbruch alleine nützt Dir noch nicht viel, kann
> aber helfen, einen guten Näherungsbruch zu finden

OK, das fällt für mich unter die Rubrik b): Ännäherung durch Division 
durch Zweierpotenz. Ob ich die jetzt durch Kettenbrüche, 
Fließkommaberechnungen oder sonstwie erreiche, war mir erst einmal 
nebensächlich.

Mark schrieb:
> Erschwerend oder vereinfacht kommt hinzu, dass der C Standard fordert,
> dass eine gemischte 64-Bit durch 32-Bit Division als 64-Bit durch 64-Bit
> ausgeführt werden muss.

Danke für den Hinweis. Im C-Standard hätte ich nicht gesucht.

Mark schrieb:
> Da musst du im Source-Code der Laufzeit-Bibliothek deines Compilers
> nachsehen.

Klingt einleuchtend. Im Assembler-Listing läßt sich ja sehr einfach 
ablesen, welche Funktion der Laufzeitbibliothek letztendlich wirklich 
aufgerufen wird.

Danke, damit ist mir geholfen!

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Beitrag #5269367 wurde von einem Moderator gelöscht.

Re: Einflußfaktoren zur Rechendauer bei Divisionen

von Johann L. (gjlayde)

07.01.2018 11:58

Lesenswert?

•

▲
▼

Zunächst erhebt sich die Frage, warum so eine teure (auf ARM) Operation 
in einer ISR notwendig ist, oder ob ein anderes Design dies umgehen 
kann.

GCC implementiert Division auf ARM in Core-spezifischem Assembler, so 
dass es da bessere Performance gibt als die C-Implementierung in clang.

Generell ist aber zu bedenken, dass im Worst-Case die innere Schleife 
64× auszuführen ist; bei clang ist dies der "Not a special case". Soweit 
ich sehe, verwendet GCC hier unrolled Loops mit einigen Short-Cuts.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Einflußfaktoren zur Rechendauer bei Divisionen

von Walter T. (nicolas)

07.01.2018 18:58

Lesenswert?

•

▲
▼

Johann L. schrieb:
> Zunächst erhebt sich die Frage, warum so eine teure (auf ARM) Operation
> in einer ISR notwendig ist, oder ob ein anderes Design dies umgehen
> kann.

Da warst Du einfach einen Schritt weiter als ich. Bevor ich irgendetwas 
optimiere (oder versuche zu umgehen), wollte ich erst einmal wissen, wie 
teuer die Operation überhaupt ist.

Jetzt weiß ich: Sehr teuer.

Letztendlich habe ich mich dazu entschieden, das Ganze etwas anders zu 
lösen, indem ich erst die Multiplikation/Division auf 32 Bit mache, den 
Fehler mitschleppe, und erst dann die 64-Bit-Variable akkumuliere.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Thread beobachten |

Seitenaufteilung abschalten

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.

Bestehender Account

Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen

Noch kein Account? Hier anmelden.

Kontakt/Impressum – Datenschutzerklärung – Nutzungsbedingungen – Werbung auf Mikrocontroller.net