GCC Inline Assembler: input-output Operanden, schlechterer Code

von 3? (Gast)

03.03.2019 10:09

Lesenswert?

•

Macht es einen Unterschied für den (inline) Assembler, ob Operanden
  - als input-output (constraint modifier "+"), oder
  - als input-output UND input
gelistet sind?

Kontext:

Ich nutze folgende strncmp_P-ähnliche Funktion in einem C Programm. 
Diese hat für mich den Vorteil, dass
  - der Parameter explizit den __flash Adressraum verwendet (statt 
strncmp_P generic AS, vermeidet Warnung)
  - die Funktion relativ effizient inlined wird (kein call overhead, 
keine parameter register)
  - nur einen uint8_t als Parameter akzeptiert (statt size_t), und
  - nur einen int8_t zurueck gibt (statt int)

Die erste Variante hat die Parameter sowohl in der output operanden 
Liste (input-output) als auch in der input(-only) operanden Liste 
aufgeführt.

static int8_t
strncmp_P_(const char *s1, const __flash char *s2, uint8_t n)
    uint8_t ret;
    asm ("\n\t"
        "   subi   %[n], 1          \n\t"
        "   brcs   2f               \n\t"
        "   ld     %[ret], %a[s1]+  \n\t"
        "   lpm    r0, %a[s2]+      \n\t"
        "   sub    %[ret], r0       \n\t"
        "   brne   3f               \n\t"
        "   tst    r0               \n\t"
        "   brne   1b               \n\t"
        "   sub    %[ret], %[ret]   \n\t"
        : [s1] "+xy" (s1), [s2] "+z" (s2), [n] "+d" (n), [ret] "=r" (ret)
        : "[s1]" (s1), "[s2]" (s2), "[n]" (n)
        : "cc", "r0");
    return ret;


Die zweite Variante hat die Parameter nur in der output operanden 
Liste (input-output) aufgeführt.

static int8_t
strncmp_P_(const char *s1, const __flash char *s2, uint8_t n)
    uint8_t ret;
    asm ("\n\t"
        "   subi   %[n], 1          \n\t"
        "   brcs   2f               \n\t"
        "   ld     %[ret], %a[s1]+  \n\t"
        "   lpm    r0, %a[s2]+      \n\t"
        "   sub    %[ret], r0       \n\t"
        "   brne   3f               \n\t"
        "   tst    r0               \n\t"
        "   brne   1b               \n\t"
        "   sub    %[ret], %[ret]   \n\t"
        : [s1] "+xy" (s1), [s2] "+z" (s2), [n] "+d" (n), [ret] "=r" (ret)
        : // **no input-only operands**
        : "cc", "r0");
    return ret;


Beide Varianten werden in einer längeren Funktion verwendet und korrekt 
geinlined. Allerdings benötigt die erste Variante weniger Register und 
ist damit kürzer (push, pop) als die zweite Variante.

Wieso?

Es hängt offensichtlich mit der zusätzlichen Auflistung als input 
Operanden zusammen.
Ist das falsch von mir bzw. sage ich damit (fälschlicherweise), dass die 
Register unverändert bleiben (dafür hätte ich ja input-output constraint 
modifier "+" verwendet)?

Oder ist es nur Zufall, weil der inline-Asm andere (hier ungünstigere) 
Register auswählt?

Danke,
???

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: GCC Inline Assembler: input-output Operanden, schlechterer Code

von 3? (Gast)

03.03.2019 10:11

Lesenswert?

•

▲
▼

3? schrieb:
> Beide Varianten werden in einer längeren Funktion verwendet und korrekt
> geinlined. Allerdings benötigt die erste Variante weniger Register und
> ist damit kürzer (push, pop) als die zweite Variante.

Damit meine ich natürlich, dass strncmp_P_ Funktion nur einmal verwendet 
wird (in einer anderen, längeren Funktion). Aber wenn ich mit der erste 
Variante kompiliere, ist das Programm kürzer, als wenn ich die zweite 
Variante kompiliere.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: GCC Inline Assembler: input-output Operanden, schlechterer Code

von TO (Gast)

10.08.2019 17:17

Lesenswert?

•

▲
▼

3? schrieb:
> Ist das falsch von mir bzw. sage ich damit (fälschlicherweise), dass die
> Register unverändert bleiben (dafür hätte ich ja input-output constraint
> modifier "+" verwendet)?

Ich glaube, ich habe in einem anderen Fall genau das gleiche Problem. 
Ein im asm statement verändertes Register wird nicht neu geladen, obwohl 
eine schreibende Abhängigkeit angegeben ist:

static void fun(volatile uint8_t *samples)
    uint8_t n;
    asm volatile (
        "ld   %[n], %a[ptr]+ \n"
        : [ptr] "=z" (samples), [n] "=&r" (n)
        : "0" (samples)
        : /* no clobbers */);
    samples[0] = n;


Das ergibt:

         ld  r24, Z+
         st  Z, r24


Der gleiche Code wird mit "+" output constraint generiert:

static void fun(volatile uint8_t *samples)
    uint8_t n;
    asm volatile (
        "ld   %[n], %a[ptr]+ \n"
        : [ptr] "+z" (samples), [n] "=&r" (n)
        : /* no input operands */
        : /* no clobers */);
    samples[0] = n;


Korrekt wäre z.B.

         movw r22, r30  ; backup Z
         ld   r24, Z+
         movw r30, r22  ; restrore Z
         st   Z, r24


AVR-GCC aus den Debian repositores (gcc-avr 5.4.0+Atmel3.6.1-2), sollte 
gleich sein zu AVR-Studio:

$ avr-gcc -dumpversion


Kompiliert wird mit

avr-gcc -mmcu=atxmega32a4u -DF_CPU=32000000UL -DNDEBUG -O2 -MD -Wall -Wextra -std=gnu11 -g -mrelax -fdiagnostics-color -fdata-sections -ffunction-sections -fshort-enums -Wall -Wextra -Werror-implicit-function-declaration -Wmissing-prototypes -Wpointer-arith -Wstrict-prototypes -Wswitch-enum -Waddr-space-convert -Winvalid-memory-model -Wshadow -Wtype-limits -ftree-loop-distribute-patterns  -o foo.o -c foo.c


Ich fände es großartig, hier eine Lösung zu haben...

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: GCC Inline Assembler: input-output Operanden, schlechterer Code

von TO (Gast)

10.08.2019 17:21

Lesenswert?

•

▲
▼

In der avr-libc wird teilweise genau das gleiche gemacht, aber es 
funktioniert. avr/pgmspace.h:

#define __LPM_word_tiny__(addr)             \
(__extension__({                            \
    uint16_t __addr16 = (uint16_t)(addr) + __AVR_TINY_PM_BASE_ADDRESS__; \
    uint16_t __result;                      \
        "ld %A0, z+"     "\n\t"             \
        "ld %B0, z"      "\n\t"             \
        : "=r" (__result), "=z" (__addr16)  \
        : "1" (__addr16)                    \
    __result;                               \

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: GCC Inline Assembler: input-output Operanden, schlechterer Code

von Johann L. (gjlayde)

10.08.2019 17:47

Lesenswert?

•

▲
▼

TO schrieb:
> Ich glaube, ich habe in einem anderen Fall genau das gleiche Problem.
> Ein im asm statement verändertes Register wird nicht neu geladen, obwohl
> eine schreibende Abhängigkeit angegeben ist:
>
>

> static void fun(volatile uint8_t *samples)
>     uint8_t n;
>     asm volatile (
>         "ld   %[n], %a[ptr]+ \n"
>         : [ptr] "=z" (samples), [n] "=&r" (n)
>         : "0" (samples)
>         : /* no clobbers */);
>     samples[0] = n;

> Das ergibt:

>          ld  r24, Z+
>          st  Z, r24


Soweit korrekt.

> Der gleiche Code wird mit "+" output constraint generiert:

> static void fun(volatile uint8_t *samples)
>     uint8_t n;
>     asm volatile (
>         "ld   %[n], %a[ptr]+ \n"
>         : [ptr] "+z" (samples), [n] "=&r" (n)
>         : /* no input operands */
>         : /* no clobers */);
>     samples[0] = n;


Das ist gleichbedeutend mit dem obigen Code:  samples ist Input und 
Output, und beide sind im gleichen Register "z".

> Korrekt wäre z.B.

>          movw r22, r30  ; backup Z
>          ld   r24, Z+
>          movw r30, r22  ; restrore Z
>          st   Z, r24


Nein, das wäre falsch.

samples ist Ouput-Operand aus "z", d.h. im weiteren muss der Wert aus Z 
für samples genommen werden, also der durch Post-Increment erhöhte.

> Ich fände es großartig, hier eine Lösung zu haben...

Also eine bessere Verständnis der Semantik von Inline-Asm.

Wenn das ursprüngliche samples weiter verwendet werden soll, dann zum 
Beispiel so:

    uint8_t n;
    volatile uint8_t *tmp;
    asm volatile (
        "ld   %[n], %a[ptr]+ \n"
        : [ptr] "=z" (tmp), [n] "=r" (n)
        : "0" (samples));
    samples[0] = n;

oder so:

    uint8_t n;
    volatile uint8_t *tmp = samples;
    asm volatile (
        "ld   %[n], %a[ptr]+ \n"
        : [ptr] "+z" (tmp), [n] "=r" (n));
    samples[0] = n;

Es wird dann das veränderte Z nach tmp geschrieben, nicht zurück nach 
samples.

Außerdem braucht's hier für n kein early-clobber.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: GCC Inline Assembler: input-output Operanden, schlechterer Code

von Johann L. (gjlayde)

10.08.2019 17:52

Lesenswert?

•

▲
▼

TO schrieb:
> In der avr-libc wird teilweise genau das gleiche gemacht, aber es
> funktioniert. avr/pgmspace.h:

Da muss gekennzeichnet werden, dass Z (also __addr16) durch das asm 
verändert wird.  Es wird in der Folge aber nicht mehr verwendet.

Auch in dem Beispiel hätte man

"=z" (__addr16) : "1" (__addr16)

kürzer schreiben können als

"+z" (__addr16) :


Obgleich __addr16 nicht weiter verwendet wird, muss Z bei den Outputs 
auftauchen.  Ansonsten würde man dem Compiler sagen, dass Z nicht 
verändert wird, was nicht stimmt.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: GCC Inline Assembler: input-output Operanden, schlechterer Code

von TO (Gast)

10.08.2019 18:40

Lesenswert?

•

▲
▼

Johann L. schrieb:
> TO schrieb:
>> Korrekt wäre z.B.

>>          movw r22, r30  ; backup Z
>>          ld   r24, Z+
>>          movw r30, r22  ; restrore Z
>>          st   Z, r24

>
> Nein, das wäre falsch.
>
> samples ist Ouput-Operand aus "z", d.h. im weiteren muss der Wert aus Z
> für samples genommen werden, also der durch Post-Increment erhöhte.

Aha! Stimmt, die output Operanden sind lvalues.
Herzlichen Dank!

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: GCC Inline Assembler: input-output Operanden, schlechterer Code

von Johann L. (gjlayde)

10.08.2019 19:26

Lesenswert?

•

▲
▼

TO schrieb:
> In der avr-libc wird teilweise genau das gleiche gemacht, aber es
> funktioniert. avr/pgmspace.h:

> #define __LPM_word_tiny__(addr)             \
> (__extension__({                            \
>     uint16_t __addr16 = (uint16_t)(addr) + __AVR_TINY_PM_BASE_ADDRESS__; 
>     uint16_t __result;                      \
>         "ld %A0, z+"     "\n\t"             \
>         "ld %B0, z"      "\n\t"             \
>         : "=r" (__result), "=z" (__addr16)  \
>         : "1" (__addr16)                    \
>     __result;                               \


Dieses Makro ist nicht nur überflüssig, sondern auch falsch!

In der aktuellen Version der avr-libc ist dieses Makro nicht enthalten, 
und das Log verzeichnet auch kein Entfernen oder Hinzufügen:

http://svn.savannah.nongnu.org/viewvc/avr-libc/trunk/avr-libc/include/avr/pgmspace.h?view=markup
http://svn.savannah.nongnu.org/viewvc/avr-libc/trunk/avr-libc/include/avr/pgmspace.h?view=log

Das Makro ist falsch, weil bereits der Compiler den Offset von 0x4000 
zur Adressberechnung aller mit progmem attributierten Objekte addiert.

Im Gegensatz zu "normalen" AVRs kann man also solche Objekte per vanilla 
C/C++ zugreifen:

#include <avr/pgmspace.h>
const char textP[] PROGMEM = "Text";
const char *p;
char setp_read_progmem (uint8_t i)
    p = textP;
    return textP[i];

setp_read_progmem:
  ldi r20,lo8(textP+16384)
  ldi r21,hi8(textP+16384)
  sts p+1,r21
  sts p,r20
  ldi r25,0
  subi r24,lo8(-(textP+16384))
  sbci r25,hi8(-(textP+16384))
  mov r31,r25
  mov r30,r24
  ld r24,Z

*(.progmem.*)
.progmem.data.textP

Beim Zugriff mit obigem Makro wird der Offset also doppelt addiert.
 
 
Davon ab ist progmem eh überflüssig, weil .rodata im Flash liegt und das 
Linker-Skript 0x4000 addiert:

const char text[] = "Text";
char read_rodata (uint8_t i)
    return text[i];

setp_read_rodata:
  ldi r25,0
  subi r24,lo8(-(text))
  sbci r25,hi8(-(text))
  mov r31,r25
  mov r30,r24
  ld r24,Z

.rodata         0x00004112        0x5 load address 0x00000112
 *(.rodata*)
.rodata.text    0x00004112        text

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: GCC Inline Assembler: input-output Operanden, schlechterer Code

von TO (Gast)

10.08.2019 20:27

Lesenswert?

•

▲
▼

Johann L. schrieb:
> TO schrieb:
>> In der avr-libc wird teilweise genau das gleiche gemacht, aber es
>> funktioniert. avr/pgmspace.h:
> [c]
>> #define __LPM_word_tiny__(addr)             \
...

> Dieses Makro ist nicht nur überflüssig, sondern auch falsch!

Ich habe es mir nicht im Detail angeschaut, sondern nur ein ähnliches 
Beispiel zu meinem Problem gesucht. Das Makro ist in der Form aber in 
der avr-libc mit Microchips patches enthalten:

$ cd /run/shm
$ apt source avr-libc 
Reading package lists... Done
Selected version '1:1.8.0+Atmel3.5.0-1' (stretch) for avr-libc
Need to get 4.480 kB of source archives.
Get:1 tor+http://vwakviie2ienjx6t.onion/debian stretch/main avr-libc 1:1.8.0+Atmel3.5.0-1 (dsc) [1.898 B]
Get:2 tor+http://vwakviie2ienjx6t.onion/debian stretch/main avr-libc 1:1.8.0+Atmel3.5.0-1 (tar) [4.472 kB]
Get:3 tor+http://vwakviie2ienjx6t.onion/debian stretch/main avr-libc 1:1.8.0+Atmel3.5.0-1 (diff) [6.039 B]                                                  
dpkg-source: info: extracting avr-libc in avr-libc-1.8.0+Atmel3.5.0
dpkg-source: info: unpacking avr-libc_1.8.0+Atmel3.5.0.orig.tar.gz
dpkg-source: info: applying avr-libc_1.8.0+Atmel3.5.0-1.diff.gz
$ cd avr-libc-1.8.0+Atmel3.5.0/
$ tar xf avr-libc.tar.bz2 
$ cd libc/
$ find  . -name pgmspace.h
./avr-libc/include/avr/pgmspace.h


Da gibt es eine interessante Stelle:

Macro to read data from program memory for avr tiny parts(tiny 4/5/9/10/20/40).
- LPM instruction is not available in AVR_TINY instruction set.
- Programs are executed starting from address 0x0000 in program memory.
But it must be addressed starting from 0x4000 when accessed via data memory.
Reference: TINY device (ATTiny 4,5,9,10,20 and 40) datasheets
Bug: avrtc-536
#elif defined (__AVR_TINY__)
#define __LPM(addr)         __LPM_tiny__(addr)
#define __LPM_word(addr)    __LPM_word_tiny__(addr)
#define __LPM_dword(addr)   __LPM_dword_tiny__(addr)
#define __LPM_float(addr)   __LPM_float_tiny__(addr)
#define __LPM(addr)         __LPM_classic__(addr)
#define __LPM_word(addr)    __LPM_word_classic__(addr)
#define __LPM_dword(addr)   __LPM_dword_classic__(addr)
#define __LPM_float(addr)   __LPM_float_classic__(addr)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Forum: Mikrocontroller und Digitale Elektronik GCC Inline Assembler: input-output Operanden, schlechterer Code