Flash CRC Berechnung optimieren/schneller

von Andreas (elektor)

20.04.2023 18:11

Lesenswert?

•

Hallo zusammen,
ich habe einen eigenen Bootloader auf dem ATmega1284 erstellt, der beim 
Einschalten des Controllers startet, und den CRC über den gesamten Flash 
berechnet.
Ist dieser gültig wird die Anwendung gestartet.

Nun habe ich das Problem, dass das prüfen ca 1 - 2 Sekunden beansprucht. 
Da die Application erst danach startet schaut das ganze recht unschön 
aus.

Gibt es eine Möglichkeit die berechnung zu beschleunigen oder gibt es 
eine schnellere Möglichkeit den CRC über den gesamten Flash zu 
berechnen?

Compiler ist VisualGDB.
APP_END_ADR = 0x1EFFD
Ich verwende dazu folgenden Codeabschnitt:

static uint16_t calculate_flash_crc()
  uint16_t crc = 0xFFFF;
  for (uint32_t i = 0; i <= APP_END_ADR; i++)
    crc = _crc16_update(crc, pgm_read_byte_far(i));  
  return crc;

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Markus M. (Firma: EleLa - www.elela.de) (mmvisual)

20.04.2023 18:16

Lesenswert?

•

▲
▼

Was macht den die Funktion "_crc16_update()" alles?
Und was macht "pgm_read_byte_far()"?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von MaWin O. (mawin_original)

20.04.2023 18:20

Lesenswert?

•

▲
▼

Ich würde vorschlagen eine 8-Bit-CRC zu verwenden. Die lässt sich 
naturgemäß auf einem 8-Bit-Controller mindestens doppelt so schnell 
rechnen. Vermutlich noch schneller. Mit geschickter Wahl der 
Polynomkoeffizienten kann man dann die Rechenaufwände der einzelnen 
Byterunden noch einmal reduzieren.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von C-hater (c-hater)

20.04.2023 18:30

Lesenswert?

•

▲
▼

Andreas schrieb:

> ich habe einen eigenen Bootloader auf dem ATmega1284 erstellt, der beim
> Einschalten des Controllers startet, und den CRC über den gesamten Flash
> berechnet.
> Ist dieser gültig wird die Anwendung gestartet.

Das ist doch schon vom Konzept her völliger Schwachsinn. Wenn der 
Bootloader wissen möchte, ob die Anwendung "gültig" ist, dann muss er 
natürlich nur einen Prüfsumme über den Flashbereich bilden, in dem die 
Anwendung im Flash liegt.

Dazu muss er wissen (und sich merken, auch wieder im Flash) wo die 
Anwendung beginnt und wie groß sie ist.

Bei einem ATMega ist das ziemlich einfach unzusetzen. Bei einem Tiny 
wird's kitzliger, denn da muß der Bootloader, um funktionieren zu 
können, die Anwendung manipulieren (zwei Bytes davon, den Inhalt des 
Resetvektors).

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Falk B. (falk)

20.04.2023 18:36

Lesenswert?

•

▲
▼

C-hater schrieb:
> Das ist doch schon vom Konzept her völliger Schwachsinn. Wenn der
> Bootloader wissen möchte, ob die Anwendung "gültig" ist, dann muss er
> natürlich nur einen Prüfsumme über den Flashbereich bilden, in dem die
> Anwendung im Flash liegt.

Stimmt. Aber auch ein AVR kann einen größeren Flash-Bereich in DEUTLICH 
unter 1s mittels CRC16 prüfen. Dazu darf man natürlich KEINEN Seriellen 
Algorithmus nehmen, sondern einen mit Tabelle, hier sinnvollerweise mit 
256 Einträgen a 2 Byte. OK, das ist TEUER in einem Bootloader. 
Alternativ nur mit Nibblebreite und 16er Tabelle. In ASM geht das flott. 
Hey, das war DEIN Stichwort! ;-)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Thomas Z. (usbman)

20.04.2023 18:37

Lesenswert?

•

▲
▼

Es hängt natürlich davon ab wie schnell deine CRC Funktion ist. mit 
einer Tabelle lässt sich das auf Kosten des Speicherplatzes schon 
schneller machen, die braucht dann aber bis zu 512Bytes im Flash, wird 
also nicht in deinen Bootloader passen.
https://stackoverflow.com/questions/22432066/how-to-use-table-based-crc-16-code

edit: zu spät

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Falk B. (falk)

20.04.2023 18:44

Lesenswert?

•

▲
▼

Markus M. schrieb:
> Was macht den die Funktion "_crc16_update()" alles?

Berechnet die CRC für das nächste Byte.

> Und was macht "pgm_read_byte_far()"?

Liest ein Byte aus dem Flash über einen FAR-Pointer (>64kB).

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von C-hater (c-hater)

20.04.2023 19:34

Lesenswert?

•

▲
▼

Falk B. schrieb:

> Stimmt. Aber auch ein AVR kann einen größeren Flash-Bereich in DEUTLICH
> unter 1s mittels CRC16 prüfen.

Natürlich. Es macht eben nur keinerlei Sinn, also warum sollte man das 
wider jede Vernunft trotzdem tun?

> In ASM geht das flott.
> Hey, das war DEIN Stichwort! ;-)

Nicht wirklich. Egal in welcher Sprache ich programmiere: ich 
programmiere nur das, was sinnvoll ist. Und natürlich habe ich eine 
(recht) schnelle CRC16-Routine im Bestand. Die kommt übrigens ohne fette 
Lookup-Table aus. Ist eigentlich eher ein Abfallprodukt aus der 
Verbesserung von V-USB. Setzt halt möglichst effizient den Algorithmus 
um, den USB für DATA-Packets verwendet.

Laufzeitmäßig weniger effizent als was mit Lookup, aber immerhin schnell 
genug, um innerhalb von V-USB ab ca. 16MHz Systemtakt zu funktionieren.

Kostet exakt 23Takte/Byte.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Andreas (elektor)

20.04.2023 19:50

Lesenswert?

•

▲
▼

Danke für eure Antwort.

Genau, die beiden Methoden stammen aus der AVR lib.
Die crc update funktion ist auch in ASM geschrieben.

C-hater schrieb:
> Andreas schrieb:
>
>> ich habe einen eigenen Bootloader auf dem ATmega1284 erstellt, der beim
>> Einschalten des Controllers startet, und den CRC über den gesamten Flash
>> berechnet.
>> Ist dieser gültig wird die Anwendung gestartet.
>
> Das ist doch schon vom Konzept her völliger Schwachsinn. Wenn der
> Bootloader wissen möchte, ob die Anwendung "gültig" ist, dann muss er
> natürlich nur einen Prüfsumme über den Flashbereich bilden, in dem die
> Anwendung im Flash liegt.
>
> Dazu muss er wissen (und sich merken, auch wieder im Flash) wo die
> Anwendung beginnt und wie groß sie ist.
>
> Bei einem ATMega ist das ziemlich einfach unzusetzen. Bei einem Tiny
> wird's kitzliger, denn da muß der Bootloader, um funktionieren zu
> können, die Anwendung manipulieren (zwei Bytes davon, den Inhalt des
> Resetvektors).

Ok, da habe ich etwas missverstande. Ich dachte das macht man eigentlich 
mit einem CRC.
Muss die Prüfsumme über den gesamten Flash Bereich oder nur über die 
Applikation gebildet werden?
Welches Prüfsummenverfahren wird denn hier üblicherweise genutzt bzw. 
hat jemand einen Link wo ich einen schnellen algorithmus finden kann?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Hans W. (Firma: Wilhelm.Consulting) (hans-)

20.04.2023 20:09

Lesenswert?

•

▲
▼

CRC ist schon i.O.

Es gibt von Intel ein paper zu schnellem CRC... Deren verfahren nennen 
sie slice-by-8.

Im Prinzip machst du dir eine lookup table in der von dir gewünschten 
größe und XORst dann wörter zur gesammtCRC.

Beim AVR müssten 16bit passen, wenn ich mich an die Architektur richtig 
erinnere (kann der nicht 16bit PGM in 2 register laden ?)

Das müsste dann deutlich <1s gehen...

Wie breit die CRC (16/32bit) ist übrigens verhältnismäßig unerheblich da 
du im Endeffekt nur XOR machst.

Eine Übersicht zu unterschiedlichen CRC Implementierungen findet sich 
übrigens hier: https://create.stephan-brumme.com/crc32/

73

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von C-hater (c-hater)

20.04.2023 20:24

Lesenswert?

•

▲
▼

Andreas schrieb:

> Ok, da habe ich etwas missverstande. Ich dachte das macht man eigentlich
> mit einem CRC.

Sachen wie die Prüfung, ob Code gültig ist, macht man tatsächlich z.B. 
per CRC. Das hast du nicht falsch verstanden.

> Muss die Prüfsumme über den gesamten Flash Bereich oder nur über die
> Applikation gebildet werden?

Hier ist dein "Verständnisproblem". Natürlich braucht (und sollte) man 
zur Überprüfung der App nur den Bereich des Flash betrachten, in dem sie 
liegt. Alles andere ist doch so dermaßen unlogisch, dass es schon weh 
tut, wenn jemand auf irgendwas anderes kommt...

Ich tippe mal: Troll. Recht gut getarnt, aber nicht perfekt. Meine 
Troll-KI kann dich nicht wirklich sehen, ich schon. Geht halt nix über 
Eigen-Intelligenz.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Falk B. (falk)

20.04.2023 20:35

Angehängte Dateien:

crc.h (43 Bytes) | Codeansicht
crc.S (2,47 KB)

Lesenswert?

•

▲
▼

Andreas schrieb:
> Danke für eure Antwort.
>
> Genau, die beiden Methoden stammen aus der AVR lib.
Das sind Funktionen, ist ja "nur" C, kein C++.

> Die crc update funktion ist auch in ASM geschrieben.

Ja, aber der Aufruf muss ja auch noch ein wenig berechnen. 
pgm_read_byte_far(). Wird nicht extrem ineffizient sein, aber naja.

Ich hab mal schnell was zusammengestrickt, ich komme auf 55 Takte/Byte, 
macht bei 128kB und 16 MHz auf ~7,2M Takte, also ~450ms. Naja.
Das ist nur ein Konzept, die Tabelle habe ich jetzt nicht ausgerechnet.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von C-hater (c-hater)

20.04.2023 20:50

Lesenswert?

•

▲
▼

Falk B. schrieb:

> Ich hab mal schnell was zusammengestrickt, ich komme auf 55 Takte/Byte

Tja, so ist das, wenn man Codeffizienz einem Compilergott opfert. Da 
werden sogar potentiell schnellere Algorithmen im Endeffekt leicht mal 
erheblich langsamer als potentiell weniger schnelle.

No mercy. Asm rules. All the time in the past and forever in the future. 
That's a natural law!

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Falk B. (falk)

20.04.2023 21:21

Lesenswert?

•

▲
▼

C-hater schrieb:
>> Ich hab mal schnell was zusammengestrickt, ich komme auf 55 Takte/Byte
>
> Tja, so ist das, wenn man Codeffizienz einem Compilergott opfert.

Dir ist schon aufgefallen, daß mein Beispiel in ASM ist? Klar, um LÄNGEN 
schlechter als deine Schöpfungen, aber immerhin schneller als der Status 
Quo.

> No mercy. Asm rules. All the time in the past and forever in the future.
> That's a natural law!

Mensch bist du COOOOOOOL!! Pubertät ist nicht immer einfach, gelle?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Falk B. (falk)

21.04.2023 08:55

Angehängte Dateien:

crc.S (1,34 KB)

Lesenswert?

•

▲
▼

Hier mal die serielle Variante, die leider oder zum Glück fast genau so 
schnell wie die Nibble-Variante ist. Denn das Schieben um 4 Bit ist bei 
mehreren Bytes auf dem AVR auch wieder relativ langsam, selbst die 
Tricks mit swap und Maskierung bringen da nix. Die serielle Variante 
braucht 56 Takte/Byte, ist aber einfacher und braucht weniger Speicher, 
keinerlei RAM.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Peter D. (peda)

21.04.2023 12:40

Lesenswert?

•

▲
▼

Falk B. schrieb:
> Ich hab mal schnell was zusammengestrickt, ich komme auf 55 Takte/Byte

Die Lib in crc16.h des AVR-GCC ist inline-Assembler (23 Zyklen) und 
braucht mit Loop-Overhead zusammen 41 Zyklen.
Die CRC-CCITT ist mit 17 Zyklen etwas kürzer.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Falk B. (falk)

21.04.2023 13:22

Lesenswert?

•

▲
▼

Peter D. schrieb:
> Die Lib in crc16.h des AVR-GCC ist inline-Assembler (23 Zyklen) und
> braucht mit Loop-Overhead zusammen 41 Zyklen.
> Die CRC-CCITT ist mit 17 Zyklen etwas kürzer.

Das widerspricht aber der Wahrnehmung des OP, der von 1-2s Verzögerung 
berichtet. OK, kann ein Meßfehler sein.

Wo findet man den Quelltext?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Peter D. (peda)

21.04.2023 14:48

Lesenswert?

•

▲
▼

Falk B. schrieb:
> Wo findet man den Quelltext?

C:\Program Files (x86)\Atmel\Studio\7.0\toolchain\avr8\avr8-gnu-toolchain\avr\include\util\crc16.h

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Andreas (elektor)

21.04.2023 16:36

Lesenswert?

•

▲
▼

Falk B. schrieb:
> Hier mal die serielle Variante, die leider oder zum Glück fast
> genau so
> schnell wie die Nibble-Variante ist. Denn das Schieben um 4 Bit ist bei
> mehreren Bytes auf dem AVR auch wieder relativ langsam, selbst die
> Tricks mit swap und Maskierung bringen da nix. Die serielle Variante
> braucht 56 Takte/Byte, ist aber einfacher und braucht weniger Speicher,
> keinerlei RAM.

Vielen Dank dir, das werde ich testen!

C-hater schrieb:
> Ich tippe mal: Troll. Recht gut getarnt, aber nicht perfekt. Meine
> Troll-KI kann dich nicht wirklich sehen, ich schon. Geht halt nix über
> Eigen-Intelligenz.

Ja da hast du recht, den Troll haben wir jetzt gefunden mit solchen 
Kommentaren. Da haben wir wieder so einen DAU sitzen...

Falk B. schrieb:
> Das widerspricht aber der Wahrnehmung des OP, der von 1-2s Verzögerung
> berichtet. OK, kann ein Meßfehler sein.

Also wenn ich die CRC berechnung auskommentiere habe ich keinen 
Verzögerung und ansonsten macht der Bootloader auch aktuell nichts.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Falk B. (falk)

21.04.2023 17:12

Lesenswert?

•

▲
▼

Andreas schrieb:
> Falk B. schrieb:
>> Hier mal die serielle Variante, die leider oder zum Glück fast
>> genau so
>> schnell wie die Nibble-Variante ist. Denn das Schieben um 4 Bit ist bei
>> mehreren Bytes auf dem AVR auch wieder relativ langsam, selbst die
>> Tricks mit swap und Maskierung bringen da nix. Die serielle Variante
>> braucht 56 Takte/Byte, ist aber einfacher und braucht weniger Speicher,
>> keinerlei RAM.
>
> Vielen Dank dir, das werde ich testen!

Jain. Die Variante ist dahin nicht getestet, ob sie die korrekte CRC 
berechnet. Ich war zu faul zu prüfen, ob die originale CRC nach links 
oder rechts arbeitet. Kommt in den nächsten Tagen. Mit der Funktion 
kannst du aber prüfen, wie schnell sie arbeitet, da ist die 
Schieberichtung egal.

>> Das widerspricht aber der Wahrnehmung des OP, der von 1-2s Verzögerung
>> berichtet. OK, kann ein Meßfehler sein.
>
> Also wenn ich die CRC berechnung auskommentiere habe ich keinen
> Verzögerung und ansonsten macht der Bootloader auch aktuell nichts.

OK. Trotzdem sollte man versuchen, genauer zu messen. Schalte ein IO-Pin 
von der CRC-Berechnung ein und danach wieder aus. Das kann man per Oszi 
oder Logicanalyzer messen.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Oliver S. (oliverso)

21.04.2023 18:31

Lesenswert?

•

▲
▼

Falk B. schrieb:
> pgm_read_byte_far(). Wird nicht extrem ineffizient sein, aber naja.

Da kann man die ersten 64kB pgm_read_byte nutzen, und nur für den 
Bereich darüber das dafür benötigten pgm_read_byte_far einsetzen. Das 
spart auch wieder einige Takte.

Oliver

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Falk B. (falk)

21.04.2023 18:47

Lesenswert?

•

▲
▼

Hmm, wenn ich deine Funktion compiliere und im Simulator laufen lasse, 
komme ich auf ~5,3M Takte und ~333ms. Ok, in meinem Flash steht fast 
nix, was dann bei der CRC oft den etwas kürzeren Pfad bewirkt, aber das 
sind keine Größenordnungen. Außerdem scheint der Assemblercode schon 
recht kompakt, das kriegt man manuell kaum besser hin, außer unserem one 
and only C-hater ;-)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Andreas (elektor)

23.04.2023 16:11

Lesenswert?

•

▲
▼

Oliver S. schrieb:
> Falk B. schrieb:
>> pgm_read_byte_far(). Wird nicht extrem ineffizient sein, aber naja.
>
> Da kann man die ersten 64kB pgm_read_byte nutzen, und nur für den
> Bereich darüber das dafür benötigten pgm_read_byte_far einsetzen. Das
> spart auch wieder einige Takte.
>
> Oliver

Das ist auch eine gute Idee, danke.

Falk B. schrieb:
> Hmm, wenn ich deine Funktion compiliere und im Simulator laufen
> lasse,
> komme ich auf ~5,3M Takte und ~333ms. Ok, in meinem Flash steht fast
> nix, was dann bei der CRC oft den etwas kürzeren Pfad bewirkt, aber das
> sind keine Größenordnungen. Außerdem scheint der Assemblercode schon
> recht kompakt, das kriegt man manuell kaum besser hin, außer unserem one
> and only C-hater ;-)

Das hört sich doch schon super an. Ich denke mit einer Prüfsumme wirds 
warscheinlich auch nicht mehr kürzer werden oder?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Falk B. (falk)

23.04.2023 16:33

Angehängte Dateien:

main.c (412 Bytes) | Codeansicht
FastCRC.lss (6,3 KB)

Lesenswert?

•

▲
▼

Andreas schrieb:
>> Da kann man die ersten 64kB pgm_read_byte nutzen, und nur für den
>> Bereich darüber das dafür benötigten pgm_read_byte_far einsetzen. Das
>> spart auch wieder einige Takte.
>>
>> Oliver
>
> Das ist auch eine gute Idee, danke.

Nicht wirklich. Wenn man sich den ASM-Code anschaut, kostet 
pgm_read_byte_far() keine Zusatztakte, denn ELPM ist genau so schnell 
wie lpm und das Register RAMPZ muss nur einmalig geschrieben werden. OK, 
hier wird es immer wieder beschrieben und auch Z immer wieder neu 
geladen, das könnte man in einer manuellen ASM-Funktion optimieren.
Was mir nicht klar ist, wieso die CRC-Berechnung so funktioniert, wie 
sie dort beschrieben ist. Es wird am Anfang das neue Datenbyte mit der 
CRC XOR-verknüpft und dann nur die einzelnen Bits nach und nach 
geschoben und XOR-verknüpft oder nicht. Funktioniert das SO wirklich? 
Ich kenne das anders, uns zwar das die einzelnen Bits immer nacheinander 
in das Byte geschoben werden müssen, wenn man das so seriell bearbeitet.

Aus crc16.h

/** \ingroup util_crc
    Optimized CRC-16 calculation.
    Polynomial: x^16 + x^15 + x^2 + 1 (0xa001)<br>
    Initial value: 0xffff
    This CRC is normally used in disk-drive controllers.
    The following is the equivalent functionality written in C.
    \code
    uint16_t
    crc16_update(uint16_t crc, uint8_t a)
  int i;
  crc ^= a;
  for (i = 0; i < 8; ++i)
      if (crc & 1)
    crc = (crc >> 1) ^ 0xA001;
      else
    crc = (crc >> 1);
  return crc;
    \endcode */
static __inline__ uint16_t
_crc16_update(uint16_t __crc, uint8_t __data)
  uint8_t __tmp;
  uint16_t __ret;
  __asm__ __volatile__ (
    "eor %A0,%2" "\n\t"
    "mov %1,%A0" "\n\t"
    "swap %1" "\n\t"
    "eor %1,%A0" "\n\t"
    "mov __tmp_reg__,%1" "\n\t"
    "lsr %1" "\n\t"
    "lsr %1" "\n\t"
    "eor %1,__tmp_reg__" "\n\t"
    "mov __tmp_reg__,%1" "\n\t"
    "lsr %1" "\n\t"
    "eor %1,__tmp_reg__" "\n\t"
    "andi %1,0x07" "\n\t"
    "mov __tmp_reg__,%A0" "\n\t"
    "mov %A0,%B0" "\n\t"
    "lsr %1" "\n\t"
    "ror __tmp_reg__" "\n\t"
    "ror %1" "\n\t"
    "mov %B0,__tmp_reg__" "\n\t"
    "eor %A0,%1" "\n\t"
    "lsr __tmp_reg__" "\n\t"
    "ror %1" "\n\t"
    "eor %B0,__tmp_reg__" "\n\t"
    "eor %A0,%1"
    : "=r" (__ret), "=d" (__tmp)
    : "r" (__data), "0" (__crc)
    : "r0"
  return __ret;


> Das hört sich doch schon super an.

Steht aber im Widerspruch zu deinen Beobachtungen. Miss die Zeit GENAU 
mittels Oszi oder Logicanalyzer.

> Ich denke mit einer Prüfsumme wirds
> warscheinlich auch nicht mehr kürzer werden oder?

CRC IST eine Prüfsumme, wenn gleich eine mathematisch komplexere. Du 
meinst wahrscheinlich eine einfache Prüfsumme, die wirklich nur addiert 
oder die Parität berechnet. Die ist schon schneller, dafür aber deutlich 
schlechter in der Fehlererkennung. Aber auch eine 16 Bit CRC ist für 
128kB Flash eigentlich zu klein, da sollte man eher mit 32 Bit arbeiten, 
wenn das Thema Fehlererkennung wirklich ernst genommen wird.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Oliver S. (oliverso)

23.04.2023 17:00

Lesenswert?

•

▲
▼

Falk B. schrieb:
> OK,
> hier wird es immer wieder beschrieben und auch Z immer wieder neu
> geladen, das könnte man in einer manuellen ASM-Funktion optimieren.

Mit hätte hätte Fahrradkette hätte der TO seine ganzen Probleme erst gar 
nicht.

Zudem kann die erste Schleife unterhalb der 64kB Grenze mit einem 16 Bit 
Schleifenzähler laufen, die darüber braucht einen 32bit Zähler. Sind 
auch wieder ein paar Takte Unterschied.

Oliver

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Falk B. (falk)

23.04.2023 17:09

Lesenswert?

•

▲
▼

Oliver S. schrieb:
> Mit hätte hätte Fahrradkette hätte der TO seine ganzen Probleme erst gar
> nicht.

Ohne eine solide Messung weiß man gar nichts.

> Zudem kann die erste Schleife unterhalb der 64kB Grenze mit einem 16 Bit
> Schleifenzähler laufen,

Stimmt.

> die darüber braucht einen 32bit Zähler.

Nö, in ASM geht das auch mit 24 Bit. Außerdem kann das der AVR in ASm 
auch in Hardware, elpm R1, Z+ funktiniert wunderbar und kostet KEINERLEI 
Zusatztakte.

> Sind
> auch wieder ein paar Takte Unterschied.

Nö, nicht in ASM, wenn man weiß was man tut. Und das Macro in crc16.h 
ist Inline Assembler, wenn gleich das nicht die Schleife für die 
Datenbytes enthält.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Falk B. (falk)

23.04.2023 18:38

Lesenswert?

•

▲
▼

Ok, hier nochmal explizit die Frage zur CRC-Berechnung, auch wenn sie 
nicht direkt zum Thema passt. Ist die Berechnung in der crc16.h korrekt?

/** \ingroup util_crc
    Optimized CRC-16 calculation.
    Polynomial: x^16 + x^15 + x^2 + 1 (0xa001)<br>
    Initial value: 0xffff
    This CRC is normally used in disk-drive controllers.
    The following is the equivalent functionality written in C.
    \code
    uint16_t
    crc16_update(uint16_t crc, uint8_t a)
      int i;
      crc ^= a;
      for (i = 0; i < 8; ++i)
        if (crc & 1)
          crc = (crc >> 1) ^ 0xA001;
        else
        crc = (crc >> 1);
  return crc;
    \endcode */
static __inline__ uint16_t
_crc16_update(uint16_t __crc, uint8_t __data)
  uint8_t __tmp;
  uint16_t __ret;
  __asm__ __volatile__ (
    "eor %A0,%2" "\n\t"
    "mov %1,%A0" "\n\t"
    "swap %1" "\n\t"
    "eor %1,%A0" "\n\t"
    "mov __tmp_reg__,%1" "\n\t"
    "lsr %1" "\n\t"
    "lsr %1" "\n\t"
    "eor %1,__tmp_reg__" "\n\t"
    "mov __tmp_reg__,%1" "\n\t"
    "lsr %1" "\n\t"
    "eor %1,__tmp_reg__" "\n\t"
    "andi %1,0x07" "\n\t"
    "mov __tmp_reg__,%A0" "\n\t"
    "mov %A0,%B0" "\n\t"
    "lsr %1" "\n\t"
    "ror __tmp_reg__" "\n\t"
    "ror %1" "\n\t"
    "mov %B0,__tmp_reg__" "\n\t"
    "eor %A0,%1" "\n\t"
    "lsr __tmp_reg__" "\n\t"
    "ror %1" "\n\t"
    "eor %B0,__tmp_reg__" "\n\t"
    "eor %A0,%1"
    : "=r" (__ret), "=d" (__tmp)
    : "r" (__data), "0" (__crc)
    : "r0"
  return __ret;


Ich habe sowohl das Inline-ASM Macro als auch die im Kommentar 
dargestellte C-Funktion mit ein paar Daten getestet, beide liefern das 
gleiche Ergebnis. Aber das entspricht nicht der mir bekannten 
CRC-Berechnung. Das hier ist meiner Meinung nach falsch.

     crc ^= a;


Das kann man nicht einfach so am Anfang tun. Der meiner Meinung nach 
korrekte Algorithmus sieht so aus. Man muss bei serieller CRC-Berechnung 
jedes Bit einzeln reinschieben und das XOR machen. Damit kommt natürlich 
eine ganz andere CRC-Prüfsumme zu stande.

    uint16_t
    crc16_update(uint16_t crc, uint8_t a)
      int i;      
      for (i = 0; i < 8; ++i)
        if (crc & 1) {
          crc  = (crc >> 1);
          if (data & 1) crc |= 0x8000;  // LSB in MSB kopieren
          crc ^= 0xA001;
        } else {
          crc = (crc >> 1);
          if (data & 1) crc |= 0x8000;  // LSB in MSB kopieren
        data >>= 1;
  return crc;


Welche Rechnung ist korrekt? Die Rechnung oben habe ich auch schon für 
oneWire benutzt und das Ergebnis war korrekt. In der crc16.h gibt es 
dafür auch ein ASM-Macro, welches das gleiche Konzept anwendet und damit 
falsche Ergebnisse liefert. Hat schon mal einer die crc16.h in der 
realen Welt geprüft?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Oliver S. (oliverso)

23.04.2023 19:01

Lesenswert?

•

▲
▼

Falk B. schrieb:
>> die darüber braucht einen 32bit Zähler.
>
> Nö, in ASM geht das auch mit 24 Bit.

Wäre aber unsinnig, denn in ASM reicht die 16Bit des Z-Registers mit lpm 
rN, Z+. Einmal rum, dann RAMPZ gesetzt, und noch ´ne Runde. Wenn du 
schon mit ASM hier rumprahlst, dann wenigstens richtig.

Oliver

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von MaWin O. (mawin_original)

23.04.2023 19:20

Lesenswert?

•

▲
▼

Falk B. schrieb:
> Das kann man nicht einfach so am Anfang tun.

Doch, kann man.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Falk B. (falk)

23.04.2023 20:17

Lesenswert?

•

▲
▼

MaWin O. schrieb:
>> Das kann man nicht einfach so am Anfang tun.
>
> Doch, kann man.

Toll, und warum?
Mein Wissen beruht hier rauf, der Klassiker

http://www.ross.net/crc/download/crc_v3.txt

Und auch wenn dort die vielen Spielarten mit reflected etc. dargestellt 
sind, ist die Variante mit direktem XOR der Daten dort nicht zu finden.

Naja. Die verschiedenen Online CRC Tools spucken alle das gleiche 
Ergebnis für meine Test aus.

CRC-16 Modbus mit Polynom 0x8005 und 0xFFFF initialwert, Ein- und 
Ausgang reflektiert. Testdaten

1	42 4D 36 F0 00 00 00 00 00 00 36 00 00 00 28 00


CRC ist immer 0x05EE

https://www.texttool.com/crc-online
https://www.lddgo.net/en/encrypt/crc
https://www.tahapaksu.com/crc/
http://www.sunshine2k.de/coding/javascript/crc/crc_js.html
https://crccalc.com/

Na gut, dann ist das halt so.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Falk B. (falk)

23.04.2023 20:19

Lesenswert?

•

▲
▼

Oliver S. schrieb:
>> Nö, in ASM geht das auch mit 24 Bit.
>
> Wäre aber unsinnig, denn in ASM reicht die 16Bit des Z-Registers mit lpm
> rN, Z+. Einmal rum, dann RAMPZ gesetzt, und noch ´ne Runde. Wenn du
> schon mit ASM hier rumprahlst, dann wenigstens richtig.

Du hast es nötig. Man muss RAMPZ nicht nach einer Runde rum setzen, das 
geht alles in einer Schleife.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Falk B. (falk)

23.04.2023 20:46

Lesenswert?

•

▲
▼

Falk B. schrieb:
>>> Das kann man nicht einfach so am Anfang tun.
>>
>> Doch, kann man.
>
> Toll, und warum?
> Mein Wissen beruht hier rauf, der Klassiker
>
> http://www.ross.net/crc/download/crc_v3.txt

Hmm, das hier scheint mir ein Hinweis zu sein.

These facts, combined with the XOR property
   (A xor B) xor C = A xor (B xor C)
mean that message bytes need not actually travel through the W/4 bytes
of the register. Instead, they can be XORed into the top byte just
before it is used to index the lookup table. This leads to the
following modified version of the algorithm.
         +-----<Message (non augmented)
         |      +----+----+----+----+
        XOR----<|    |    |    |    |
         |      +----+----+----+----+
         |     0+----+----+----+----+       Algorithm
         v      +----+----+----+----+       ---------
         |      +----+----+----+----+       1. Shift the register left by
         |      +----+----+----+----+          one byte, reading in a new
         |      +----+----+----+----+          message byte.
         |      +----+----+----+----+       2. XOR the top byte just rotated
         |      +----+----+----+----+          out of the register with the
         +----->+----+----+----+----+          next message byte to yield an
                +----+----+----+----+          index into the table ([0,255]).
                +----+----+----+----+       3. XOR the table value into the
                +----+----+----+----+          register.
                +----+----+----+----+       4. Goto 1 iff more augmented
             255+----+----+----+----+          message bytes.


Das funktioniert auch mit dem seriellen Algorithmus. Der Rest des 
ASM-Macro, welche für die CRC16 mit 0xA001 KEINERLEI Verzweigungen 
enthält ist somit vermutlich eine Handoptimierung der XORs auf dieses, 
spezielle Polynom.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Falk B. (falk)

23.04.2023 21:53

Angehängte Dateien:

crc2.S (1,55 KB)
crc.h (31 Bytes) | Codeansicht
main.c (1,57 KB) | Codeansicht
main.h (29 Bytes) | Codeansicht
junk.h (53 Bytes) | Codeansicht
junk.c (138 Bytes) | Codeansicht
FastCRC.lss (9,64 KB)

Lesenswert?

•

▲
▼

Ok, hier die kleine Optimierung, wenn man die Schleife um die CRC in ASM
per Hand gestaltet. Macht 33 Takte/Byte. Die eigentliche, trickreiche
CRC-Berechnung braucht 23 Takte, habe ich einfach kopiert. Die Variante
in C mit Inline-ASM Macro ist nicht sooo viel schlechter mit 41
Takte/Byte.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Foobar (asdfasd)

24.04.2023 00:53

Lesenswert?

•

▲
▼

Mach's halt wie die Großen: während der CRC-Berechnung eine Animation 
abspielen.  Dauert dann zwar noch länger, aber der Anwender ist 
beschäftigt, findet das evtl gar noch "geil".  Alternativ einen 
Screenshot der Anwendung darstellen bevor man mit dem langsamen Kram 
loslegt ... den Anwendern ist antrainiert worden, dass das ganz normal 
ist, wenn in den ersten paar Sekunden/Minuten nichts geht.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Andreas (elektor)

25.04.2023 19:22

Lesenswert?

•

▲
▼

Foobar schrieb:
> Mach's halt wie die Großen: während der CRC-Berechnung eine
> Animation
> abspielen.  Dauert dann zwar noch länger, aber der Anwender ist
> beschäftigt, findet das evtl gar noch "geil".  Alternativ einen
> Screenshot der Anwendung darstellen bevor man mit dem langsamen Kram
> loslegt ... den Anwendern ist antrainiert worden, dass das ganz normal
> ist, wenn in den ersten paar Sekunden/Minuten nichts geht.

Ja, das hatte ich mir tatsächlich auch schon überlegt, da das wirklich 
oft gemacht wird.

Falk B. schrieb:
> Ok, hier die kleine Optimierung, wenn man die Schleife um die CRC
> in ASM
> per Hand gestaltet. Macht 33 Takte/Byte. Die eigentliche, trickreiche
> CRC-Berechnung braucht 23 Takte, habe ich einfach kopiert. Die Variante
> in C mit Inline-ASM Macro ist nicht sooo viel schlechter mit 41
> Takte/Byte.

Vielen Dank für eure Hilfe!
Werde die ASM routine von Falk als Basis nutzen, eventuell noch etwas 
verändern und diesen dann nutzen. Der liefert gute Ergebnisse.
Vielen Dank.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Flash CRC Berechnung optimieren/schneller

von Foobar (asdfasd)

26.04.2023 04:07

Lesenswert?

•

▲
▼

.oO(Ich hätte Zyniker-Tags setzen sollen)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Forum: Mikrocontroller und Digitale Elektronik Flash CRC Berechnung optimieren/schneller