Forum: PC Hard- und Software Schnelles CRC16

von Harper B. (harper)

16.07.2014 16:53

Lesenswert?

•

Ich habe eine Routine geschrieben, die ein CRC16 korrekt berechnet. 
Diese Routine compiliere ich mit dem Microsoft C++ Compiler von VS2005. 
Programmversion cl.exe: 14.00.50727.762

Die Routine arbeitet zwar, könnte aber durchaus schneller sein.

Der Code sieht so aus:

//  CRC16/CCITT
//  width: 16
//  polynome: 0x1021 (x16 + x12 + x5 + 1)
//  reflect: yes (bit transmission order: 0,1,2,3,4,5,6,7)
static unsigned short CRCtable[] = {
    0, 4489, ... 
#pragma optimize("gt", on)
// \brief calculate the CRC 
// \param pImageStart pointer to first byte
// \param pImageEnd pointer beyond the last last
// \param wOldCRC CRC start value, usually 0xFFFF
// \return new CRC value
WORD CRC16(const BYTE* pImageStart, const BYTE* pImageEnd, WORD wOldCRC)
  WORD wCRC;
  WORD w;
  const BYTE* pData;
  wCRC = wOldCRC;
  pData = pImageStart;
  while (pData < pImageEnd)
    w = (wCRC ^ *pData++) & 0xFF;
    wCRC = wCRC >> 8 ^ CRCtable[w];
  return wCRC;


Der Compiler erzeugt daraus diesen Code:

    ; load parameters
    mov     ecx, DWORD PTR _pImageStart$[esp-4]
    movzx   eax, WORD PTR _wOldCRC$[esp-4]
    push    esi
    mov      esi, DWORD PTR _pImageEnd$[esp]
    ; initial check (pImageStart < pImageEnd)
    cmp      ecx, esi
    jae      SHORT $LN1@CRC16
    ; ----- calculation loop -----
    movzx   edx, BYTE PTR [ecx]
    xor     dl, al
    movzx   ax, ah
    add      ecx, 1
    and     edx, 255    ; 000000ffH
    movzx   edx, dx
    xor      ax, WORD PTR _CRCtable[edx*2]
    cmp      ecx, esi
    movzx   eax, ax
    jb      SHORT $LL2@CRC16
    ; ----- end of calculation loop -----
    pop esi

Der spannende Teil dieses Codes ist die caculation loop, da diese für 
jedes Byte ausgeführtwird. In dieser Loop sind 10 Assembleranweisungen. 
Dabei habe ich einen Verdacht, dass diese nicht optimal sind. Hier sind 
die (nach meiner Meinung) kritischen Zeilen:

    movzx   edx, BYTE PTR [ecx]
    xor     dl, al
    ; ...
    and     edx, 255    ; 000000ffH
    movzx   edx, dx

Jede Anweisung ändert das Register DL oder EDX.

In der ersten wird ein Byte in das 32 Bit Register geladen. Das sollte 
die oberen Bytes auf 0 setzen.

Das XOR ändert nur das untere Byte, die drei oberen bleiben 0.

Das AND sorgt dafür, dass ... die oberen Bytes auf 0 gesetzt werden.

Das MOVZX erweitert die unteren 16 Bit (DX) auf 32 Bit, wobei die oberen 
beiden Bytes auf 0 gesetzt werden.


Kann ich meinem Eindruck trauen, dass die letzten beiden Zeilen 
überflüssig sind? Kann der Compiler so schlecht sein?

Gibt es einen andere Algorithmus, gerne auch in 486 Assembler, der 
schneller ist? Dabei könnte man berücksichtigen, dass mit der Routine 
das CRC16 über einen Bereich von mehreren Megabyte berechnet werden 
soll. Ein Epilog für verbleibende x Bytes wäre kein Problem.

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Schnelles CRC16

von Jörg W. (dl8dtl) (Moderator)

17.07.2014 14:32

Lesenswert?

•

▲
▼

Am schnellsten ist halt eine Tabelle, aber die braucht 128 KiB für
die Werte.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Schnelles CRC16

von ... (Gast)

17.07.2014 14:38

Lesenswert?

•

▲
▼

Die byte-weise Verarbeitung der Daten macht den Prozessor wahrscheinlich 
auch langsam. Ich hab vor paar Jahren mal im optimization guide von 
Intel gelesen und da stand drin, dass bei byte-weisen Zugriffen sehr 
viele wait states anfallen. Ich weiß allerdings nicht wie das bei 
aktuellen Prozessoren ist.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Schnelles CRC16

von foo (Gast)

17.07.2014 15:43

Lesenswert?

•

▲
▼

Du kannst z.B. mal Loop Unrolling machen.

Deine Daten sind ja wahrscheinlich länger.

Also z.B: Input 300 bytes,
in der loop immer z.B. 32 bytes verrechen.
Bleibt 300 % 32 -> 12 restbytes zu verrechnen.

Erspart Vergleiche, kostet Codegröße.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Schnelles CRC16

von Peter II (Gast)

17.07.2014 15:51

Lesenswert?

•

▲
▼

foo schrieb:
> Erspart Vergleiche, kostet Codegröße.

dafür gibt es doch extra:

http://en.wikipedia.org/wiki/Duff's_device

könnte man hier eventuell verwenden.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Schnelles CRC16

von Harper B. (harper)

17.07.2014 18:24

Lesenswert?

•

▲
▼

Jörg Wunsch schrieb:
> Am schnellsten ist halt eine Tabelle, aber die braucht 128 KiB für
> die Werte.

In meinem Code ist schon eine CRCtable mit 512 16-Bit Werten enthalten. 
Wie in etwas muss ich mir eine 128 kByte große Tabelle vorstellen?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Schnelles CRC16

von Harper B. (harper)

17.07.2014 18:28

Lesenswert?

•

▲
▼

foo schrieb:
>> Dabei könnte man berücksichtigen, dass mit der Routine
>> das CRC16 über einen Bereich von mehreren Megabyte berechnet
>> werden soll.
>
> Deine Daten sind ja wahrscheinlich länger.

Ja wirklich, dass wäre also durch n-faches Hinschreiben des 
Schleifenkörpers zu erledigen, wobei vorher die Anzahl durch n dividiert 
werden muss.

> Erspart Vergleiche, kostet Codegröße.
Codegröße ist in der konkreten Anwenung nicht kritische. Das könnte ich 
mal probieren.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Schnelles CRC16

von Jörg W. (dl8dtl) (Moderator)

17.07.2014 21:55

Lesenswert?

•

▲
▼

Harper Blues schrieb:
> In meinem Code ist schon eine CRCtable mit 512 16-Bit Werten enthalten.
> Wie in etwas muss ich mir eine 128 kByte große Tabelle vorstellen?

Jaja, stimmt schon, ich hatte mich vertan.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Thread beobachten |

Seitenaufteilung abschalten

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.

Bestehender Account

Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen

Noch kein Account? Hier anmelden.

Kontakt/Impressum – Datenschutzerklärung – Nutzungsbedingungen – Werbung auf Mikrocontroller.net