Forum: FPGA, VHDL & Co. Timing Optimierung bei einem Schieberegister


von Peter (Gast)


Lesenswert?

Hallo Leute,

Ich brauche Hilfe bei einem Timing Problem. Zunächst mal die 
Beschreibung meiner Logik:
Ich habe einen Bus der wie folgt aufgebaut ist:
  data_i        : in  std_logic_vector(DATA_WIDTH-1 downto 0);
  data_valid_i  : in  std_logic
  valid_bytes_i : in  std_logic_vector(DATA_WIDTH/8-1 downto 0);

data_i enthält die Daten, data_valid_i markiert ein gültiges Datum und 
valid_bytes_i markiert die gültigen Bytes von data_i.

Mein Problem ist, dass valid_bytes_i die Bytes durcheinander markieren 
kann. Also z.b. so 10110011. Es gibt also Null Bytes zwischen gültigen 
Daten. Ich möchte diese Null Bytes gerne rausschmeißen. Damit ich am 
Ende immer ein valid_bytes_i von 11111111 bekomme.
Das habe ich bisher wie folgt gelöst (Codeausschnitt):
1
      byte_cnt_u_v := byte_cnt_u;
2
3
      -- load old data_sr value
4
      data_sr_v    := data_sr;
5
6
      -- if valid slave port data
7
      if data_valid_i = '1' then
8
        for i in 0 to DATA_WIDTH/8-1 loop
9
          if valid_bytes_i(i) = '1' then  -- if byte is marked as valid
10
            -- shift valid byte into data_sr
11
            data_sr_v    := data_i((i+1)*8-1 downto i*8) & data_sr_v(DATA_WIDTH*2-1 downto 8);
12
            -- count valid bytes in shift register
13
            byte_cnt_u_v := byte_cnt_u_v + 1;
14
          end if;
15
        end loop;
16
      end if;
17
      -- save byte_cnt for next clk cycle
18
      byte_cnt_u <= byte_cnt_u_v;
19
     
20
      -- save data_sr value for next clk cycle
21
      data_sr    <= data_sr_v;
22
    
23
    if(byte_cnt_u_v >= DATA_WIDTH/8) then
24
    data_beat_ready_o <= '1';
25
    end if;

Die Idee ist, dass ich jedes Byte in einer Schleife durchlaufe und die 
gültigen Bytes in ein Schieberegister (data_sr_v) packe, welches doppelt 
so groß ist wie data_i. Des weiteren läuft ein Zähler mit der die Bytes 
im Schieberegister zählt. Wenn dieser die gewünschte Anzahl erreicht 
hat, kann das datum nach außen gegeben werden.
Dieses Konzept funktioniert soweit ganz gut.
Allerdings habe ich ein Problem wenn ich DATA_WIDTH auf 256 bit setzte.
Dann kann ich das Timing bei 200MHz nicht mehr schaffen.

Hat von euch einer eine Idee wie ich das ganze besser lösen könnte? Eine 
Lösung die das Timing entspannt.

Danke sehr

Gruß

Peter

von rdft (Gast)


Lesenswert?

Peter schrieb:
> Hat von euch einer eine Idee wie ich das ganze besser lösen könnte?

#Verwende ein schieberegister makro,
#mache kein paraleles load,
#benutze serdes primitive
#verzichte auf Mischen asynchronen und synchronen reset
#verzichte auf reset komplett
#optimiere PLL Routing
#Benutze multicycle pfade fürs parallele load

von Lothar M. (Firma: Titel) (lkmiller) (Moderator) Benutzerseite


Lesenswert?

Peter schrieb:
> bei einem Schieberegister
Ich hoffe, dir ist klar, dass das Problem nichts mit einem 
Schieberegister zu tun hat, sondern dass du hier offenbar viele 
Multiplexer optimieren musst und zwar bei 256 Bit am Eingang (also 32 
Bytes) vom 32:1, 31:1, 30:1 bis zum 2:1 Multiplexer. Das Schieberegister 
ist dann nur dahinter geschaltet.

> Hat von euch einer eine Idee wie ich das ganze besser lösen könnte? Eine
> Lösung die das Timing entspannt.
Derzeit hast du diese Multiplexer alle parallel implementiert und du 
berechnest das Ergebnis mit jedem Taktzyklus. Das muss vermutlich nicht 
sein, denn so schnell kannst du das Ergebnis eigentlich gar nicht 
hinausschieben. Der Knackpunkt ist also: wie oft bzw. wie schnell kommen 
(durchschnittlich) neue Daten? Mit jedem Takt? Mit jedem 2. oder jedem 
10. oder jedem 32. Takt?

BTW: hast du die Beschreibung schon mal simuliert? Zumindest in dem 
Codeschnipsel hier wird dein byte_cnt_u gar nie zurückgesetzt...

BTW2: ich kriege echt die Augenpest bei diesem Gaisler-Stil. Aber nur so 
kommt der Softwareprogrammierer zu seinen lieben Variablen...  ;-)

von Peter (Gast)


Lesenswert?

rdft schrieb:
> Peter schrieb:
>> Hat von euch einer eine Idee wie ich das ganze besser lösen könnte?
>
> #Verwende ein schieberegister makro,
> #mache kein paraleles load,
> #benutze serdes primitive
> #verzichte auf Mischen asynchronen und synchronen reset
> #verzichte auf reset komplett
> #optimiere PLL Routing
> #Benutze multicycle pfade fürs parallele load

Danke ich werde die Tipps mal versuchen umzusetzten und melde mich dann 
wieder. Eine Frage zum Serdes. Diese logik wird nicht an den FPGA Pins 
angeschlossen. Das ist nur für intern. Kann man SERDES bausteine auch 
für interne logik benutzten? Und kannst du mir noch erklären was ein 
paralleles load genau ist? Meinst du die For schleife in einem takt?


Lothar M. schrieb:
> Peter schrieb:
>> bei einem Schieberegister
> Ich hoffe, dir ist klar, dass das Problem nichts mit einem
> Schieberegister zu tun hat, sondern dass du hier offenbar viele
> Multiplexer optimieren musst und zwar bei 256 Bit am Eingang (also 32
> Bytes) vom 32:1, 31:1, 30:1 bis zum 2:1 Multiplexer. Das Schieberegister
> ist dann nur dahinter geschaltet.
>
>> Hat von euch einer eine Idee wie ich das ganze besser lösen könnte? Eine
>> Lösung die das Timing entspannt.
> Derzeit hast du diese Multiplexer alle parallel implementiert und du
> berechnest das Ergebnis mit jedem Taktzyklus. Das muss vermutlich nicht
> sein, denn so schnell kannst du das Ergebnis eigentlich gar nicht
> hinausschieben. Der Knackpunkt ist also: wie oft bzw. wie schnell kommen
> (durchschnittlich) neue Daten? Mit jedem Takt? Mit jedem 2. oder jedem
> 10. oder jedem 32. Takt?

Das kann man so genau nicht sagen. Sie können mit jedem Takt kommen aber 
auch seltener. Habe schon alles gesehen. Manchmal 3 daten als burst. 
Aber durchschnittlich sollte es wohl mit jedem 2ten Takt sein. Nur muss 
ich mich darauf einstellen das es auch mit jedem Takt sein kann.
Ich muss die Daten nicht unbedingt mit dem nächsten Takt weitergeben, 
aber zulange möchte/sollte ich auch nicht brauchen.

>
> BTW: hast du die Beschreibung schon mal simuliert? Zumindest in dem
> Codeschnipsel hier wird dein byte_cnt_u gar nie zurückgesetzt...
Ähm ja das funktioniert schon. Der counter wird weiter unten 
zurückgesetzt. Zeige nur dieses Codeschnipsel hier weil ich an der 
Stelle Timing Probleme habe. Aber wie gesagt erst ab 256 bit busbreite

>
> BTW2: ich kriege echt die Augenpest bei diesem Gaisler-Stil. Aber nur so
> kommt der Softwareprogrammierer zu seinen lieben Variablen...  ;-)

Was ist denn hier ein schlechter vhdl stil? Die Variablen und die 
Forschleife brauche ich ja wenn ich das ganze möglichst performant und 
schnell lösen will oder nicht?

Danke vielmals für eure Antworten. :)


Gruß
Peter

von Lothar M. (Firma: Titel) (lkmiller) (Moderator) Benutzerseite


Lesenswert?

Peter schrieb:
> Aber durchschnittlich sollte es wohl mit jedem 2ten Takt sein.
256 Bits mit 100MHz? Das sind 25 Gb/s! Recht knackig. Irgendwo habe ich 
da noch einen Knoten im Hirn...
Wie bekommst du so viele Daten so schnell wieder weg?

> Aber durchschnittlich sollte es wohl mit jedem 2ten Takt sein.
Kannst du dir da ein paar Takte Latency erlauben und das System 
pipelinen? Also nicht alle Schritte auf einmal machen, sondern z.B. 
Multiplexerstufen hintereinander schalten und durch zwischengeschaltete 
Flipflops die Logikebenen reduzieren?

> Was ist denn hier ein schlechter vhdl stil?
Es verleitet Softwareprogrammierer dazu, zu meinen, man könne in VHDL 
progrommieren wie man in C programmiert. Aber letztendlich beschreibt 
dieses "VHDL-Programm" Hardware und muss vom Synthesizer in ein FPGA 
abgebildet werden können.

> Die Variablen und die Forschleife brauche ich ja wenn ich das ganze
> möglichst performant und schnell lösen will oder nicht?
Was sollte sich an dieser HDL-Beschreibung durch Variablen oder gar eine 
Schleife (die der Synthesizer ja in paralelle hintereinandergeschaltete 
Hardware ausrollen muss!) beschleunigen lassen?
Nein, wenn du was "möglichst performant" machen willst, dann brauchst du 
eine Idee, wie du das mit Hardware (und zwar mit Logik/LUTs sowie 
Flipflops und RAM-Blöcken, mehr hast du im Grunde nicht) "möglichst 
performant" lösen könntest. Und wenn diese Idee funktioniert, dann 
nimmst du eine HDL (Verilog, VHDL oder sonstwas) und beschreibst die 
Funktion deiner Lösung mit dieser Sprache.

Ich revidiere übrigens meine Aussage mit den Multiplexern von oben: es 
sind nicht unterschiedlich große Multiplexer nötig, sondern 256 maximal 
große 32:1 Multiplexer, weil ja jedes Byte an jede Stelle in dem Wort 
verschoben werden kann.

> Dann kann ich das Timing bei 200MHz nicht mehr schaffen.
Auf welchem Zielsystem? Hast du da 4er oder 6er LUTs?
Mit 6er-LUTs würde ein 32:1 MUX nämlich nur 1 Logikebene brauchen und 
wäre im Prinzip pfeilschnell.

: Bearbeitet durch Moderator
von Christoph Z. (christophz)


Lesenswert?

Peter schrieb:
> Hat von euch einer eine Idee wie ich das ganze besser lösen könnte? Eine
> Lösung die das Timing entspannt.

Die gültigen Bytes in ein FIFO füllen anstatt diese vielen Multiplexer.

von Lothar M. (Firma: Titel) (lkmiller) (Moderator) Benutzerseite


Lesenswert?

Christoph Z. schrieb:
> Die gültigen Bytes in ein FIFO füllen anstatt diese vielen Multiplexer.
Und wie soll das Auswählen der gültigen Bytes für den Fifo ohne 
Multiplexer gehen?

von Peter (Gast)


Lesenswert?

Lothar M. schrieb:
> Peter schrieb:
>> Aber durchschnittlich sollte es wohl mit jedem 2ten Takt sein.
> 256 Bits mit 100MHz? Das sind 25 Gb/s! Recht knackig. Irgendwo habe ich
> da noch einen Knoten im Hirn...
> Wie bekommst du so viele Daten so schnell wieder weg?
>
Am Eingang ist ein PCIE Gen3 IP Core der als Ausgangsinterface die oben 
beschriebenen Ports hat. Ich möchte die Daten in einen DMA füttern. 
Dieser kann aber nur voll gültige Daten akzeptieren. Also ohne Null 
Bytes dazwischen.
Da ja meist nicht alle Btyes pro Datum gültig sind, verringert sich ja 
die Datenrate. Und das mit dem durchschnittlich 2 Takte pro Datum ist 
wohl auch eher übertrieben. Das Problem ist nur das auch mal ein Burst 
kommen kann mit vielleicht 10 zusammenhängenden Packeten. Also 10x256bit 
auf 10 zyklen. Und danach längere Pause. Ich bin vom Worst case 
ausgegangen, mit 1 datum pro cycle. Ich dachte mir ich bau eine Logik 
die auch für andere Projekte eingesetzt werden kann. Und da kann 
vielleicht mal diese krasse Anforderung kommen.

>> Aber durchschnittlich sollte es wohl mit jedem 2ten Takt sein.
> Kannst du dir da ein paar Takte Latency erlauben und das System
> pipelinen? Also nicht alle Schritte auf einmal machen, sondern z.B.
> Multiplexerstufen hintereinander schalten und durch zwischengeschaltete
> Flipflops die Logikebenen reduzieren?

Wie schnell ich die Daten weitergebe spielt eigentlich gar keine große 
Rolle. Nur kann ich den PCIE Core nicht ausbremsen. Der feuert wie er 
lust hat.
Kannst du mir dein konzept vielleicht grob an einem Code Beispiel 
erläutern? Das wäre sehr hilfreich für mich :)


>> Dann kann ich das Timing bei 200MHz nicht mehr schaffen.
> Auf welchem Zielsystem? Hast du da 4er oder 6er LUTs?
> Mit 6er-LUTs würde ein 32:1 MUX nämlich nur 1 Logikebene brauchen und
> wäre im Prinzip pfeilschnell.

Es ist ein Xilinx Zynq Device. also 6er LUTs.
Mit 128 bit busbreite schaffe ich das Timing sogar mit 200Mhz.

Danke sehr

Gruß

Peter

von Achim S. (Gast)


Lesenswert?

Die mittlere Datenrate ist also deutlich geringer als die 
Burst-Datenrate, und eine gewisse Latenz ist nicht dramatisch?

Dann bau vor deine Stufe einen kleinen Pufferspeicher. Ein BRAM als FIFO 
verschaltet reicht aus, um die Daten schnell genugt vom IP-Core 
abzunehmen. Und auf der anderen Seite des FIFOs bearbeitest du die Daten 
halt so schnell, wie dein FPGA kann (solange es nur für die mittlere 
Datenrate ausreichend ist).

von Peter (Gast)


Lesenswert?

Hallo nochmal,

ich hab jetzt mal einen anderen Ansatz gewählt. Den möchte ich euch mal 
kurz vorstellen. Ich shifte jetzt pro clock cycle nur einmal. Somit muss 
bei 256 bit busbreite 32 mal shiften (weil 32 bytes).

Hier mal der Code
1
LIBRARY ieee;
2
USE ieee.std_logic_1164.ALL;
3
USE ieee.numeric_std.ALL;
4
ENTITY test IS
5
  GENERIC (
6
    DATA_WIDTH : NATURAL := 256
7
  );
8
  PORT (
9
    -- clk,reset
10
    aclk : IN std_ulogic;
11
    aresetn : IN std_ulogic;
12
13
    -- input
14
    data_valid_i : IN std_ulogic;
15
    data_i : IN std_ulogic_vector(DATA_WIDTH - 1 DOWNTO 0);
16
    valid_bytes_i : IN std_ulogic_vector(DATA_WIDTH/8 - 1 DOWNTO 0);
17
18
    -- output
19
    data_valid_o : OUT std_ulogic;
20
    data_o : OUT std_ulogic_vector(DATA_WIDTH - 1 DOWNTO 0);
21
    valid_bytes_o : OUT std_ulogic_vector(DATA_WIDTH/8 - 1 DOWNTO 0)
22
  );
23
END ENTITY test;
24
25
ARCHITECTURE rtl OF test IS
26
27
  TYPE data_t IS ARRAY (0 TO DATA_WIDTH/8 - 1) OF std_ulogic_vector(DATA_WIDTH - 1 DOWNTO 0);
28
  TYPE valid_bytes_t IS ARRAY (0 TO DATA_WIDTH/8 - 1) OF std_ulogic_vector(DATA_WIDTH/8 - 1 DOWNTO 0);
29
  TYPE array_pos_t IS ARRAY (0 TO DATA_WIDTH/8 - 1) OF INTEGER RANGE 0 TO DATA_WIDTH - 8;
30
  SIGNAL data_array : data_t := (OTHERS => (OTHERS => '0'));
31
  SIGNAL valid_bytes_array : valid_bytes_t := (OTHERS => (OTHERS => '0'));
32
  SIGNAL array_pos : array_pos_t;
33
  SIGNAL cnt_valid_bytes : INTEGER RANGE 0 TO DATA_WIDTH/8 := 0;
34
  SIGNAL sr_array_pos : INTEGER RANGE 0 TO DATA_WIDTH * 2 := 0;
35
  SIGNAL data_sr : std_ulogic_vector(DATA_WIDTH * 2 - 1 DOWNTO 0) := (OTHERS => '0');
36
37
BEGIN
38
  start_stage : PROCESS (aclk)
39
  BEGIN
40
    IF rising_edge(aclk) THEN 
41
      data_array(0) <= data_i;
42
      valid_bytes_array(0) <= valid_bytes_i;
43
      array_pos(0) <= 0;
44
      IF (data_valid_i = '1') THEN
45
        IF (valid_bytes_i(0) = '1') THEN
46
          array_pos(0) <= 8;
47
        END IF; 
48
      END IF;
49
    END IF;
50
  END PROCESS;
51
 
52
  gen_stages : FOR index IN 0 TO DATA_WIDTH/8 - 3 GENERATE
53
    stages : PROCESS (aclk)
54
    BEGIN
55
      IF rising_edge(aclk) THEN
56
        valid_bytes_array(index + 1) <= valid_bytes_array(index);
57
        data_array(index + 1) <= data_array(index);
58
        array_pos(index + 1) <= array_pos(index);
59
        IF (valid_bytes_array(index)(index + 1) = '1') THEN
60
          data_array(index + 1)(array_pos(index) + 7 DOWNTO array_pos(index)) <= data_array(index)(15 + index * 8 DOWNTO 8 + index * 8);
61
          array_pos(index + 1) <= array_pos(index) + 8;
62
        END IF; 
63
      END IF;
64
    END PROCESS;
65
    END GENERATE gen_stages;
66
 
67
    end_stage : PROCESS (aclk)
68
      VARIABLE cnt : unsigned (DATA_WIDTH/8 - 1 DOWNTO 0);
69
    BEGIN
70
      IF rising_edge(aclk) THEN
71
        data_array(DATA_WIDTH/8 - 1) <= (OTHERS => '0');
72
        array_pos(DATA_WIDTH/8 - 1) <= array_pos(DATA_WIDTH/8 - 2);
73
 
74
        IF (valid_bytes_array(DATA_WIDTH/8 - 2)(DATA_WIDTH/8 - 1) = '1') THEN 
75
          data_array(DATA_WIDTH/8 - 1)(array_pos(DATA_WIDTH/8 - 2) + 7 DOWNTO array_pos(DATA_WIDTH/8 - 2)) <= data_array(DATA_WIDTH/8 - 2)(DATA_WIDTH - 1 DOWNTO DATA_WIDTH - 8);
76
        END IF;
77
 
78
        IF (array_pos(DATA_WIDTH/8 - 2) /= 0) THEN
79
          data_array(DATA_WIDTH/8 - 1)(array_pos(DATA_WIDTH/8 - 2) - 1 DOWNTO 0) <= data_array(DATA_WIDTH/8 - 2)(array_pos(DATA_WIDTH/8 - 2) - 1 DOWNTO 0);
80
        END IF;
81
 
82
        cnt := (OTHERS => '0');
83
        FOR i IN 0 TO DATA_WIDTH/8 - 1 LOOP
84
          cnt := cnt + unsigned'("0" & valid_bytes_array(DATA_WIDTH/8 - 2)(i));
85
        END LOOP;
86
        cnt_valid_bytes <= to_integer(cnt);
87
      END IF;
88
    END PROCESS;
89
 
90
    output_stage : PROCESS (aclk)
91
 
92
    BEGIN
93
      IF rising_edge(aclk) THEN
94
        data_valid_o <= '0';
95
        valid_bytes_o <= (OTHERS => '0');
96
        data_o <= (OTHERS => '0');
97
        IF (sr_array_pos >= DATA_WIDTH) THEN
98
          data_valid_o <= '1';
99
          data_o <= data_sr(DATA_WIDTH - 1 DOWNTO 0);
100
          valid_bytes_o <= (OTHERS => '1');
101
          data_sr(sr_array_pos - 1 DOWNTO 0) <= data_array(DATA_WIDTH/8 - 1) & data_sr(sr_array_pos - 1 DOWNTO DATA_WIDTH);
102
          sr_array_pos <= sr_array_pos - DATA_WIDTH + cnt_valid_bytes * 8; 
103
        ELSE
104
          data_sr(sr_array_pos + DATA_WIDTH - 1 DOWNTO sr_array_pos) <= data_array(DATA_WIDTH/8 - 1);
105
          sr_array_pos <= sr_array_pos + cnt_valid_bytes * 8; 
106
        END IF;
107
      END IF;
108
    END PROCESS;
109
 
110
111
END ARCHITECTURE rtl;

Nach dem ersten Blick in der Simulation schaut es so aus als ob es 
funktioneirt. Mit dem Timing habe ich jetzt auch keine Probleme mehr.
Allerdings verbrauche ich wie erwartet viele Resourcen da ich immer noch 
Monstermultiplexer zuammen baue :D

CLB/CARRY  1
CLB/LUT          9576
CLB/SRL          282
REGISTER/SDR  8189

Das ist jetzt bei 256 bit busbreite.
Leider fällt mir nichts besseres ein.

Was haltet ihr davon? Bin für jede Kritik dankbar


Gruß

Peter

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.