Forum: Digitale Signalverarbeitung / DSP / Machine Learning DSP & komplexe Multiplikation


von Bogdan (Gast)


Lesenswert?

Gibt es einen DSP, der eine komplexe Multiplikation (32 Bit x 32 Bit) in 
10 ns ausführen kann?

von Dergute W. (derguteweka)


Lesenswert?

Moin,

Bestimmt gibts sowas.

Gruss
WK

von Ralph B. (rberres)


Lesenswert?

wenn der DSP für die 32*32 Bit Multiplikation genau eine Taktperiode 
benötigt würde ein DSP mit 100MHz Taktfrequenz genügen.

Ich vermute aber mal das er mehr als eine Taktperiode benötigt.

Ob DSPs heute das mit einer Taktperiode können? und ob die so schnell 
sind?

Mit Fpgals könnte ich mir das schon eher vorstellen.

Ralph Berres

von Nils P. (torus)


Lesenswert?

Aber sicher gibt es das:

Z.b kann der TMS320C6655 von Texas Instruments bei 1.25Ghz eine 
Multiplikation in 2.9ns berechnen. Die Multiplikation selbst hat eine 
Latenz von vier Zyklen.

Durch Pipelining kannst Du pro Cycle eine Multiplikation starten und Du 
hast zwei Multiplier Units. Damit kommst Du auf 8 aktive Multiplikatinen 
die zeitgleich aktiv sein können.

Das macht dann einen theoretischen Durchsatz von 10 Milliarden 
Multiplikatinen pro Sekunde.

von Yalu X. (yalu) (Moderator)


Lesenswert?

Nils P. schrieb:
> TMS320C6655

Der hat sogar schon fertige Instruktionen für komplexe Operationen. Die
Multiplikation zweier komplexer 64-Bit-Zahlen (je 32 Bit Real- und
Imaginärteil, wahlweise Gleit- oder Festkomma) benötigt insgesamt 4
Zyklen, die sich durch Pipelining auf effektiv 1 Zyklus verkürzen
lassen. Die Operation kann parallel in zwei Recheneinheiten ausgeführt
werden, so dass jede komplexe Multiplikation im Mittel nur noch 0,5
Zyklen (0,4ns) benötigt.

Falls das nicht reicht, kann man mit der 8-Core-Variante TMS320C6678 den
Durchsatz noch einmal um den Faktor 8 steigern. Dann dauert die komplexe
Multiplikation im Mittel nur noch 50ps.

von --- (Gast)


Lesenswert?

> so dass jede komplexe Multiplikation im Mittel nur noch 0,5
> Zyklen (0,4ns) benötigt

Es sind auch nur Laien die ihren M4er ARM fuer einen DSP halten.

von Klopsomat (Gast)


Lesenswert?

Yalu X. schrieb:
> Falls das nicht reicht, kann man mit der 8-Core-Variante TMS320C6678 den
> Durchsatz noch einmal um den Faktor 8 steigern.

Gerade mal nach den Preisen geschaut. Huch ...

von chris (Gast)


Lesenswert?

280$

von Nils P. (torus)


Lesenswert?

Yalu X. schrieb:
> Falls das nicht reicht, kann man mit der 8-Core-Variante TMS320C6678 den
> Durchsatz noch einmal um den Faktor 8 steigern. Dann dauert die komplexe
> Multiplikation im Mittel nur noch 50ps.

Jup! Für so Low-Level Frickler wie mich sind diese Chips wirklich der 
ganz große Spaß.

Die wahre Kunst bei den Chips ist, die Daten schnell genug per DMA in 
das tightly coupled Memory zu bekommen. Sonst stallen die Pipelines und 
man sieht von der theoretischen Performance fast gar nichts.

von J. S. (engineer) Benutzerseite


Lesenswert?

Yalu X. schrieb:
> Dann dauert die komplexe
> Multiplikation im Mittel nur noch 50ps.
SO kann man das aber nicht rechnen. :-)

Die Dauer einer Multiplikation ist schon die Zeit inklusive Latenz / 
Delay.

Dass infolge paralleler Berechnungen und pipelining (was auch auf 
Parallelität zurückzuführen ist!) ein hoher Datendurchsatz erzielt wird, 
macht die Dauer nicht kürzer. Das ist eine andere Kenngrösse.

von Yalu X. (yalu) (Moderator)


Lesenswert?

Jürgen S. schrieb:
> Yalu X. schrieb:
>> Dann dauert die komplexe
>> Multiplikation im Mittel nur noch 50ps.
> SO kann man das aber nicht rechnen. :-)
>
> Die Dauer einer Multiplikation ist schon die Zeit inklusive Latenz /
> Delay.

Ja, hier von "Dauer" zu reden, ist schlampig. Ich wollte durch den
Zusatz "im Mittel" verdeutlichen, was gemeint ist, aber auch das ging in
die Hose. Eine bessere Formulierung wäre "bis zu 20 Milliarden komplexe
Multiplikation pro Sekunde" gewesen.

von ossi-2 (Gast)


Lesenswert?

> Dann dauert die komplexe
> Multiplikation im Mittel nur noch 50ps.
SO kann man das aber nicht rechnen. :-)

Für eine FFT würd ich das aber so rechnen wollen, weil genügend
Parallelität vorhanden ist, die Cores und die Pipelines darin eine
Zeitlang gefüllt zu halten. Dann spielt der Delay/die Latenz kaum noch 
eine Rolle.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.