Float 32 Aufbau
IEEE 754 Single Precision: 1 Vorzeichenbit + 8 Exponentenbits + 23 Mantissenbits = 32 Bit. Auflösung wahlweise nach Gesamtbreite oder Mantissenbits.
Float 32 Aufbau berechnen
IEEE 754 Single Precision: 1 Vorzeichenbit + 8 Exponentenbits + 23 Mantissenbits = 32 Bit. Auflösung wahlweise nach Gesamtbreite oder Mantissenbits.
- Gesamt — Gesamtbits
- Mantisse — Mantissenbits
Worum geht es?
IEEE 754 Single Precision belegt genau 32 Bit. Diese teilen sich in drei feste Felder auf: ein Vorzeichenbit, acht Exponentenbits und 23 Mantissenbits. Die Summe ergibt zwangsläufig 32 Bit — wer ein Feld kennt, kann jedes andere aus den Bekannten ableiten.
In gängigen Programmiersprachen entspricht das dem Typ float (C/C++/Java) bzw. Float32 (Go, Rust). Du erkennst Float32 an seinem 8-Bit-Exponentenbereich von 0 bis 255 und einer 23 Bit breiten Mantisse.
Die Formel
Gesamt = Vorzeichen + Exponent + Mantisse
= 1 + 8 + 23
= 32 Bit
Umstellung:
Mantisse = Gesamt − Vorzeichen − ExponentDie Variablen
| Symbol | Bedeutung | Einheit | Erklärung |
|---|---|---|---|
| Vorzeichen | Vorzeichenbits | Bit | Immer 1 Bit; 0 = positiv, 1 = negativ. |
| Exponent | Exponentenbits | Bit | 8 Bit, Wertebereich 0 … 255 inkl. Bias. |
| Mantisse | Mantissenbits | Bit | 23 Bit Bruchteil mit implizitem Leitbit. |
| Gesamt | Gesamtbits | Bit | Summe aller drei Felder, hier exakt 32. |
Minimal-Beispiel
Du kennst Vorzeichen- und Exponentenbits und willst die Mantissenbreite ableiten.
Mantisse = Gesamt − Vorzeichen − Exponent
= 32 − 1 − 8
= 23 BitPraxis-Beispiele
Beispiel 1 — Bitlayout im Speicher
Ein Float32 belegt 4 Byte. Das höchstwertige Bit ist das Vorzeichen, dann folgen acht Exponent-Bits, schließlich 23 Mantissenbits.
Bit-Index 31 23 0
┌─┬────────┬───────────────────────┐
│S│ EEEE │ MMMMMMMM │
│1│ 8 │ 23 │
└─┴────────┴───────────────────────┘Beispiel 2 — Anzahl darstellbarer Mantissen
Bei 23 Mantissenbits sind 2²³ = 8 388 608 verschiedene Bruchteile pro Exponent codierbar.
N_Mantisse = 2^Mantissenbits
= 2^23
= 8 388 608Beispiel 3 — Konsistenzprüfung eines Custom-Formats
Du planst ein Mini-Float mit 1 + 5 + 10 Bit. Funktioniert die Summe?
Gesamt = 1 + 5 + 10
= 16 Bit (Half Precision)