/ IEEE 754 Gleitkomma

Double 64 Aufbau

IEEE 754 Double Precision: 1 Vorzeichenbit + 11 Exponentenbits + 52 Mantissenbits = 64 Bit. Bitfelder summieren sich exakt zur Gesamtbreite.

Double 64 Aufbau

01 · Eingabe

Double 64 Aufbau berechnen

IEEE 754 Double Precision: 1 Vorzeichenbit + 11 Exponentenbits + 52 Mantissenbits = 64 Bit. Bitfelder summieren sich exakt zur Gesamtbreite.

Lösen für

Gesamt = Vorzeichen + Exponent + Mantisse

Vorzeichen Vorzeichenbits

Bit

Exponent Exponentenbits

Bit

Mantisse Mantissenbits

Bit

Worum geht es?

IEEE 754 Double Precision belegt 64 Bit und ist in den meisten Sprachen der Standardtyp für Fließkommazahlen (double, Float64, f64). Die Aufteilung ist analog zu Float32, aber Exponent und Mantisse sind deutlich breiter: 1 Vorzeichenbit, 11 Exponentenbits, 52 Mantissenbits.

Diese 64 Bit ergeben einen Wertebereich von rund ±1,8·10³⁰⁸ und etwa 15–17 signifikante Dezimalstellen. Für wissenschaftliches Rechnen ist Double daher der De-facto-Standard.

Die Formel

Formel Float64-Bitaufbau

Gesamt = Vorzeichen + Exponent + Mantisse
       = 1 + 11 + 52
       = 64 Bit

Umstellung:
    Mantisse = Gesamt − Vorzeichen − Exponent

Die Variablen

Symbol	Bedeutung	Einheit	Erklärung
Vorzeichen	Vorzeichenbits	Bit	Immer 1 Bit; 0 = positiv, 1 = negativ.
Exponent	Exponentenbits	Bit	11 Bit, Wertebereich 0 … 2047 mit Bias.
Mantisse	Mantissenbits	Bit	52 Bit Bruchteil mit implizitem Leitbit.
Gesamt	Gesamtbits	Bit	Summe der drei Felder, hier exakt 64.

Minimal-Beispiel

Ableitung der Mantissenbits aus den anderen Feldern:

Rechnung Mantissenbits

Mantisse = Gesamt − Vorzeichen − Exponent
         = 64 − 1 − 11
         = 52 Bit

Praxis-Beispiele

Beispiel 1 — Speicherbedarf eines Vektors

Ein Vektor mit 1 Mio. Double-Werten benötigt:

Rechnung Speicherbedarf

Bytes = N · 64 Bit / 8
      = 1 000 000 · 8 Byte
      = 8 000 000 Byte ≈ 7,63 MiB

Beispiel 2 — Anzahl Mantissen pro Exponent

Mit 52 Mantissenbits sind 2⁵² ≈ 4,5·10¹⁵ verschiedene Bruchteile codierbar.

Rechnung Mantissenraum

N_Mantisse = 2^52
           ≈ 4 503 599 627 370 496

Beispiel 3 — Float32 zu Float64 Konvertierung

Bei der Umwandlung wachsen Exponent und Mantisse: 8 → 11 Bit Exponent, 23 → 52 Bit Mantisse. Die Werte werden exakt übertragen, keine Information geht verloren.

Vergleich Float32 vs. Float64

Float32:  1 +  8 + 23 = 32 Bit
Float64:  1 + 11 + 52 = 64 Bit