Token-Länge Lexer
Gesamtlänge des Quellcodes aus Tokenanzahl und durchschnittlicher Tokenlänge: Gesamtlänge = Tokens · DurchschnLänge.
Token-Länge Lexer berechnen
Gesamtlänge des Quellcodes aus Tokenanzahl und durchschnittlicher Tokenlänge: Gesamtlänge = Tokens · DurchschnLänge.
- Gesamtlänge — Gesamtlänge
- Tokens — Tokenanzahl
- DurchschnLänge — Ø Tokenlänge
Worum geht es?
Ein Lexer zerlegt den Eingabestrom in eine Folge von Tokens. Multipliziert man die Tokenanzahl mit der durchschnittlichen Tokenlänge, erhält man die Gesamtanzahl Zeichen, die der Lexer ohne Whitespace und Kommentare gelesen hat:
Gesamtlänge = Tokens · Ø-Länge
Die Beziehung ist nützlich für Performance-Schätzungen (Bytes pro Sekunde), für die Speicherauslegung des Token-Puffers und für die Frage, welche durchschnittliche Tokenlänge der Lexer in einem konkreten Korpus tatsächlich erreicht.
Die Formel
Gesamtlänge = Tokens · DurchschnLänge
Umstellungen:
Tokens = Gesamtlänge / DurchschnLänge
DurchschnLänge = Gesamtlänge / TokensDie Variablen
| Symbol | Bedeutung | Einheit | Erklärung |
|---|---|---|---|
| Tokens | Tokenanzahl | — | Anzahl vom Lexer erzeugter Tokens. |
| DurchschnLänge | Ø Tokenlänge | Zeichen | Durchschnittliche Länge eines Tokens. |
| Gesamtlänge | Gesamtlänge | Zeichen | Summe aller Tokenzeichen im Quellcode. |
Minimal-Beispiel
5 000 Tokens mit Ø 4 Zeichen pro Token:
Gesamtlänge = 5000 · 4
= 20 000 ZeichenPraxis-Beispiele
Beispiel 1 — Größere Quelldatei
12 500 Tokens, Ø-Länge 5,2 Zeichen:
Gesamtlänge = 12 500 · 5,2
= 65 000 Zeichen ≈ 65 kBBeispiel 2 — Tokenanzahl aus Dateigröße
Eine Datei mit 81 000 Zeichen, gemittelte Tokenlänge 6,75:
Tokens = 81 000 / 6,75
= 12 000 TokensBeispiel 3 — Ø-Länge messen
Im Lexer-Profil: 9 600 Tokens auf 38 400 Zeichen:
DurchschnLänge = 38 400 / 9600
= 4 Zeichen/Token