Retro Review

Über Wertungssysteme

– Essay –

Auf diesen Seiten erhalten Videospiele keine Wertungen sondern lediglich eine verbale Beurteilung. Das hat mehrere Gründe: Erstens werden Spiele hier sehr ausführlich besprochen, ausführlicher als es eine Wertung in Zahlen ausdrücken könnte. Dies würde also maximal der Anschaulichkeit dienen und hätte keine weitere Aussagekraft. Außerdem werden hier Spiele retrospektiv besprochen, die zudem in unterschiedlichen Epochen erschienen sind. Da eine Vergleichbarkeit bei der geringen Gesamtanzahl an Reviews ohnehin nicht gegeben ist (zumal Referenzwertungen 'größerer' Titel fehlen), wird hier auf ein Wertungssystem verzichtet. Trotzdem möchte ich meine persönlichen Gedanken zum Thema Wertungssysteme für Videospiele-Reviews ausführen.

Zunächst stellt sich die Frage, wozu es für Videospiele überhaupt einer Wertung bedarf, wo doch Musik-, Film oder Literaturkritiken oft ohne dergleichen auskommen. Einerseits mögen Videospiele im Vergleich immer noch etwas technischer sein und weniger als künstlerisches Erzeugnis begriffen werden, das nicht anhand allgemeiner Kriterien beurteilbar ist. Gleichzeitig sind Videospiele ein komplexes Medium, das einer detaillierten Besprechung bedarf, woraus der Wunsch nach einer leicht zugänglichen Zusammenfassung in Form einer Zahl erwachsen kann. Es erscheinen oft ähnliche Spiele oder zumindest Spiele des gleichen Genres, womit ein gewisses Bedürfnis nach Vergleichbarkeit zweier inhaltlich ähnlicher Produkte entsteht. Eine Wertung soll daher ein Videospiel kurz, knackig und möglichst neutral in seiner Qualität beurteilen, jedoch ebenso einen Vergleich mit ähnlichen Spielen ermöglichen. Möglicherweise ist auch ein diachroner Vergleich erwünscht, etwa zwischen einem Spiel und seinem direkten Vorgänger.

In der deutschen Videospiele-Landschaft haben sich drei grundlegende Typen von Wertungssystemen etabliert: das Prozentsystem, das Punktesystem sowie nicht-lineare Wertungssysteme (hierunter fallen beispielsweise Schulnoten). Die jeweiligen Endwertungen können auf verschiedene Art und Weise zustandekommen. Entweder frei vergeben (und teilweise ergänzt durch Unterwertungen für bestimmte Teilaspekte des Spiels), als Aggregat objektiver Kriterien oder als Aggregat subjektiver Beurteilungen. Letztere Unterscheidung ist genau genommen nicht ganz trennscharf, was im nächsten Abschnitt diskutiert wird.

In deutschen Printmagazinen wird schon lange ganz eindeutig das Prozentsystem bevorzugt, was sich spätestens im Jahr 2000 manifestierte, als die Fun Generation nach einer Leserumfrage von einem 10er-Punktesystem auf Prozente umschwenkte. Im selben Jahr verschwand zudem die neXt Level wieder vom Zeitschriftenmarkt, die zwar Prozentwertungen vergab, jedoch in 5er-Schritten. Die deutsche GamePro wertet seit ihrer Einführung 2002 mit einer Prozentskala, ebenso das Magazin-Urgestein MAN!AC (heute M! Games). Die Gesamtwertung im Format X von 100 oder in Prozenten wird teilweise ergänzt durch subjektive Wertungen einzelner Reviewer, beispielsweise bei der M! Games auf einer Fünfer-Skala mit entsprechendem 'Gesicht' des Reviewers. Dies fand sich auch in anderen älteren Magazinen, wie etwa der Video Games. Unterstützt wird eine Prozentwertung oft durch Unterwertungen für Singleplayer, Multiplayer, Grafik, Sound, aber auch nach Kriterien wie Atmosphäre/Geschichte, Umfang oder Steuerung.

In der Regel dienen diese Detailwertungen der zusätzlichen Orientierung, die GamePro errechnete jedoch einige Jahre lang – ebenso wie ihre PC-Schwesterzeitschrift GameStar – die Prozentwertung direkt aus den Unterwertungen, wobei diese auf einer 10er-Punkteskala vorgenommen wurden. Dies stellte einen Wechsel von einer frei vergebenen Prozentwertung hin zu einer aggregierten Wertung dar. Die Magazinmacher erkannten jedoch recht schnell das Problem: Die Kriterien sowie deren Gewichtung für die Errechnung der Gesamtwertung sind keinesfalls objektiv sondern willkürlich gewählt und damit immer noch subjektiv – erst recht, wenn für verschiedene Genres unterschiedliche Kriterien herangezogen werden, wobei hier zusätzlich die Zuteilung eines Spiels zu einem bestimmten Genre ein Problem darstellt. So wurde beispielsweise im Falle von Minecraft auf eine Wertung verzichtet, weil keine eindeutige Genre-Zuordnung möglich war.

Im deutschen Printbereich selten anzutreffen, dafür international und im Netz weit verbreitet, ist die Wertung mittels einer einfachen Punkteskala, meistens X von 10 oder auch X von 5 Punkten. Handelt es sich um eine Wertung bis 10 Punkten mit einer Dezimalstelle liegt quasi eine Prozentwertung vor, nur in einer anderen Darstellungsform. Wir konzentrieren uns also zunächst ausschließlich auf Wertungssyteme mit ganzzahligen Punkten. Ein solches System kam früher in der Fun Generation zum Einsatz, ebenso zuletzt in der GameFront. Zahlreiche Onlinemagazine – auch viele deutschsprachige – benutzen dieses System, etwa Eurogamer, und oft wird es als zeitgemäßere Alternative zum Prozentsystem begriffen. Ich möchte jedoch argumentieren, dass auch ein solches – an sich intuitives – Punktesystem mit Problemen behaftet ist.

Betrachten wir zunächst die Wertung auf einer Skala von 1 bis 10 Punkten. Das 10er-Punktesystem ist grundsätzlich mit dem Prozentsystem vergleichbar, es gestaltet sich jedoch gröber. 5 von 10 Punkten sind – theoretisch betrachtet – ähnlich durchschnittlich wie 50 %. Doch beim Vergleich etwa zwischen 10 von 10 Punkten und 100 % tauchen die ersten Schwierigkeiten auf. Zwar sind 10 von 10 die volle Punktzahl, doch ein Videospiel mit einer Wertung von 100% müsste quasi perfekt sein. Dieser Unterschied zeigt einen Vorteil des Punktesystems auf: Da es deutlich weniger Abstufungen aufweist, können viel eher alle davon auch angewendet werden. Einige Reviewer behaupten, eine Wertung von 100% grundsätzlich nicht zu vergeben, weil es kein Videospiel geben könne, für das diese Wertung angemessen wäre. Eine Publikation, die jedoch nie 10 von 10 Punkten vergibt, gerät irgendwann in Erklärungsnot, weil sie ein Zehntel ihres Wertungsspektrums überhaupt nicht nutzt.

Daher kann ein einfaches Punktesystem auch einen zentralen Nachteil des Prozentsystems beseitigen: die allgemeine Wertungsinflation von Prozentwertungen. Ein großer Teil der Prozentwertungen bewegt sich im Bereich zwischen 60 und 90 %. Die Verteilung der Wertungen ist in der Praxis also eindeutig schief, womit ein wesentlicher Aspekt von Prozenten ad absurdum geführt wird: Wenn die allermeisten Spiele Wertungen zwischen 60 und 90 % erhalten, mag das ein Indiz dafür sein, dass Videospiele immer besser werden und kaum mehr richtig schlechte Spiele erscheinen (was im Vergleich zum Heimcomputer-Markt der 80er-Jahre, als die ersten Videospiele-Zeitschriften entstanden, sogar zutrifft). Jedoch stellt dann eine Wertung von 50 % sicher nicht mehr den Durchschnitt dar, sondern im Vergleich eine eindeutig unterdurchschnittliche Wertung, womit die Aussagekraft einer Prozentwertung verzerrt wird und ihre Einschätzung durch die Leserschaft fehlerhaft sein kann.

Außerdem kann man einwenden, dass ein Reviewer gar nicht in der Lage ist, ein Spiel auf einer derart feinen Skala wie der Prozenteskala frei zu verorten – erst recht nicht, wenn möglichst neutral und objektiv bewertet werden soll. Dieser Kritikpunkt ist zwar gerechfertigt, weil gerade dies eine Hauptursache für die erwähnte Wertungsinflation sein kann, jedoch verbirgt sich hier auch ein großer Vorteil dieses Systems: die sehr gute Vergleichbarkeit von Prozentwertungen. 85 % sind minimal besser als 84 % und eindeutig besser als 76 %. Diese Unterschiede sind – bei angenommener Ausnutzung des gesamten Wertungsspektrums – in einem 10er-Punktesystem nicht darstellbar. Dort bekommt die grafisch leicht schlechtere Portierung auf das Konkurrenzsystem ebenso 8 von 10 Punkten wie die ursprüngliche Version, während im Prozentsystem zwei Prozentpunkte Differenz die etwas abgespeckte Umsetzung besser einordnen können. Trotzdem vertrete ich die Meinung, dass diese vermeintliche Präzision der Prozentskala nicht wirklich genutzt werden kann, da die Skalierung für eine freie Beurteilung schlicht zu fein ist. Selbst direkte Vergleiche zwischen Spielen sind nur bedingt sinnvoll. Um etwa einen diachronen Vergleich zu ermöglichen (beispielsweise mit Nachfolgern oder später erschienener Genre-Konkurrenz), müssten streng genommen alle Spiele laufend nachbewertet und angepasst werden, was nicht umsetzbar ist. Die Präzision dieses Systems ist also übertrieben hoch und nicht praxistauglich.

Der radikale Gegenentwurf dazu ist eine Wertung auf einer 5er-Punkteskala. Ein solches Wertungssystem leistet lediglich eine grobe Einschätzung und bietet keine differenzierte Vergleichbarkeit. Zwei Spiele mit 3 von 5 Punkten können beispielsweise beide insgesamt durchschnittlicher Qualität sein, das eine kann sich jedoch trotz schwacher Technik für Genrefans wirklich lohnen, während das andere zwar gut spielbar und technisch ansprechend sein mag, das Genre jedoch in keiner Weise voranbringt, da es ausschließlich von der Konkurrenz abkupfert. Solange das volle Spektrum ausgeschöpft wird (also eine 1 von 5 durchaus öfter vergeben wird), ist ein 5er-Punktesystem für rein subjektive Wertungen völlig ausreichend – als alleinstehende Gesamtwertung ist es jedoch nahezu unbrauchbar. Es funktioniert nur in Verbindung mit einer ausführlichen verbalen Beurteilung – die wiederum eine Wertung auf einer 5er-Skala fast wieder obsolet macht.

Eine Wertung auf einer Skala von 1 bis 10 Punkten kann daher einen Kompromiss darstellen, es bleibt jedoch bei genauerer Betrachtung bei einem eher schlechten Kompromiss. Das 10er-Punktesystem ist einerseits zu genau und andererseits zu ungenau. Für Reviewer ist es deutlich einfacher, eine Wertung im Format X von 10 Punkten zu vergeben als eine Prozentwertung, allerdings kann die Leserschaft damit in einigen Fällen nicht viel anfangen. Da die 10er-Punkteskala immernoch eine relativ große Spannweite aufweist, besteht auch hier die Gefahr, dass sich die meisten Titel im überdurchschnittlichen bis sehr guten Segment von 6 bis 9 Punkten tummeln, was in diesem Fall jedoch nur vier Abstufungen umfasst. Die direkte Vergleichbarkeit zweier Wertungen ist im 10er-Punktesystem auf den ersten Blick gegeben, auf den zweiten Blick ist sie jedoch sehr ungenau. Soll ein leicht verbesserter Nachfolger eines durchschnittlichen Spiels 6 von 10 Punkten erhalten? Und was ist, wenn dessen Nachfolger wiederum etwas aufgebohrt ist, das Rad jedoch abermals nicht neu erfindet? 7 oder trotzdem 6 von 10 Punkten? Ersteres könnte zu hoch sein, letzteres bildet nicht ab, dass das Spiel besser ist als sein Vorgänger.

Eine 10er-Punktewertung kann nicht völlig für sich zu stehen – sie bedarf trotzdem einer Erklärung, wie welche Punktzahl im Wertungsspektrum einzuordnen ist. So gesehen ist eine Wertung auf einer 5er-Skala zugänglicher, da sie erst garnicht den Anspruch einer feineren Vergleichbarkeit erhebt und lediglich grob einschätzt zwischen einem Spitzentitel, einem guten Titel, durchschnittlichen, mäßigen sowie wirklich schlechten Spielen. Die drei Serienteile aus dem obigen Beispiel dürften jeweils 3 von 5 Punkten erhalten, wobei verbal eine leichte Qualitätssteigerung berichtet werden kann, die jedoch nicht ausreicht, um aus einem durchschnittlichen einen guten Titel zu machen. Die 10er-Punkteskala leistet im Vergleich eine genauere (und möglicherweise bereits zu genaue), absolute Beurteilung, gerät jedoch bei feineren Vergleichen in Schwierigkeiten, da sie hierfür wiederum zu wenige Abstufungen aufweist. In beiden Fällen kann die Wertung oft nicht für sich stehen und bedarf einer zusätzlichen verbalen Erläuterung, sofern sie neutral und möglichst objektiv sein soll.

Einen weiteren Kompromiss stellen 10er-Wertungen mit Zwischenschritten dar, also mit halben Punktzahlen. Diese Skalierung ist besser geeignet für Vergleiche, jedoch meiner Meinung nach mit 19 bis 21 Abstufungen (je nachdem, ob Wertungen von 0 und 0,5 Punkten zugelassen werden) bereits zu breit für eine freie, nicht aggregierte Beurteilung. Außerdem könnte genauso gut eine Skala von 1 bis 20 Punkten herangezogen werden, was nebenbei die Unterscheidung zwischen über- und unterdurchschnittlichen Titeln recht anschaulich machen würde. Halbe Punktzahlen auf einer 5er-Skala würden wiederum einer Wertung von 1 bis 10 Punkten entsprechen. Halbe Punktzahlen stellen somit keine Zwischenschritte dar, sondern zusätzliche Wertungsstufen, da sie genau in der Mitte zwischen zwei Punktzahlen liegen und nicht festgestellt werden kann, in welche der beiden Richtungen sie tendieren.

Bislang unerwähnt blieben Wertungen in Schulnoten, wie sie etwa die Bravo Screenfun oder die Total! anwendeten. Diese bieten den entscheidenden Vorteil, dass sie keiner weiteren Erläuterung bedürfen, da die sechs Abstufungen 'sehr gut', 'gut', 'befriedigend' et cetera als allgemein bekannt gelten – zumindest im deutschen Kontext und dort gerade auch unter Schülern. Diese Transparenz ist aber gleichzeitig der größte Nachteil dieses Wertungssystems: es ist nicht-linear, weil Schulnoten theoretisch betrachtet kein metrisches Skalenniveau aufweisen. Dieses ist vielmehr 'ordinal', womit gemeint ist, dass die einzelnen Abstufungen zwar eine eindeutige Rangfolge bilden, die Schritte von der einen zur anderen Abstufung jedoch nicht gleichmäßig sind. Ist der Schritt von 'gut' zu 'befriedigend' gleich wie von 'ausreichend' zu 'mangelhaft'? Ist 'befriedigend' doppelt so gut wie 'ungenügend'? Im schulischen Kontext sicher nicht und da dies ganz bewusst der Orientierungspunkt ist, muss das auch bei derartigen Wertungen für Videospiele gelten. Das Schulnotensystem kann mit Abstufungen wie 2+ oder 5- sowie mit halben Noten arbeiten, dadurch ändert sich aber nichts an seinem grundsätzlich nicht-linearen Charakter.

Auf die Spitze getrieben wurde das Schulnotensystem von der Computer Bild Spiele Ende der 90er-Jahre. Die Tests zierte ein riesiger Wertungskasten, in dem zahlreiche, gewichtete Kriterien mit halben und ganzen Schulnoten bewertet wurden. Einige dieser Kriterien kamen eher einem Funktionstest gleich, etwa, ob ein Spiel mit bestimmten Eingabegeräten funktioniert oder wie viele Spieler das Spiel gleichzeitig spielen können. Am Ende wurde aus den vielen Einzelbewertungen eine Schulnote mit zwei Dezimalstellen errechnet, mit den genannten Abstufungen 'sehr gut', 'gut', 'befriedigend' et cetera versehen und entsprechend grün, gelb oder rot unterlegt. Streng statistisch gesehen ist das katastrophal, wurde jedoch im Grundsatz bis heute beibehalten, wobei seit 2008 nur noch die fünf Kriterien Spieleinstieg, Grafik und Sound, Steuerung, Einzelspielermodus und Mehrspielermodus mit ganzen oder halben Noten bewertet werden und daraus eine gewichtete Gesamtnote errechnet wird. Doch allein die Tatsache, dass bei Spielen mit Mehrspielermodus der Einzelspielermodus zu 37,5% in die Gesamtnote eingeht und bei Spielen ohne Mehrspielermodus zu 50% illustriert die Willkür, mit der ein solches, scheinbar objektives Wertungssystem arbeitet.

Bis hierhin lässt sich sagen, dass alle drei in Deutschland gängigen Wertungssysteme entscheidende Nachteile mit sich bringen. Das beliebte Prozentsystem erscheint vermeintlich präzise und zugänglich, überfordert jedoch sowohl Leser als auch Reviewer mit einer viel zu feinen Skala. Vergleiche zwischen Spielen sind in der Theorie zwar sehr genau möglich, in diachroner Perspektive jedoch wiederum nicht, solange alte Wertungen nicht laufend aktualisiert werden, was in der Praxis nicht möglich ist. Das Punktesystem stellt eine simplere Alternative dazu dar, ist jedoch auf einer 5er-Skala eindeutig zu grob für Vergleiche und auch Wertungen auf einer 10er-Skala eignen sich nicht wirklich für genaue Vergleiche. Letztere bringt zudem bereits die Gefahr einer inflationären Vergabe überdurchschnittlicher Punktzahlen mit sich. An sich sinnvoll und gut verständlich ist das Schulnotensystem, dieses kann jedoch durch seinen grundsätzlich nicht-linearen Charakter schlecht zu Wertungen in anderen Formaten ins Verhältnis gesetzt werden und ist dadurch beispielsweise für Wertungsaggregationen nicht geeignet.

Was eine freie Wertungsvergabe betrifft, ist es meiner Ansicht nach nicht möglich, eine Prozentwertung komplett frei zu vergeben, wie es die meisten Magazine in den vergangenen Jahrzehnten praktizierten. Eine Wertung zwischen 0 und 100 halte ich maximal als Durchschnitt vieler Wertungen im Rahmen von Wertungsaggregationen für sinnvoll; oder theoretisch als Aggregat einzelner Unterwertungen, wobei ich Letzteres ablehne, da man meiner Meinung nach die Kriterien und deren Gewichtungen an jedes Spiel neu anpassen müsste, was nicht geschehen kann und was die Wertung am Ende auch nicht 'objektiver' macht. Interessant erscheinen mir einerseits eine aus subjektiven Beurteilungen aggregierte Gesamtwertung, andererseits eine nicht-lineare Bewertung im Buchstabenformat mit Feinabstufungen. Auf diese beiden Alternativen möchte ich im Folgenden eingehen.

Das international bekannte, aber sonst nicht in genau dieser Form angewendete Wertungssystem der japanischen Zeitschrift Famitsu stellt ein Beispiel für Wertungen als Aggregat subjektiver Beurteilungen dar. Vier Reviewer vergeben eine Wertung auf einer 10er-Skala mit ganzen Punkten, diese werden addiert zu einer Gesamtwertung im Format X von 40 Punkten. Dieses System hat zwei entscheidende Vorteile: Es werden einerseits subjektive Einschätzungen mitgeteilt (ähnlich wie die Beurteilungen mit 'Gesichtern' in manchen deutschen Magazinen), andererseits hat die Gesamtwertung einen objektiven Charakter und ist dadurch glaubhafter und praxistauglicher als eine frei vergebene Prozentwertung. Das Spektrum ist fein genug für genaue Vergleiche und durch die Aggregierung wirkt die Gesamtwertung weniger willkürlich. Vielerorts wurde das Famitsu-System gelobt und teilweise auch um dessen Einführung in anderen Publikationen geworben. Ich möchte jedoch zwei wesentliche Kritikpunkte anbringen. Erstens ist das Format X von 40 Punkten unintuitiv und die Gesamtwertung ist nur im Vergleich mit anderen Wertungen im selben Format gut einschätzbar. Für eine zuverlässige, absolute Einschätzung der Gesamtbewertung sind auch hier Beschreibungen der einzelnen Abstufungen nötig, etwa gruppiert in die vier Zehnerschritte. Zweitens ist das System in der Praxis schwierig umzusetzen, da es voraussetzt, dass vier Reviewer ein Spiel spielen und zwar alle vier möglichst ausführlich, zumindest jedoch ähnlich ausführlich, da andernfalls eigentlich eine Gewichtung der Einzelwertungen vorgenommen werden müsste. Es ist kaum praktikabel, alle getesteten Spiele von vier Reviewern ausführlich spielen zu lassen. Macht man dies nur bei 'großen' Titeln und lässt andere lediglich von einem Reviewer mit 1 bis 10 Punkten bewerten, entstehen zwei parallele Wertungsspektren, was auch nicht wünschenswert ist.

Denkbar wäre auch die Bildung eines Durchschnitts mehrerer Einzelwertungen. Man könnte die Gesamtwertung auf das Format X von 10 Punkten festlegen – möglicherweise mit einer Dezimalstelle – und diese Gesamtwertung aus subjektiven Einzelwertungen errechnen. Vergibt ein Reviewer 8 Punkte und ein anderer 6, ergibt sich eine Gesamtwertung von 7,0 Punkten. Bei einmal 10 Punkten und einmal 7 Punkten wären es 8,5 Punkte. Die Anzahl der Reviewer wäre nach oben offen, man könnte jedoch eine Untergrenze festlegen, etwa, dass jedes Spiel (oder zumindest jedes 'große' Spiel) von mindestens zwei Reviewern bewertet werden sollte. Die Einzelwertungen könnten auch auf einer 5er-Punkteskala vergeben werden, wobei bei genau zwei Reviewern auf X von 10 Punkten addiert würde, ab drei Reviewern würde ein Durchschnitt gebildet und an dieses Format angepasst. Beispielsweise ergäben drei Bewertungen mit einmal 4 von 5, nochmals 4 von 5 und einmal 3 von 5 Punkten eine Gesamtwertung von 7,3 von 10 Punkten. Natürlich kann statt der Dezimalschreibweise für die Gesamtwertung auch wieder das Prozentformat verwendet werden (also für dieses Beispiel 73 %). Hier würden sich beim Vergleich mit Magazinen, die Prozentwertungen frei vergeben, sicher große Unterschiede ergeben, die auch die allgemeine Inflation guter Wertungen innerhalb des Prozentsystems offenbaren würden. Eine Gesamtwertung mit Durchschnittsbildung und teilweise komplizierteren Berechnungen wäre zwar glaubwürdig und hätte einen objektiven Charakter, wäre im Vergleich zum Famitsu-System aber komplizierter und nicht immer einfach nachvollziehbar.

Als das mir am besten erscheinende Wertungssystem schlage ich daher vor, Wertungen in Buchstabenform mit Feinabstufungen zu verwenden. Genau so bewerte(te)n einige US-Medien, etwa die Electronic Gaming Monthly und zuletzt ihr Online-Angebot 1UP.com. Vergeben werden Wertungen von A bis F, was amerikanischen Schulnoten entspricht. Hierbei entspräche A quasi 5 von 5 Punkten, E analog 1 von 5 Punkten und F einer Wertung von 0 Punkten, wobei dies auch weggelassen werden könnte, um eine fünfstufige Skala ohne 0 zu erhalten. Diese Buchstabenwertung kann ergänzt werden durch Plus- und Minuszeichen, jedoch nicht durch Zwischenschritte. Die bestmögliche Wertung wäre A+, die schlechteste E- oder F, auf D+ folgt aufsteigend C- und absteigend D. Damit bewegen sich die Wertungen auf einer Skala mit 15 oder 16 Abstufungen, wobei dies nicht mit einer Wertung im Format X von 15 Punkten gleichgesetzt werden darf, da weiterhin ein nicht-lineares Wertungssystem mit ordinalem Skalenniveau vorliegt. Für Wertungsaggregationen dürfte daher lediglich der Buchstabe, also eine Wertung auf einer einfachen 5er-Punkteskala herangezogen werden, wobei dies in Verbindung mit vielen anderen Bewertungen sinnvoll ist, da dies sonst zu grob wäre.

Dieses Wertungssystem würde zwei Aussagen in einer beinhalten: Es ordnet einerseits das Spiel grob auf einer 5er-Skala ein – wobei das Buchstabenformat der gängigen Einordnung in 'A-Titel', 'B-Titel' et cetera entspricht –, andererseits ermöglicht es über die Feinabstufungen Vergleiche, die genauer ausfallen als auf einer 10er-Punkteskala. So ist es möglich, einem spürbar verbesserten Nachfolger oder einer erweiterten Umsetzung eines B-Titels eine B+ zu geben, womit das Spiel immernoch in der gleichen groben Abstufung landet, die Verbesserungen aber durch eine höhere Wertung abgebildet werden kann. Dieses Wertungssystem bietet einerseits eine Orientierung auf einer groben Skala, die voll ausgenutzt werden kann, andererseits zusätzliche Feinabstufungen für bessere Vergleiche als mit einer 10er-Punkteskala. Entsprechend dieser doppelten Aussagekraft der Buchstabenwertung sollte diese auch in einem zweistufigen Prozess zustandekommen: Zunächst würde die grobe Einstufung in A bis E oder F erfolgen, danach die Feinabstufung mit Plus, Minus oder ohne – im direkten Vergleich mit ähnlichen Spielen, Spielen, die zur gleichen Zeit erschienen oder etwaigen Vorgängern. Die Verwendung von Buchstaben macht dabei deutlich, dass es sich um eine nicht-lineare Skala handelt. Beim – im Grunde genommen gleichen – deutschen Schulnotensystem werden doch allzu schnell Durchschnitte gebildet, ohne dass dies dem Skalenniveau angemessen wäre.

Gerade die Vergleichsmöglichkeiten für die Feinabstufungen sind bei Retro Review, wie eingangs erwähnt, sehr spärlich. Obwohl ich mich eindeutig festlegen möchte, dass ich persönlich dieses Wertungssystem bevorzugen würde, werden hier trotzdem keine Wertungen vergeben. Man konnte über die Jahre schon so manche Hasstirade über Wertungssysteme lesen und nicht wenige Publikationen schworen dem Gewerte ganz ab oder vergeben nur noch sehr rudimentäre Beurteilungen (etwa die im englischsprachigen Bereich gängige Einteilung in 'kaufen', 'warten', 'ausleihen' und 'meiden'). Grundsätzlich schlecht finde ich das nicht, dann sollten aber bitte die Texte noch ein wenig tiefgreifender und allgemein niveauvoller ausfallen. Wichtiger als ein noch so gut durchdachtes Wertungssystem finde ich persönlich eine zielgruppenorientierte Kaufempfehlung, bei der man detailliert erfährt, für wen sich ein Spiel lohnt und wer lieber die Finger davon lassen sollte. Dazu bedarf es nicht eines ausgeklügelten Wertungssystems sondern schlicht mehr Zeit mit dem Spiel und mehr Herzblut anstatt stumpfer Testerei nach Schema F.

Filipp Münst