Retro Review

Über Wertungssysteme

Essay

Auf dieser Website erhalten Videospiele keine Wertungen sondern lediglich eine verbale Beurteilung. Das hat mehrere Gründe: Erstens werden Spiele hier sehr ausführlich besprochen, ausführlicher als es eine Wertung in Zahlen ausdrücken könnte. Dies würde also maximal der Anschaulichkeit dienen und hätte keine weitere Aussagekraft. Außerdem werden hier Spiele retrospektiv besprochen, die zudem in unterschiedlichen Epochen erschienen sind. Da eine Vergleichbarkeit bei der geringen Gesamtanzahl an Reviews ohnehin nicht gegeben ist (zumal Referenzwertungen 'größerer' Titel fehlen), wird hier auf ein Wertungssystem verzichtet. Trotzdem möchte ich meine Gedanken zum Thema Wertungssysteme für Videospiele-Reviews ausführen, sowie einige persönliche Vorschläge und Empfehlungen anbringen.

Zunächst stellt sich die Frage, wozu es für Videospiele überhaupt einer Wertung bedarf, wo doch Musik-, Film oder Literaturkritiken oft ohne dergleichen auskommen. Einerseits mögen Videospiele im Vergleich immer noch etwas technischer sein und weniger eine Kunstform darstellen, die nicht anhand allgemeiner Kriterien beurteilbar ist. Gleichzeitig stellen Videospiele ein komplexes Medium dar, das einer detaillierten Besprechung bedarf, woraus der Wunsch nach einer leicht zugänglichen Zusammenfassung in Form einer Zahl erwachsen kann. Es erscheinen oft ähnliche Spiele oder zumindest Spiele des eindeutig gleichen Genres, womit ein gewisses Bedürfnis nach Vergleichbarkeit zweier ähnlicher Produkte entsteht. Eine Wertung soll also ein Videospiel kurz, knackig und möglichst neutral in seiner Qualität beurteilen, jedoch ebenso einen Vergleich mit ähnlichen Spielen ermöglichen. Möglicherweise ist auch ein diachroner Vergleich erwünscht, etwa zwischen einem Spiel und seinem direkten Vorgänger.

In der deutschen Videospiele-Landschaft haben sich drei grundlegende Typen von Wertungssystemen etabliert: das Prozentsystem, das Punktesystem sowie nicht-lineare Wertungssysteme (hierunter fallen beispielsweise Schulnoten). Die jeweiligen Endwertungen können auf verschiedene Art und Weise zustandekommen. Entweder frei vergeben (und teilweise ergänzt durch Unterwertungen für bestimmte Teilaspekte des Spiels), als Aggregat objektiver Kriterien oder als Aggregat subjektiver Beurteilungen. Letztere Unterscheidung ist genau genommen nicht ganz trennscharf, was im nächsten Abschnitt diskutiert wird.

In deutschen Printmagazinen wird schon lange ganz eindeutig das Prozentsystem bevorzugt, was sich spätestens damit manifestierte, dass die Fun Generation um die Jahrtausendwende nach einer Leserumfrage von einem 10er-Wertungssystem auf Prozente umschwenkte. Auch die deutsche GamePro wertet seit ihrer Einführung 2002 in einer prozentähnlichen Skala, ebenso das Magazin-Urgestein MAN!AC (heute M! Games). Die Gesamtwertung im Format X von 100 oder in Prozenten wird teilweise ergänzt durch subjektive Wertungen einzelner Reviewer, beispielsweise bei der M! Games auf einer Fünfer-Skala mit entsprechendem 'Gesicht' des Reviewers. Dies fand sich auch in anderen älteren Magazinen. Unterstützt wird die Prozentwertung oft auch durch Unterwertungen für Singleplayer und Multiplayer, Grafik und Sound, aber auch Kriterien wie Atmosphäre/Geschichte, Umfang oder Steuerung.

In der Regel dienen diese Detailwertungen der zusätzlichen Orientierung, die GamePro errechnete jedoch einige Jahre lang – ebenso wie ihre PC-Schwesterzeitschrift GameStar – die Prozentwertung direkt aus den Unterwertungen, die wiederum auf einer 10er-Skala vorgenommen wurden. Dies stellte einen Wechsel von einer frei vergebenen Prozentwertung hin zu einer aggregierten Wertung dar. Die Magazinmacher erkannten jedoch mit der Zeit selber das Problem: Die Kriterien sowie deren Gewichtung für die Errechnung der Gesamtwertung sind keinesfalls objektiv sondern willkürlich gewählt und damit immer noch subjektiv – erst recht, wenn für verschiedene Genres unterschiedliche Kriterien herangezogen werden, wobei hier zusätzlich die Zuteilung eines Spiels zu einem bestimmten Genre wüllkürlich ist. So wurde beispielsweise im Falle von Minecraft auf eine Wertung verzichtet, weil keine eindeutige Genre-Zuordnung stattfinden konnte.

Im deutschen Printbereich selten anzutreffen, dafür international und im Netz weit verbreitet ist die Gesamtwertung auf einer einfachen Punkteskala, meistens X von 10 oder X von 5 Punkten. Handelt es sich um eine Wertung bis 10 Punkte mit einer Dezimalstelle liegt quasi eine Prozentwertung vor, nur in einer anderen Darstellungsform. Wir konzentrieren uns also zunächst ausschließlich auf Wertungssyteme mit ganzen Punkten. Ein solches System kam früher in der Fun Generation zum Einsatz, ebenso zuletzt in der GameFront. Zahlreiche Onlinemagazine – auch viele deutschsprachige – benutzen dieses System, etwa Eurogamer, und oft wird es als zeitgemäßere Alternative zum Prozentsystem gehandelt. Ich möchte jedoch argumentieren, dass auch ein solches – an sich intuitives – Punktesystem mit Problemen behaftet ist.

Betrachten wir zunächst die Wertung auf einer Skala von 1 bis 10 Punkten. Das 10er-Punktesystem ist grundsätzlich mit dem Prozentsystem vergleichbar, es gestaltet sich jedoch gröber. 5 von 10 Punkten sind – theoretisch betrachtet – ähnlich durchschnittlich wie 50%, doch beim Vergleich zwischen 10 von 10 Punkten und 100% tauchen die ersten Schwierigkeiten auf. Zwar sind 10 von 10 die volle Punktzahl, doch ein Videospiel mit einer Wertung von 100% müsste quasi perfekt sein. Dieser Unterschied zeigt einen Vorteil des Punktesystems auf: Da es deutlich weniger Abstufungen aufweist, können viel eher alle davon auch angewendet werden. Einige Magazine behaupten, eine Wertung von 100% grundsätzlich nicht zu vergeben, weil es kein Videospiel geben könne, das diese Wertung verdiene. Ein Magazin, das jedoch nie 10 von 10 Punkte vergibt, gerät irgendwann in Erklärungsnot, weil es ein Zehntel seines Wertungsspektrums überhaupt nicht ausschöpft.

Daher kann ein einfaches Punktesystem auch einen zentralen Nachteil des Prozentsystems beseitigen: die allgemeine Wertungsinflation bei Prozentwertungen. Ein großer Teil der Prozentwertungen bewegt sich im Bereich zwischen 60 und 90%. Die Verteilung der Wertungen ist in der Praxis also eindeutig linksschief, womit ein wesentlicher Aspekt von Prozenten ad absurdum geführt wird: Wenn die allermeisten Spiele Wertungen zwischen 60 und 90% erhalten, mag das ein Indiz dafür sein, dass Videospiele immer besser werden und kaum mehr richtig schlechte Spiele erscheinen (was im Vergleich zum Heimcomputer-Markt der 80er-Jahre, als die ersten Videospiele-Zeitschriften entstanden, wahrscheinlich auch zutrifft). Jedoch stellt dann eine Wertung von 50% sicher nicht mehr den Durchschnitt dar, sondern im Vergleich eine eindeutig unterdurchschnittliche Wertung, womit die Aussagekraft einer Prozentwertung verzerrt wird und ihre Einschätzung durch den Leser fehlerhaft sein kann.

Außerdem kann man einwenden, dass ein Reviewer gar nicht in der Lage ist, ein Spiel auf einer derart feinen Skala wie der Prozenteskala frei zu verorten – erst recht nicht, wenn möglichst neutral und objektiv bewertet werden soll. Dieser Kritikpunkt ist zwar gerechfertigt, weil gerade das eine Hauptursache für die erwähnte Wertungsinflation sein könnte, jedoch verbirgt sich hier auch ein großer Vorteil dieses Systems: die sehr gute Vergleichbarkeit von Prozentwertungen. 85% sind minimal besser als 84% und eindeutig besser als 76%. Diese Unterschiede sind – bei angenommener Beibehaltung der Skalierung der Wertungen über das gesamte Punktespektrum hinweg – in einem 10er-Punktesystem nicht darstellbar. Dort bekommt die grafisch leicht schlechtere Portierung auf das Konkurrenzsystem ebenso 8 von 10 Punkten wie die ursprüngliche Version, während im Prozentsystem zwei Prozentpunkte Differenz die etwas abgespeckte Umsetzung besser einordnen können. Trotzdem vertrete ich die Meinung, dass diese vermeintliche Präzision der Prozenteskala nicht voll ausgenutzt werden kann, da sie für eine freie Beurteilung schlicht zu fein ist. Selbst direkte Vergleiche zwischen Spielen sind nur bedingt sinnvoll. Um etwa einen diachronen Vergleich zu ermöglichen (beispielsweise mit Nachfolgern oder später erschienener Genre-Konkurrenz), müssten streng genommen alle Spiele laufend nachbewertet und angepasst werden, was nicht umsetzbar ist. Die Präzision dieses Systems ist also übertrieben hoch und nicht praxistauglich.

Der radikale Gegenentwurf dazu ist eine Wertung auf einer 5er-Punkteskala. Ein solches Wertungssystem leistet lediglich eine grobe Einschätzung und bietet keine differenzierte Vergleichbarkeit. Zwei Spiele mit 3 von 5 Punkten können zwar beide insgesamt durchschnittlicher Qualität sein, das eine kann sich jedoch beispielweise trotz schwacher Technik für Genrefans wirklich lohnen, während das andere zwar gut spielbar und technisch ansprechend sein mag, das Genre jedoch in keiner Weise voranbringt, da es ausschließlich von der Konkurrenz abkupfert. Solange das volle Spektrum ausgeschöpft wird (also eine 1 von 5 durchaus öfter vergeben wird), ist ein 5er-Punktesystem für rein subjektive Wertungen völlig ausreichend – als alleinstehende Gesamtwertung ist es jedoch nahezu unbrauchbar. Es funktioniert nur in Verbindung mit einer ausführlichen verbalen Beurteilung – die wiederum eine Wertung auf einer 5er-Skala fast schon wieder obsolet macht.

Eine Wertung auf einer Skala von 1 bis 10 Punkten kann daher einen Kompromiss darstellen, es bleibt jedoch bei genauerer Betrachtung bei einem eher schlechten Kompromiss. Das 10er-Punktesystem ist einerseits zu genau und andererseits zu ungenau. Für den Reviewer ist es deutlich einfacher, eine Wertung im Format X von 10 Punkten zu vergeben als eine Prozentwertung, allerdings kann der Leser damit in einigen Fällen nicht viel anfangen. Da die 10er-Skala immernoch eine relativ große Spannweite aufweist, besteht auch hier die Gefahr, dass sich die meisten Titel im überdurchschnittlichen bis sehr guten Segment von 6 bis 9 Punkten tummeln, was in diesem Fall jedoch nur vier Abstufungen umfasst. Die direkte Vergleichbarkeit zweier Wertungen ist im 10er-Punktesystem auf den ersten Blick gegeben, auf den zweiten Blick ist sie jedoch sehr ungenau. Soll ein leicht verbesserter Nachfolger eines durchschnittlichen Spiels 6 von 10 Punkten erhalten? Und was ist, wenn dessen Nachfolger wiederum etwas aufgebohrt ist, das Rad jedoch abermals nicht neu erfindet? 7 oder trotzdem 6 von 10 Punkten? Ersteres könnte zu hoch sein, letzteres bildet nicht ab, dass das Spiel besser ist als sein Vorgänger.

Ein 10er-Punktesystem ist nicht einfach genug, um völlig für sich zu stehen – es bedarf trotzdem einer Erklärung, wie welche Punktzahl im Wertungsspektrum einzuordnen ist. So gesehen ist eine Wertung auf einer 5er-Skala zugänglicher, da sie erst garnicht den Anspruch einer feineren Vergleichbarkeit erhebt und lediglich grob einschätzt zwischen einem Spitzentitel, einem guten Titel, durchschnittlichen, mäßigen sowie wirklich schlechten Spielen. Die drei Serienteile aus dem obigen Beispiel dürften jeweils 3 von 5 Punkten erhalten, wobei verbal eine leichte Qualitätssteigerung berichtet werden kann, die jedoch nicht ausreicht, aus einem durchschnittlichen einen guten Titel zu machen. Die 10er-Punkteskala leistet im Vergleich eine genauere (und möglicherweise bereits zu genaue), absolute Beurteilung, gerät jedoch bei feineren Vergleichen in Schwierigkeiten, da sie hierfür wiederum zu wenige Abstufungen aufweist. In beiden Fällen kann die Wertung oft nicht für sich stehen sondern bedarf einer zusätzlichen verbalen Erläuterung, sofern sie neutral und möglichst objektiv sein soll.

Einen weiteren Kompromiss stellen 10er-Wertungen mit Zwischenschritten dar, also mit halben Punktzahlen. Diese Skalierung ist besser geeignet für Vergleiche, jedoch meiner Meinung nach mit 19 bis 21 Abstufungen (je nachdem, ob Wertungen von 0 und 0,5 Punkten zugelassen werden) bereits zu breit für eine freie, nicht aggregierte Beurteilung. Außerdem könnte genauso gut eine Skala von 1 bis 20 Punkten herangezogen werden, was nebenbei die Unterscheidung zwischen über- und unterdurchschnittlichen Titeln recht anschaulich machen würde. Halbe Punktzahlen auf einer 5er-Skala würden wiederum einer Wertung von 1 bis 10 Punkten entsprechen. Halbe Punktzahlen stellen keine Zwischenschritte dar, sondern eindeutig zusätzliche Wertungsstufen, da sie genau in der Mitte zwischen zwei Punktzahlen liegen und nicht festgestellt werden kann, in welche der beiden Richtungen sie tendieren.

Bislang unerwähnt blieben Wertungen in Schulnoten, wie sie etwa die Bravo Screenfun oder die Total! anwendeten. Diese bieten den entscheidenden Vorteil, dass sie keiner weiteren Erläuterung bedürfen, da die sechs Abstufungen 'sehr gut', 'gut', 'befriedigend' et cetera als allgemein bekannt gelten – zumindest im deutschen Kontext und dort gerade auch unter Kindern. Diese Transparenz ist aber gleichzeitig der größte Nachteil dieses Wertungssystems: es ist nicht-linear, weil Schulnoten statistisch gesehen kein metrisches Skalenniveau aufweisen. Dieses ist vielmehr 'ordinal', womit gemeint ist, dass die einzelnen Abstufungen zwar eine eindeutige Rangfolge bilden, die Schritte von der einen zur anderen Abstufung jedoch nicht gleichmäßig sind. Ist der Schritt von 'gut' zu 'befriedigend' gleich wie von 'ausreichend' zu 'mangelhaft'? Ist 'befriedigend' doppelt so gut wie 'ungenügend'? Im schulischen Kontext sicher nicht und da dies ganz bewusst der Orientierungspunkt ist, muss das auch bei derartigen Wertungen für Videospiele gelten. Das Schulnotensystem kann mit Abstufungen wie 2+ oder 5- sowie halben Noten arbeiten, dadurch ändert sich aber nichts an seinem grundsätzlich nicht-linearen Charakter, eher wird dieser dadurch noch verstärkt.

Auf die Spitze getrieben wurde das Schulnotensystem von der Computer Bild Spiele Ende der 90er-Jahre. Die Tests zierte ein riesiger Wertungskasten, in dem zahlreiche, gewichtete Kriterien mit halben und ganzen Schulnoten bewertet wurden. Einige dieser Kriterien kamen eher einem Funktionstest gleich, etwa, ob ein Spiel mit bestimmten Eingabegeräten funktioniert oder wie viele Spieler das Spiel gleichzeitig spielen können. Am Ende wurde aus den vielen Einzelbewertungen eine Schulnote mit zwei Dezimalstellen errechnet, mit den genannten Abstufungen 'sehr gut', 'gut', 'befriedigend' et cetera versehen und zudem grün, gelb oder rot unterlegt. Streng statistisch gesehen ist das katastrophal, wurde jedoch im Grundsatz bis heute beibehalten, wobei seit 2008 nur noch die fünf Kriterien Spieleinstieg, Grafik und Sound, Steuerung, Einzelspielermodus und Mehrspielermodus mit ganzen oder halben Noten bewertet werden und daraus eine gewichtete Gesamtnote errechnet wird. Doch allein die Tatsache, dass bei Spielen mit Mehrspielermodus der Einzelspielermodus zu 37,5% in die Gesamtnote eingeht und bei Spielen ohne Mehrspielermodus zu 50% illustriert die Willkür, mit der ein solches, scheinbar objektives Wertungssystem arbeitet.

Bis hierhin lässt sich sagen, dass alle drei in Deutschland gängigen Wertungssysteme entscheidende Nachteile mit sich bringen. Das beliebte Prozentsystem erscheint vermeintlich präzise und zugänglich, überfordert jedoch sowohl Leser als auch Reviewer mit einer viel zu feinen Skala. Vergleiche zwischen Spielen sind in der Theorie zwar sehr genau möglich, in diachroner Perspektive jedoch wiederum nicht, solange alte Wertungen nicht laufend aktualisiert werden, was in der Praxis nicht möglich ist. Das Punktesystem stellt eine simplere Alternative dazu dar, ist jedoch auf einer 5er-Skala eindeutig zu grob für Vergleiche und auch Wertungen auf einer 10er-Skala eignen sich nicht für genaue Vergleiche. Letztere bringt zudem bereits die Gefahr einer inflationären Vergabe überdurchschnittlicher Punktzahlen mit sich. An sich sinnvoll und gut verständlich ist das Schulnotensystem, dieses kann jedoch durch seinen grundsätzlich nicht-linearen Charakter schlecht zu Wertungen in anderen Formaten ins Verhältnis gesetzt werden und ist dadurch beispielsweise für Meta-Analysen nicht geeignet.

Was eine freie Wertungsvergabe betrifft, so würde ich sogar behaupten, dass es nicht möglich ist, eine Prozentwertung komplett frei zu vergeben, wie es die meisten Magazine in den vergangenen Jahrzehnten praktizierten. Eine Wertung zwischen 0 und 100 halte ich maximal als Durchschnitt vieler Wertungen im Rahmen von Meta-Analysen für sinnvoll; oder theoretisch als Aggregat einzelner Unterwertungen, wobei ich Letzteres ablehne, da man meiner Meinung nach die Kriterien und deren Gewichtungen an jedes Spiel neu anpassen müsste, was nicht geschehen kann und was die Wertung am Ende auch nicht 'objektiver' macht. Interessant erscheinen mir einerseits eine aus subjektiven Beurteilungen aggregierte Wertung, andererseits eine nicht-lineare Bewertung im Buchstabenformat mit Feinabstufungen. Auf diese beiden Alternativen möchte ich im Folgenden eingehen.

Das international bekannte, aber sonst nicht in genau dieser Form angewendete Wertungssystem der japanischen Zeitschrift Famitsu stellt ein Beispiel für Wertungen als Aggregat subjektiver Beurteilungen dar. Vier Reviewer vergeben eine Wertung auf einer 10er-Skala mit ganzen Punkten, diese werden addiert zu einer Gesamtwertung im Format X von 40 Punkten. Dieses System hat zwei entscheidende Vorteile: Dem Leser werden einerseits subjektive Einschätzungen mitgeteilt (ähnlich wie die Beurteilungen mit 'Gesichtern' in manchen deutschen Magazinen), andererseits hat die Gesamtwertung einen objektiven Charakter und ist dadurch glaubhafter und praxistauglicher als eine frei vergebene Prozentwertung. Das Spektrum ist fein genug für genaue Vergleiche und durch die Aggregierung wirkt die Gesamtwertung weniger willkürlich. Vielerorts wurde das Famitsu-System gelobt und teilweise auch um dessen Einführung in anderen Publikationen geworben. Ich möchte jedoch zwei wesentliche Kritikpunkte anbringen, weshalb ich dieses Wertungssystem nicht 1:1 anwenden würde: Erstens ist das Format X von 40 Punkte unintuitiv und die Gesamtwertung ist nur im Vergleich mit anderen Wertungen im selben Format gut einschätzbar. Für eine zuverlässige, absolute Einschätzung der Gesamtbewertung sind auch hier Beschreibungen der einzelnen Abstufungen nötig, etwa gruppiert in vier Zehnerschritte. Zweitens ist das System in der Praxis schwierig umzusetzen, da es voraussetzt, dass vier Reviewer ein Spiel spielen und zwar alle vier möglichst ausführlich, zumindest jedoch ähnlich ausführlich, da andernfalls theoretisch eine Gewichtung der Einzelwertungen vorgenommen werden müsste. Es ist kaum praxistauglich, alle getesteten Spiele von vier Reviewern ausführlich spielen zu lassen. Macht man dies nur bei 'großen' Titeln und lässt andere lediglich von einem Reviewer mit 1 bis 10 Punkten bewerten, entstehen zwei parallele Wertungsspektren, was auch nicht wünschenswert ist.

Eher denkbar wäre hier die Bildung eines Durchschnitts mehrerer Einzelwertungen. Man könnte die Gesamtwertung auf das Format X von 10 Punkte festlegen – möglicherweise mit einer Dezimalstelle – und diese Gesamtwertung aus subjektiven Einzelwertungen auf einer 10er-Punkteskala errechnen. Vergibt ein Reviewer 8 Punkte und ein anderer 6, ergibt sich eine Gesamtwertung von 7,0 Punkten. Bei einmal 10 Punkten und einmal 7 Punkten ergäben sich 8,5 Punkte. Die Anzahl der Reviewer könnte so nach oben offen sein, man könnte jedoch eine Untergrenze festlegen, etwa, dass jedes Spiel (oder zumindest jedes 'große' Spiel) von mindestens zwei Reviewern bewertet werden sollte. Die Einzelwertungen könnten auch auf einer 5er-Skala vergeben werden, wobei bei genau zwei Reviewern auf X von 10 Punkte addiert würde, ab drei Reviewern würde ein Durchschnitt gebildet, der auf dieses Format hochgerechnet wird. Beispielsweise ergäben drei Bewertungen von einmal 4 von 5, nochmals 4 von 5 und einmal 3 von 5 Punkten eine Gesamtwertung von 7,3 von 10 Punkten. Natürlich kann statt der Dezimalschreibweise für die Gesamtwertung auch wieder das Prozentformat verwendet werden (also für dieses Beispiel 73%). Hier würden sich beim Vergleich mit Magazinen, die Prozentwertungen frei vergeben, sicher große Unterschiede ergeben, die auch die allgemeine Inflation guter Wertungen innerhalb dieses Wertungssystems offenbaren würden. Eine Gesamtwertung mit Durchschnittsbildung und teilweise komplizierteren Berechnungen wäre zwar glaubwürdig und hätte einen objektiven Charakter, wäre im Vergleich zum Famitsu-System aber komplizierter und nicht immer einfach nachvollziehbar.

Als mir am besten erscheinendes Wertungssystem schlage ich daher vor, Wertungen in Buchstabenform mit Feinabstufungen zu verwenden. Genau so bewerten ein paar wenige US-Medien, etwa die Electronic Gaming Monthly und zuletzt ihr Online-Angebot 1UP.com. Vergeben werden Wertungen von A bis F, was amerikanischen Schulnoten entspricht. Hierbei entspräche A quasi 5 von 5 Punkten, E analog dazu 1 von 5 Punkten und F einer Wertung von 0 Punkten, wobei letzteres auch weggelassen werden könnte, um eine saubere 5er-Skala ohne 0 zu erhalten. Diese Buchstabenwertung kann ergänzt werden durch Plus- und Minuszeichen, jedoch nicht durch Zwischenschritte. Die bestmögliche Wertung wäre A+, die schlechteste E- oder F, auf D+ folgt absteigend D und aufsteigend C-. Damit bewegen sich die Wertungen auf einer Skala mit 15 oder 16 Abstufungen, dies darf jedoch nicht mit einer Wertung im Format X von 15 Punkte gleichgesetzt werden, da weiterhin ein nicht-lineares Wertungssystem mit ordinalem Skalenniveau vorliegt. Für Meta-Analysen dürfte daher lediglich der Buchstabe, also eine Wertung auf einer einfachen 5er-Punkteskala herangezogen werden, wobei dies nur in großen Analysen mit vielen Bewertungen sinnvoll ist, da dies sonst zu grob ist (siehe die Argumentation weiter oben).

Dieses Wertungssystem würde zwei Aussagen in einer beinhalten: Es ordnet einerseits das Spiel grob auf einer 5er-Skala ein – wobei das Buchstabenformat der gängigen Einordnung in 'A-Titel', 'B-Titel' et cetera zugeordnet werden kann –, andererseits ermöglicht es über die Feinabstufungen Vergleiche, die genauer ausfallen als auf einer 10er-Punkteskala. So ist es möglich, einem spürbar verbesserten Nachfolger oder einer erweiterten Umsetzung eines B-Titels eine B+ zu geben, womit das Spiel immernoch in der gleichen Klasse landet, die Verbesserungen jedoch durch eine höhere Wertung abgebildet werden kann. Dieses Wertungssystem bietet also eine Orientierung auf einer groben Skala, die voll ausgenutzt werden kann und durch die zusätzlichen Feinabstufungen sind gleichzeitig Vergleiche besser möglich als auf einer 10er-Punkteskala. Analog zur dieser doppelten Aussagekraft der Buchstabenwertung sollte diese auch in einem zweistufigen Prozess zustandekommen: Zunächst würde die grobe Einstufung in A bis E oder F erfolgen, danach die Feinabstufung mit Plus, Minus oder ohne – im direkten Vergleich mit ähnlichen Spielen, Spielen, die zur gleichen Zeit erschienen oder etwaigen Vorgängern.

Gerade die Vergleichsmöglichkeiten für die Feinabstufungen sind bei Retro Review – wie oben erwähnt – sehr spärlich. Obwohl ich mich eindeutig festlegen möchte, dass ich persönlich dieses Wertungssystem bevorzugen würde, werden hier weiterhin keine Wertungen vergeben. Man konnte über die Jahre schon so manche Hasstirade über Wertungssysteme lesen und nicht wenige Publikationen schworen dem Gewerte ganz ab oder vergeben nur noch sehr rudimentäre Beurteilungen (etwa die im englischsprachigen Bereich gängige Einteilung in 'kaufen', 'warten', 'ausleihen' und 'meiden'). Grundsätzlich schlecht finde ich das nicht, dann sollten aber bitte die Texte noch ein wenig tiefgreifender und allgemein niveauvoller ausfallen. Wichtiger als ein noch so gut durchdachtes Wertungssystem finde ich persönlich eine zielgruppenorientierte Kaufempfehlung, bei der man detailliert erfährt, für wen sich ein Spiel lohnt und wer lieber die Finger davon lassen sollte. Dazu bedarf es nicht eines ausgeklügelten Wertungssystems sondern schlicht mehr Zeit mit dem Spiel und mehr Herzblut anstatt stumpfer Testerei nach Schema F.

Filipp Münst