Open Access

Workability for persons with chronic diseases. A systematic review of validity and utility of assessments in German language / Valide und praktikable deutschsprachige Assessments zur Erfassung der Arbeitsfähigkeit bei Menschen mit chronischen Erkrankungen – eine systematische Review


Cite

Einleitung

Die Erhaltung und Ermöglichung der Arbeitsfähigkeit ist ein wichtiges Ziel der Gesundheitsversorgung von Menschen mit chronischen Erkrankungen allgemein (Kaskutas, 2017; Sturesson, 2015) und insbesondere der interprofessionellen Programme des Gesundheitswesens (v. a. Ergotherapie, Soziale Arbeit, Physiotherapie). Denn Arbeit, Arbeitsbedingungen und Arbeitsfähigkeit als Möglichkeit der Partizipation (Teilhabe) am Lebensbereich „Arbeit“ beeinflussen die Lebenssituation und Lebensqualität eines Menschen und damit auch die Gesundheits- und Krankheitsdynamik wesentlich (Amler, 2016).

Arbeitsfähigkeit ist grundsätzlich mehr als das Ausbleiben von Arbeitsunfähigkeit (WAI-Netzwerk, 2015). Arbeitsfähigkeit kann als die Fähigkeit eines Menschen definiert werden, eine gegebene Arbeit zu einem bestimmten Zeitpunkt zu bewältigen (Ilmarinen, Tuomi, & Seitsamo, 2005). Unter „Arbeitsfähigkeit“ wird im Folgenden die nach Abzug von unfalloder krankheitsbedingter Absenz oder unfall- oder krankheitsbedingtem Präsentismus übrigbleibende (Rest-) Fähigkeit eines Menschen verstanden, seine Arbeitskraft zu einem bestimmten Zeitpunkt so einzusetzen, dass trotz der Auswirkungen von Unfall oder Krankheit eine volkswirtschaftlich wertvolle Produktivität übrigbleibt. Dabei kann sich diese Produktivität sowohl auf den Kontext bezahlter (Erwerbs-)Tätigkeit als auch auf unbezahlte Tätigkeiten wie Hausarbeit oder Angehörigenbetreuung beziehen. Denn die Produktivitätsverluste bei unbezahlter Arbeit, die sogenannten Opportunitätskosten, bilden einen wesentlichen Bestandteil krankheitsbedingter gesamtgesellschaftlicher Kosten (Bouwmans et al., 2013).

Menschen mit chronischen Erkrankungen sind in ihrer Arbeitsfähigkeit beeinträchtigt (Hoving, van Zwieten, van der Meer, Sluiter, & Frings-Dresen, 2013; Jensen, Jensen, & Nielsen, 2012; Larsson-Lund, Kottorp, & Malinowsky, 2016), was nicht nur Auswirkung auf ihr persönliches Leben, ihre finanzielle Situation (Biederman & Faraone, 2006; Nordgren & Soderlund, 2017), sondern auch auf das ihrer Familien (de Sola, Salazar, Duenas, Ojeda, & Failde, 2016), ihrer Arbeitgeber (Hoving et al., 2013) und auf die Gesellschaft als Ganze hat (Wieser et al., 2014). Laut einer aktuellen Studie über die chronischen, nichtübertragbaren Krankheiten in der Schweiz belaufen sich die Kosten in der Schweiz, die durch die Verringerung der Arbeitsfähigkeit, Präsentismus und Absentismus bei Menschen mit Herz-Kreislauf-Erkrankungen, muskuloskelettalen Erkrankungen, psychischen Störungen, Krebs, chronischen Atemwegserkrankungen, Demenz und Diabetes entstehen, auf 41,1 Milliarden Schweizer Franken pro Jahr (Wieser et al., 2014). Diese Zahlen verdeutlichen, dass die Erhaltung und Ermöglichung der Arbeitsfähigkeit ein wichtiges Ziel der Gesundheitsversorgung sein muss.

Evidenzbasierung ist sowohl ein Gebot der Wirtschaftlichkeit als auch eines der Ethik. So ist es ethisch fragwürdig, vulnerable Menschen mit Methoden oder Techniken zu behandeln, die lediglich auf subjektiven Meinungen über Wirksamkeit beruhen. Aufgrund dieser mehrdimensionalen Relevanz hat die Weltgesundheitsorganisation (WHO) Evidenzbasierung und Kosteneffizienz zu zentralen Zielen ihrer Strategieüberlegungen für das 21. Jahrhundert deklariert (Terwindt, Rajan, & Soucat, 2016). Um die Wirksamkeit und Effektivität der Gesundheitsversorgung zu erheben, ist es unabdingbar, praktikable und valide Assessments zu verwenden (Law, Baum, & Dunn, 2017). Dies gilt insbesondere für komplexe interdisziplinäre Programme (z. B. Gantschnig et al., 2017) und Interventionen der auf Arbeitsintegration spezialisierten Professionen „Ergotherapie“, „Soziale Arbeit“ und „Physiotherapie“. Der Begriff „Assessment“ wird in diesem Artikel als Synonym genutzt für verschiedene in der deutschsprachigen Literatur vorkommende Begriffe wie Tests, Erfassungsinstrumente und Skalen. Die Praktikabilität von Assessments bezieht sich auf deren Brauchbarkeit und beinhaltet Aspekte wie Akzeptanz, Ausbildungsaufwand, Belastung für die Testperson, Benutzerfreundlichkeit, Kosten, Material, Verfügbarkeit und Zeitaufwand (Fawcett, 2007; Law et al., 2017). Die Validität eines Assessments bezieht sich nicht nur auf die wissenschaftliche Gültigkeit (Döring & Bortz, 2016), sondern auch auf die Bedeutung, Interpretation und die Konsequenzen der Evaluation (Brennan, 2006; Kane, 2006). Demzufolge geht es bei der Verwendung von Assessments auch darum, inwiefern Theorien und wissenschaftliche Evidenz die Verwendung von Assessment in Praxis und Forschung unterstützen (American Educational Research Association [AERA], American Psychological Association [APA], & National Council on Measurement in Education [NCME], 2014). Diese Theorien und Evidenzen beziehen sich auf die fünf nachfolgenden Quellen von Validität: a) Inhalt (test content), b) Antwortprozess (response processes), c) innere Struktur (internal structure), d) Beziehung zu anderen Variablen (relation to other variables) und e) Konsequenzen der Bewertung (consequences of testing) (AERA et al., 2014). In dieser Arbeit nutzen wir diese Einteilung, um die Quellen der Validität verschiedener Assessments aufzuzeigen.

Deshalb ist das Ziel dieser Arbeit herauszufinden, welche deutschsprachigen Assessments zur Erfassung der Arbeitsfähigkeit bei Menschen mit chronischen Erkrankungen valide und praktikabel sind.

Methodisches vorgehen

Die Studie ist eine systematische Übersichtsarbeit. Sie entstand in Zusammenarbeit von drei Forschenden zwischen März und August 2017. Um geeignete deutschsprachige Assessments zur Erfassung der Arbeitsfähigkeit von Menschen mit chronischen Erkrankungen zu finden, wurde zu Beginn folgende Fragestellung formuliert:

Welche Assessments zur Erfassung der Arbeitsfähigkeit sind für Klientinnen und Klienten mit chronischen Erkrankungen valide und praktikabel?

Zu obenstehender Fragestellung wurden Keywords definiert (vgl. Tabelle 1), welche anschließend für eine systematische Recherche in den wissenschaftlichen Datenbanken Medline, CINAHL, PsycInfo, Cochrane Health Technology Assessment Database (HTA Database), DARE, CCMed, Sowiport und BASE verwendet wurden. Bei der Auswahl der Datenbanken wurde zum einen darauf geachtet, dass sie die Bereiche „Medizin“, „Gesundheitswissenschaften“ und „Sozial(arbeits)wissenschaften“ und zum anderen den deutschen wie den englischen Sprachraum abdecken. Die Keywords wurden den Thesauren der einzelnen Datenbanken angepasst und in einem ersten Durchlauf jeweils einzeln verwendet. Im zweiten Durchlauf wurden sie mittels Boole’schem Operator OR mit ihren Synonymen und Varianten erweitert und anschließend mit AND verknüpft (Tabelle 1). Die Resultate dieser Suche wurden in einer Search History festgehalten.

Keywords

Schlüsselwort deutschKeyword englishSynonymeSuchfelder aus Search Terms nach Datenbank (am Bsp. MeSH)
Erfassungsinstrumentassessmenttest, outcome, evaluation tool, scale, iInventory, measureoutcome, outcome assessment, tests, evaluation tool, scale, inventory, measure
Chronische Erkrankungchronic diseasechronic disease
Arbeitsfähigkeitability to workemployment, work performance, return to work, labor force, occupational status, back to work, occupation, vocation, ability to work, working ability, capacity to work, work capacity evaluation, working capacity, workableness, fitness for workemployment, work performance, work capacity evaluation, return to work, occupations, ability to work, working ability, capacity to work, work capacity evaluation, working capacity, workableness, fitness for work, labor force, occupational status, back to work, vocation
Validitätvalidityconcurrent validityreproducibility of results, data accuracy
Reliabilitätreliabilitystability
Praktikabilitätpracticabilityutility, feasibilitytreatment outcome, feasibility studies

Anschließend wurden Duplikate gesuchtundherausgefiltert und alle identifizierten Studien durch das Lesen des Titels und Abstracts auf ihre Relevanz hin geprüft. Dabei wurde untersucht, ob sie sich direkt mit der Forschungsfrage befassen. In einem weiteren Schritt wurden die verbliebenen Studien gelesen und daraufhin geprüft, ob darin ein oder mehrere arbeitsfähigkeitsspezifische Assessmentsidentifiziert werden konnten. Ausgeschlossen wurden dabei Assessments, deren Hauptfokus nicht auf der Arbeitsfähigkeit liegt (z. B. Selbstkonzepte). In einem letzten Schritt wurden alle Assessments ausgeschlossen, zu denen keine deutsche Übersetzung gefunden werden konnte (Abb. 1). Im Rahmen des Studiums der Literaturangaben in der gefundenen Primärliteratur konnten zwei weitere Assessments identifiziert werden, welche in der systematischen Recherche nicht aufgetaucht sind. Da beide Assessments von der Autorenschaft übereinstimmend als relevant eingestuft wurden, wurden sie im Nachhinein in die Review integriert.

Abbildung 1

Grafische Darstellung des Auswahlprozesses der Assessments

Nachdem die gefundenen Assessments erfasst waren, wurde die Keyword-Suche auf deren Namen und die Search Terms zur Validität und Praktikabilität beschränkt. Mithilfe dieses Suchdurchgangs konnten all jene Assessments identifiziert und ausgeschlossen werden, für welche keine quantitative Primärliteratur (Validierungsstudien) bezüglich der Gütekriterien Validität und Praktikabilität vorhanden ist. Durch dieses mehrstufige Rechercheverfahren konnten schlussendlich acht Assessments identifiziert werden, für die deutschsprachige Versionen vorliegen. Vor diesem Hintergrund wurde die obenstehende Fragestellung spezifiziert, indem sie mit den Namen der Assessments ergänzt wurde. Die überarbeitete Fragestellung lautet entsprechend:

Sind die Assessments Productivity Costs Questionnaire (iPCQ), Work Instability Scale for Rheumatoid Arthritis (RA-WIS), Screening-Instrument Arbeit und Beruf (SIBAR), Screening-Instrument zur Feststellung des Bedarfs an medizinisch-beruflich orientierten Maßnahmen in der medizinischen Rehabilitation (SIMBO), Valuation of Lost Productivity Questionnaire (VOLP), Work Ability Index (WAI/ABI), Work Limitations Questionnaire (WLQ) und Work Productivity and Activity Impairment Questionnaire (WPAI) valide und praktikabel?

Um die Qualität der einbezogenen Assessments zu beurteilen, wurden die Aussagen aus den einbezogenen Studien mithilfe einer durch die Autorinnen und Autoren verfassten Vorlage zur kritischen Besprechung quantitativer Studien auf Basis von Law et al. (Law et al., 1998) zusammengefasst und die Assessments damit kritisch gewürdigt.

Keywords, Datenbanken und Vorgehen wurden von Erstautor und Letztautorin gemeinsam definiert. Die Suche wurde von einer Person durchgeführt, die Ergebnisse der Suchen wurden bei jedem Schritt gemeinsam diskutiert und die Qualität der Studien anhand der Formulare gemeinsam beurteilt.

Resultate

Im Rahmen der Recherche konnten für die acht Assessments insgesamt 74 deskriptive Studien identifiziert werden. An den Studien haben zwischen 19 und 38‘000 Personen teilgenommen.

Im Folgenden werden die Resultate der Literaturreview, bezogen auf die acht identifizierten Assessments, kurz beschrieben. Die detaillierten Resultate sind in den Abbildungen 2 bis 9 zu finden.

Der iMTA Productivity Cost Questionnaire (iPCQ) ist ein generisches (diagnoseunspezifisches) Assessment zur Erfassung des krankheitsbedingten Produktivitätsverlustes (Bouwmans et al., 2013; Bouwmans et al., 2015). Die Daten werden anhand eines Fragebogens mit 18 Items erhoben (z. B. Sind Sie in den letzten vier Wochen aufgrund einer Erkrankung nicht zur Arbeit gegangen? Nein/Ja, ich habe X Tage gefehlt). Die Recall-Periode beträgt vier Wochen. Der Fragebogen ist unterteilt in einen Teil mit allgemeinen Fragen zum Beschrieb der Studienpopulation, einen Teil mit allgemeinen Fragen zur bezahlten Arbeit und drei Modulen zum Produktivitätsverlust (Produktivitätsverlust bei bezahlter Arbeit durch krankheitsbedingte Absenzen, Produktivitätsverlust bei bezahlter Arbeit durch Präsentismus, Produktivitätsverlust bei unbezahlter Arbeit). Dabei kommen sowohl nominal-, als auch ordinal- und verhältnisskalierte Items zur Anwendung. Weil der iPCQ relativ neu ist und die Skala auf vorbestehenden, validierten Assessments beruht (insb. Short Form-Health and Labour Questionnaire (SF-HLQ) und PROductivity and DISease Questionnaire (PRODISQ)), wurde zu diesem Assessment nur eine Studie mit 195 Teilnehmenden sowie das Manual gefunden (vgl. Abb. 2). Die Validität der Elemente des iPCQ, die aus den vorbestehenden Assessment stammen, wurde von den Entwicklern vor der Implementierung geprüft (Bouwmans et al., 2015). Ausführlichere Validitätsüberprüfungen müssten über SF-HLQ oder PRODISQ erfolgen. Die Praktikabilität des Assessments ist insgesamt gut (Bouwmans et al., 2015). Zusammenfassend kann festgehalten werden, dass der iPCQ in punkto Praktikabilität gute Resultate aufweist, die Arbeitsfähigkeit umfassend abklärt und gesundheitsökonomische Berechnungen ermöglicht, aber weiterer Validierung bedarf.

Abbildung 2

Übersicht über Anwendung, Praktikabilität und Validität des iPCQ

Die Work Instability Scale for Rheumatoid Arthritis (RA-WIS) ist ein Assessment zur Erfassung der Arbeitsinstabilität bei Rheumatoider Arthritis (Gilworth et al., 2003). Die Daten werden anhand eines Fragebogens mit 23 Items erhoben (z. B. Ich habe meinen Urlaub genutzt, damit ich mich nicht krankschreiben lassen muss), bei dem die Klientinnen und Klienten die Fragen mit Ja oder Nein beantworten können (Gilworth et al., 2003). Der Fragebogen bezieht sich auf die Einschätzung der momentanen Situation. Zur RA-WIS wurden 12 Studien mit zwischen 51 und 509 Teilnehmenden gefunden (vgl. Abb. 3). Nicht nur die Praktikabilität des Assessments ist insgesamt sehr gut (Beaton et al., 2010; Roy et al., 2011; Tang, 2011; Tang, Beaton, Boonen, Gignac, & Bombardier, 2011; Tang, Beaton, Lacaille, Gignac, & Bombardier, 2013; Tang, Pitts, Solway, & Beaton, 2009), sondern auch die Validität: unter anderem die Validität in verschiedenen Sprachen (Gilworth, Emery, Barkham, et al., 2009), für verschiedene Diagnosen (Beaton et al., 2010; Gilworth, Emery, Barkham, et al., 2009; Tang, 2011; Tang, Beaton, Lacaille, Gignac, & Bombardier, 2013; Tang et al., 2010) in Bezug zu andern Assessments (HAQ, DAS28, Global Assessment of Disease Activity, RAQoL, WLQ25, WLQ16, WALS, EWPS, DASH-W) (Beaton et al., 2010; Macedo, Oakley, Gullick, & Kirkham, 2009; Revicki et al., 2015; Roy et al., 2011; Tang et al., 2009) und in Bezug auf Alter und Geschlecht (Gilworth et al., 2003). Außerdem zeigt die RA-WIS eine hohe Responsivität in Bezug auf die Veränderung der Arbeitsfähigkeit (Tang et al., 2010), eine hohe Sensitivität und Spezifität (Gilworth et al., 2003) und eine hohe prognostische Validität (zum Beispiel drohender Arbeitswechsel) (Tang et al., 2010). Zusammenfassend kann die psychometrische Güte der RA-WIS als gut eingestuft werden (vgl. Abb. 3).

Abbildung 3

Übersicht über Anwendung, Praktikabilität und Validität des RA-WIS

Das Screening-Instrument Arbeit und Beruf (SIBAR) ist ein generisches Assessment zur Feststellung des Bedarfs an berufsbezogenen therapeutischen Maßnahmen (Böttcher et al., 2013; Bürger, 2009; Bürger & Deck, 2007; Bürger, Deck, Raspe, & Koch, 2007). Die Daten werden anhand eines Fragebogens mit drei Skalen zur Erfassung a) des Frühberentungsrisikos (SIBAR-I-Skala), b) des Ausmaßes und der Art der beruflichen Belastung (SIBAR-II-Skala) und c) der von Versicherten selbst eingeschätzten Notwendigkeit entsprechender Maßnahmen (SIBAR-III-Skala) erhoben. SIBAR umfasst in der validierten Kurzversion 11 nominal- oder ordinalskalierte Items (z. B. Sind Sie zurzeit krankgeschrieben? Nein/Ja, seit X Wochen). Die Recall-Periode ist frageabhängig (12 Monate/„im Moment“). Zu SIBAR wurden vier Studien mit zwischen 477 und 4468 Teilnehmenden gefunden (vgl. Abb. 4). Zur Praktikabilität des Assessments wurden nur wenige Angaben gefunden. Der Zeitaufwand für das Ausfüllen und die Auswertung beträgt geschätzt jeweils ca. 5 Minuten und ist damit sehr gering. Die Ergebnisse der Studien unterstützen die Validität von SIBAR: unter anderem der internen Konsistenz, der Retest-Reliabilität und der prognostischen Validität (für alle: Bürger, 2009; Bürger & Deck, 2007; Bürger et al., 2007) für verschiedene Diagnosen (Bürger, 2009; Bürger et al., 2007) und der Korrelation mit anderen Assessments (Bürger, 2009). Außerdem zeigt SIBAR bei einem Cut-off-Wert von acht eine hohe Sensitivität und Spezifität (Bürger, 2009; Bürger et al., 2007). Zusammenfassend wird die psychometrische Güte von SIBAR in verschiedenen Studien als gut eingestuft (vgl. Abb. 4).

Abbildung 4

Übersicht über Anwendung, praktikabilität und Validität von SIBAR

Das Screening-Instrument zur Feststellung des Bedarfs an medizinisch-beruflich orientierten Maßnahmen in der medizinischen Rehabilitation (SIMBO) liegt in zwei Versionen vor. SIMBO-MSK wird ausschließlich bei Menschen mit muskuloskelettalen Problemen verwendet, SIMBO-C ist eine generische Version für chronische Erkrankungen allgemein (Streibelt, 2009b). Beide Versionen dienen der Abklärung des Bedarfs an medizinisch-beruflich orientierten Maßnahmen, resp. der Identifikation besonderer berufsbezogener Problemlagen und des voraussichtlichen Erfolgs entsprechender Maßnahmen (Streibelt, 2009a, 2009b, 2009c, 2016; Streibelt et al., 2017; Streibelt, Gerwinn, Hansmeier, Thren, & Muller-Fahrnow, 2007). Die Daten werden auch hier mithilfe eines Fragebogens erhoben; entweder in einer Befragung oder durch eine schriftliche Selbstauskunft. SIMBO umfasst sieben unterschiedlich skalierte Items (z. B. Waren Sie in den letzten 12 Monaten krankgeschrieben? falls ja: Wie lange waren Sie insgesamt krankgeschrieben?: unter 1 Woche, 1–6 Wochen, 7–12 Wochen, 13–26 Wochen, >26 Wochen). Die Recall-Periode ist frageabhängig (12 Monate/„zurzeit“). Zu SIMBO wurden vier Studien gefunden (vgl. Abb. 5). Die Praktikabilität des Assessments ist insgesamt gut: Der Fragebogen und die Auswertungsroutine sind kostenlos im Internet verfügbar und der zeitliche Aufwand für Datenerhebung und -auswertung beträgt je ca. fünf Minuten. Die Auswertung ist dank des einfachen Algorithmus‘ von Hand leistbar, kann aber auch computergestützt erfolgen, was von den Entwicklern empfohlen wird (Streibelt, 2009b). Der Ausbildungsaufwand für Mitarbeitende ist gering, da die Anwendung insgesamt sehr einfach ist (Streibelt et al., 2007). SIMBO existiert zurzeit lediglich in deutscher Sprache. Die Ergebnisse belegen auch die Validität von SIMBO: So wurde die Konstruktvalidität von SIMBO durch unterschiedliche Reklassifikationen geprüft (Streibelt et al., 2007). Damit zusammenhängend ist die prognostische Validität von SIMBO sehr gut (Streibelt et al., 2007) und die Test-Retest-Reliabilität liegt indikationsübergreifend im hohen Bereich (Streibelt, 2009b). Korrelation mit andern Assessments: moderate Zusammenhänge zum SPE, zum ROLPH und zum EQ5-D (Streibelt, 2009b). Zusammenfassend kann die psychometrische Güte von SIMBO aufgrund der Studien der Gruppe um Streibelt als gut eingestuft werden (vgl. Abb. 5).

Abbildung 5

Übersicht über Anwendung, Praktikabilität und Validität von SIMBO

Der Valuation of Lost Productivity Questionnaire (VOLP), auf Deutsch „Fragebogen zum Verlust der Leistungsfähigkeit”, ist ein generischer Fragebogen (W. Zhang, Bansback, Kopec, & Anis, 2011). Der VOLP existiert als Baseline- und Folgefragebogen, je in einer Lang- und einer Kurzversion. Auf Deutsch existieren eine (nicht validierte) Lang- und eine Kurzversion für Deutschland und eine (ebenfalls nicht validierte) Kurzversion für die Schweiz (je als Baseline- und als Folgefragebogen). Da es sich beim VOLP um ein neues Assessment handelt, liegt erst eine Studie zur englischsprachigen Version vor (N=152) (vgl. Abb. 6). Die Studie stammt vom Entwicklerteam. Die Daten werden anhand eines Fragebogens erhoben, der in sechs Module unterteilt ist (unbezahlte Arbeit, Beschäftigungssituation, Tätigkeitsmerkmale, Abwesenheiten, Arbeitsleistung, Arbeitsumfeld). In der Langversion weist der Fragebogen 37 (Baseline) resp. 36 Items (Folgefragebogen) auf, in der Kurzversion 26, resp. 13 Items (z. B. Wie viele Arbeitstage haben Sie insgesamt in den vergangenen 3 Monaten an Ihrem Arbeitsplatz aufgrund Ihres Gesundheitszustandes gefehlt?). Damit handelt es sich beim VOLP um den längsten Fragebogen dieses Reviews. Die Recall-Periode ist frageabhängig und beträgt sieben Tage resp. drei Monate. Der Fragebogen ist nicht frei verfügbar, sondern muss bei den Entwicklerinnen und Entwicklern angefragt werden. Die erwähnte Validierungsstudie fokussiert auf Test-Retest-Reliabilität und Übereinstimmungsvalidität mit dem WPAI (Konstruktvalidität) und unterstützt die diesbezügliche Validität des VOLP (vgl. Abb. 6).

Abbildung 6

Übersicht über Anwendung, Praktikabilität und Validität des VOLP

Der Work Ability Index (WAI, in der deutschen Version auch „Arbeitsbewältigungsindex“, ABI, genannt) ist ein generisches Assessment zur Erfassung und Prognose der Arbeitsfähigkeit von Beschäftigten (WAI-Netzwerk, 2015). Es liegen validierte Versionen in diversen Sprachen vor. Die Daten werden in der Kurzversion des Fragebogens mit zehn Items erhoben (z. B. Wie viele ganze Tage blieben Sie aufgrund eines gesundheitlichen Problems im letzten Jahr (12 Monate) der Arbeit fern?). Die Recall-Periode ist frageabhängig (12 Monate/„letzte Zeit“/„aktuell“). Der Bogen ist im Internet frei verfügbar. Zum WAI wurden 20 deskriptive Studien mit zwischen 65–38.000 Teilnehmenden gefunden (vgl. Abb. 7). Zur Praktikabilität des Assessments wurden nur wenige Angaben gefunden. Der Zeitaufwand zum Ausfüllen ist jedoch mit zehn bis 15 Minuten gering, die Auswertung dauert nur ca. fünf Minuten. Die Ergebnisse belegen auch die Validität des WAI: So liegt der Intraklassen-Korrelationskoeffizient ICC für die Interrater-Reliabilität zwischen 0,597 und 0,92 und die interne Konsistenz ist als akzeptabel bis gut zu beurteilen. Hingegen liegen unterschiedliche Resultate zur Eindimensionalität der Skala vor (Alexopoulos, Merekoulias, Gnardellis, & Jelastopulu, 2013; Bethge, Radoschewski, & Gutenbrunner, 2012; Martinez, Latorre, & Fischer, 2009; Radkiewicz, Widerszal-Bazyl, Camerino, & group, 2005; L. Zhang, Wang, & Wang, 2008). Hinsichtlich Korrelation mit anderen Instrumenten weist der WAI signifikant positive Korrelationen zum SF36 (Abdolalizadeh et al., 2012; Alexopoulos et al., 2013) und stark negative Korrelationen zum WLQ und WPAI auf (Leggett et al., 2016; Verhoef, Miedema, Bramsen, & Roebroeck, 2012). Außerdem zeigt der WAI eine hohe Vorhersagekraft für die Risiken „Arbeitslosigkeit“ und „Langzeit-Krankheitsabwesenheit“ (Bethge et al., 2012; Kujala et al., 2006; Lundin, Leijon, Vaez, Hallgren, & Torgén, 2017; Radkiewicz et al., 2005; Schouten et al., 2015). Zusammenfassend wird die psychometrische Güte des Instruments durch die Studien als akzeptabel bis gut eingeschätzt, auch wenn zu einzelnen Aspekten widersprüchliche Resultate vorliegen (vgl. Abb. 7).

Abbildung 7

Übersicht über Anwendung, Praktikabilität und Validität des WAI

Mit dem Work Limitations Questionnaire (WLQ) liegt ein generisches Instrument zur Erfassung des Einflusses chronischer Erkrankungen auf die Produktivität von Beschäftigten vor (Henneberger & Gämperli, 2014; Lerner et al., 2001). Es existieren validierte Versionen in über 40 Sprachen. Die Daten werden mithilfe eines Fragebogens erhoben. Dieser besteht in der Langversion aus 25 Items (z. B.: Wie oft haben es Ihnen Ihre körperliche Gesundheit oder seelischen Probleme in den letzten 2 Wochen erschwert, das Arbeitspensum zu bewältigen?), welche in vier Skalen unterteilt sind (time management scale, mental demands scale, output demands scale, physical demands scale). Des Weiteren bestehen auch kürzere Versionen mit acht resp. 16 Items. Das Antwortformat ist eine fünfteilige Likertskala, die Recall-Periode beträgt 14 Tage. Der Bogen ist für Kliniken und (nicht gesponserte) Forschung kostenlos, muss aber mittels eines relativ aufwendigen Antrags angefordert werden. Zum WLQ-25 wurden 16 deskriptive Studien mit zehn bis 7797 Teilnehmenden gefunden (vgl. Abb. 8). Die Praktikabilität des Assessment ist insgesamt gut. Es erreicht bei den Nutzerinnen und Nutzern hohe Akzeptanzwerte (Tang, Beaton, Lacaille, Gignac, Bombardier, et al., 2013; Tang et al., 2009) und wird von diesen als angemessen in der Länge beurteilt (Tang et al., 2009), beträgt doch der Zeitaufwand für das Ausfüllen nur ca. fünf Minuten (Tang et al., 2009). In punkto Verständlichkeit erreicht das Assessment hingegen leicht schlechtere Werte als andere, eventuell aufgrund der Umkehrungen in der Orientierung der Fragen in den Subskalen (Tang, Beaton, Lacaille, Gignac, & Bombardier, 2013). Die Ergebnisse der Studien belegen die Validität des WLQ. Bezüglich Konstruktvalidität berichten Beaton et al. (2010) jedoch von lediglich schwacher Korrelation zwischen den Subskalen des WLQ und den entsprechenden Konstrukten. Auch wurde ein Bodeneffekt für eine Subskala entdeckt (Tamminga, Verbeek, Frings-Dresen, & De Boer, 2014). Divergierende Angaben liegen auch zur Dimensionalität des WLQ vor: Die originale Vier-Faktoren-Struktur zeigt einen akzeptablen Modell-Fit, aber signifikant tiefere Korrelationen als erwartet zwischen der physical demands scale und allen anderen Skalen (Tang, Beaton, Amick, et al., 2013). Tang et al. (2013) schlagen deshalb ein 5-Faktoren-Modell vor. Andere Tests belegen für eine 2-Faktoren-Struktur eine gute interne Konsistenz (Kono, Matsushima, & Uji, 2014). Der ICC für die Test-Retest-Reliabilität liegt zwischen 0,55 und 0,93 (Kono et al., 2014; Puig-Ribera, McKenna, & Gilson, 2011; Verhoef et al., 2012). Auch bezüglich des minimal detectable change (MDC) liegen unterschiedliche Ergebnisse vor: Verhoef et al. (2012) sprechen von einem MDC von vier Punkten, wohingegen andere Studien bemängeln, dass die Reproduzierbarkeit auf individueller Ebene ungenügend sei, weil der MDC auf individueller Ebene unter dem smallest detectable change liege (Tamminga et al., 2014). Die interne Konsistenz ist als akzeptabel bis exzellent zu beurteilen. Der WLQ korreliert statistisch signifikant mit dem WAI, dem SF-36 (Verhoef et al., 2012), SF-36-Teilskalen (MCS und PCS) und mit dem HAQ (Walker, Michaud, & Wolfe, 2005). Zusammenfassend kann die psychometrische Güte des Assessments als gut eingestuft werden, mit Vorbehalten gegenüber der physical-demands-Subskala und der sensitivity to change (vgl. Abb. 8).

Abbildung 8

Übersicht über Anwendung, Praktikabilität und Validität des WLQ

Der Work Productivity and Activity Impairment Questionnaire (WPAI)ist ein Fragebogen zur Erfassung der krankheitsbedingt verpassten Arbeitszeit und der Arbeits- und Aktivitätsbeeinträchtigung (Reilly, Bracco, Ricci, Santoro, & Stevens, 2004) und liegt in zwei Versionen vor: einer General-Health-Version (GH) und einer Specific-Health-Problem-Version (SHP), welche die Grundlage für alle diagnosespezifischen Versionen ist. Die Daten werden mittels eines Fragebogens erhoben, der sechs Items unterschiedlicher Skalenniveaus umfasst (z. B. Wie viele Stunden Arbeitszeit haben Sie wegen Ihrer gesundheitlichen Probleme in den letzten sieben Tagen versäumt?). Die Fragen decken Absentismus und Präsentismus ab (Ciconelli, Soarez, Kowalski, & Ferraz, 2006). Die Recall-Periode beträgt sieben Tage. Sowohl der Fragebogen als auch die Angaben zur Auswertungsroutine sind im Internet frei verfügbar. Der WPAI wurde bereits in mehr als 100 Sprachen übersetzt. Unter anderem liegt auch eine validierte Version in Deutsch vor. Zum WPAI wurden 16 Studien gefunden (N=72–662) (vgl. Abb. 9). Zur Praktikabilität des Assessments wurden nur wenige Angaben gefunden. Der Zeitaufwand für das Ausfüllen ist jedoch sehr gering, die Auswertung dauert nur ca. fünf Minuten. Die Ergebnisse belegen auch die Validität des WPAI: So liegt beispielsweise der ICC für die Test-Retest-Reliabilität zwischen 0,68 und 0,99 (Bushnell et al., 2006; Ciconelli et al., 2006; Leggett et al., 2016; Reilly et al., 2004; Vergara et al., 2009; Vergara, Montserrat, Casellas, Villoria, et al., 2011) und für die Interrater-Reliabilität zwischen 0,82 und 0,94 (Bushnell et al., 2006). Das Assessment zeigt Responsivität für Veränderung (Vergara et al., 2009; Wahlqvist, Medin, Karlsson, & Reilly, 2009), ausgenommen für Absentismus (Reilly, Gerlier, Brabant, & Brown, 2008; Reilly, Lavin, Kahler, & Pariser, 2003). Die interne Konsistenz des WPAI ist akzeptabel bis gut (Ciconelli et al., 2006; Varela, Guillen-Grima, Perez-Cajaraville, Perez-Hernandez, & Monedero, 2016). Der WPAI korreliert stark mit ausgewählten weiteren Assessments zur Messung von Arbeitsfähigkeit (u. a. WPS-RA, WAI, QQ, WLQ) (Ciconelli et al., 2006; Leggett et al., 2016; Reilly et al., 2004; Reilly, Gooch, Wong, Kupper, & van der Heijde, 2010; Vergara, Montserrat, Casellas, Gallardo, et al., 2011). Insgesamt kann die psychometrische Güte des Assessments als gut eingestuft werden (vgl. Abb. 9).

Abbildung 9

Übersicht über Anwendung, Praktikabilität und Validität des WPAI

Abbildung 10 zeigt eine vergleichende Übersicht der wichtigsten Dimensionen und Eigenschaften der acht Assessments.

Abbildung 10

Vergleich der zentralen Dimensionen und Eigenschaften der acht Assessments Bemerkungen: gemessene Konstrukte (Präsentismus, Absentismus, Produktivitätsverlust bezahlte Arbeit, Produktivitätsverlust unbezahlte Arbeit, Bedarf berufsbezogene Reha): dichotom (Ja/Nein); Zeitaufwand: dreistufig (5–10 Min., 11–20 Min., > 20 Min.);Verfügbarkeit:dichotom (frei, geschützt); Kosten: dichotom (gering: < 200,- €/hoch> 200,- €); Validierung: 4-stufig (≤ 5 Studien/6–10 Studien/11–15 Studien/≥ 15 Studien)

Diskussion

Die Ergebnisse der Literaturreview zeigen, dass standardisierte, valide und praktikable deutschsprachige Assessments zur Erhebung der Arbeitsfähigkeit von Menschen mit chronischen Erkrankungen existieren. Unsere Literaturreview weist jedoch Limitationen auf. Zum einen ist dies die Beschränkung der Literaturrecherche auf in Englisch und Deutsch publizierte Studien, zum andern wurden aufgrund der zur Verfügung stehenden Ressourcen nur veröffentlichte Studien einbezogen. Auf eine Suche nach „grauer Literatur“ wurde verzichtet. Diese Limitation fällt insbesondere bei all jenen Assessments ins Gewicht, bei denen lediglich Validierungsstudien des Entwicklerteams zu finden waren. Dort ist das Risiko besonders hoch, dass es zu einer Verzerrung der Darstellung der psychometrischen Güte der Assessments kommt. Eine weitere Limitation der Arbeit ist zugleich eine ihrer Stärken: Durch das relativ weite Verständnis von Arbeitsfähigkeit resp. des Einbezugs unterschiedlicher Konzepte und Definitionen von Arbeitsfähigkeit und damit zusammenhängender Konstrukte ist die vergleichende Gegenüberstellung der Assessments wie oben angedeutet schwierig. Dafür wird jedoch die gesamte Breite bestehender Assessments zum Thema erfasst. Weitere Stärken der Studie liegen nach Auffassung der Autorenschaft darin, dass sie auf einer sehr umfangreichen Literaturrecherche beruht und alle aufgefundenen Studien in den Reviewprozess eingeschlossen wurden. Des Weiteren wurde sehr systematisch vorgegangen und der gesamte Prozess sorgfältig dokumentiert, um die Nachvollziehbarkeit und Kontrollierbarkeit der Studie für weitere Forschende zu garantieren. Die größte Stärke der Studie liegt darin, dass sie die bestehende wissenschaftliche Literatur kurz zusammenfasst. Dabei ergänzt sie vorbestehende deutschsprachige Vergleichsarbeiten, wie beispielsweise die Studie von Amler (2016), um weitere Assessments wie beispielsweise SIMBO, SIBAR, iPCQ und RA-WIS. Anschlussfähig ist vorliegende Literaturreview des Weiteren an einen aktuellen Vergleich einer Auswahl von Assessments für die Einschätzung der beruflichen Leistungsfähigkeit zur Anwendung in der Ergotherapie von Zamath (Zamath, 2017a, 2017b). Die dort präsentierte Auswahl an Assessments überschneidet sich jedoch aufgrund der etwas anderen zugrunde liegenden Kriterien nur in einem Assessment mit jenen in vorliegender Review. Aus Perspektive der gesundheitsbezogenen Sozialen Arbeit ist die Review anschlussfähig an den aktuellen Diskurs um Wirkungsforschung und Evaluation in komplexen Interventionen (vgl. dazu z. B. Hüttemann, Sèler, Süsstrunk, & Sommerfeld, 2017; Süsstrunk, Sèler, & Hüttemann, 2016), weil Arbeitsfähigkeit verstanden als Teilhabe am Arbeitsleben einen wesentlichen Outcome gesundheitsbezogener Sozialer Arbeit darstellt.

Nachfolgend werden zentrale Ergebnisse der Review im Detail diskutiert. Die beschriebenen Assessments unterscheiden sich hinsichtlich mehrerer Dimensionen. Sie decken erstens unterschiedliche, für die interprofessionelle Diagnostik und Intervention relevante Konstrukte, Aspekte oder Auswirkungen von Arbeits(un)fähigkeit ab (vgl. Tabelle 2), zweitens wurden sie für unterschiedliche Zwecke entwickelt (Screening, Prognostik, Unterscheidung von Subgruppen, Evaluation) (Durand & Hong, 2013) und damit zusammenhängend drittens für unterschiedliche Erfassungszeitpunkte (drohende oder bereits eingetretene Arbeitsunfähigkeit). Eines der im Gesundheitswesen verbreitetsten und bestevaluierten Instrumente – der WAI – wurde beispielsweise nicht explizit für kranke Menschen entwickelt, sondern als (betriebliches) Präventionsinstrument für Beschäftigte resp. deren Arbeitgebende (Ilmarinen & Tempel, 2002). Viertens unterschieden sie sich auch hinsichtlich ihrer Spezifität. Einige sind als generische Instrumente entwickelt und validiert worden, andere für spezifische Krankheitsbilder resp. Diagnosen. Diese Unterschiede machen einen Vergleich herausfordernd. Tabelle 2 zeigt einen Überblick über die arbeitsfähigkeitsbezogenen Konstrukte der Assessments.

Übersicht verschiedener arbeitsfähigkeitsbezogener Konstrukte der Assessments

Konstrukt EnglischKonstrukt DeutschDefinitionInstrumente
Work ability / (risk of) (at-)work disabilityArbeitsfähigkeit oder „Arbeitsbewältigungsfähigkeit“/ (Risiko von) ArbeitsunfähigkeitArbeitsfähigkeit als Resultat des Ztszmmenspzls dtr vier Einflussfaktoren Gesundheit: (Leistungsfähigkeit), Kompetenz (Bildung, Keznffiisse, GescffickNcMsft), Werte (Einstellungen, Motivation)und Arbeit (Umgebung, Gemeinschaft, Bglastungen, Anforderungen, Management) (Ilmarineo & Thmpel, 2002) Arbeitsunfähigkeit umfasst durch traumatische oder nicht-traumatische Gesoedghitsprobltme hervorgerufenen ArbeitsagtGull unh dtäeentismuc.Siewire in der Regel definiert als Ftsisttlleng, Ktsnksthrcidzag, verminderte Produktivität mdcrAreeit misfunkdonelen Einschränkungen (Schultzoral. 2007 in Durand & Hong, 2013)WAI RA-WIS iPCQ

diese Instrumente messen Arbeitsfähigkeit umfassend (mind. Präsentismus und Absentismus), ohne sich jedoch konzeptuell auf Ilmarinen et al. abzustützen.

VOLP

diese Instrumente messen Arbeitsfähigkeit umfassend (mind. Präsentismus und Absentismus), ohne sich jedoch konzeptuell auf Ilmarinen et al. abzustützen.

WPAI

diese Instrumente messen Arbeitsfähigkeit umfassend (mind. Präsentismus und Absentismus), ohne sich jedoch konzeptuell auf Ilmarinen et al. abzustützen.

PresenteeismPräsentismusReduktion der Arbeitsproduktivität durch Leistungseinschränkung aufgrund gesundheitlicher Einschränkungen (Bouwmanset al., 2015)iPCQ RA-WIS VOLP WPQ WPAI
Absentismkrankheitsbedingte Abwesenheit/ AbsentismusProduktivitätseinbußen bei bezahlter Arbeit durch krankheitsbedingte Abwesenheit (Bouwmans et al., 2015)iPCQ VOLP WPAI
Work instabilitykraniheitsbedinrfte „Ar beitsinstabilität“/Arbeits(platz) unsicherheitWork instability“ ist ein ZuoUand, in dem die Folgen einer Diskrepanz zwischen den Suettionalen Fähigkeiten des Einzelnen und den AnforAernzeznseineo Arbeitsplattss die Fortsetzung der Besezsftigung bedrobenSöknza (Gilworth et al., 2003)RA-WIS
Health related productivity lossgesundheitsbedingter ProduktivitätsverlustProduktivitätsverluste aufgrund von Abwesenheit oder Ineffizienz bei bezahlter oder unbezahlter Arbeit aufgrund von Gesundheitsproblemen (Präsentismus und Absentismus) (Bouwmans et al., 2015)iPCQ WLQ VOLP WCAI
Work limitationskrankheitsbedingte Einschränkung der ArbeitsperformanzEinfluss chronischer Krankheiten und deren Therapien auf die Arbeitsleistung (Lerner et al., 2001)WLQ
Vocational participationberufliche Teilhabe/PartizipationEinbezogensein in den LebensZsieitA Avdeit(WHO, 2005) → ICFSIMBO
Need for vocational therapeutic activitiesGesamtbedarffürberufsbezogene Behandlungsangebotefrühzeitige berufliche Orientierungindermedizinischen Rehabilitation aufgrundvon Frühberentungsrisiko, beruflicher Belastung undsubjektivenberufsbezogenen Behandlungsbedarfs (Streibelt, M.,2009)SIBAR SIMBO

Für viele Assessments zur Arbeitsfähigkeit gilt, dass entweder nur wenige (unabhängige) Validierungsstudien vorliegen oder nur einzelne Aspekte der psychometrischen Güte der Assessments erforscht sind (iPCQ, RA-WIS, SIBAR, SIMBO, VOLP). Vor allem zur Praktikabilität der verschiedenen Assessments liegen nur sehr wenige Studien vor. Bei der Mehrzahl der Assessments sind zentrale Dimensionen der Praktikabilität wie Akzeptanz oder Nutzerfreundlichkeit nur unzureichend oder gar nicht evaluiert (Ausnahmen sind hier teilweise iPCQ, RA-WIS und WLQ), jedoch erscheint der notwendige zeitliche Aufwand der Durchführung der Assessments aus Einschätzung der Autoren relativ gering, was die Praktikabilität grundsätzlich stärkt. Zu den Konsequenzen der Bewertung (consequences of testing) liegen ebenfalls keine Resultate vor, die über eine begründete Festlegung von Cut-off-Werten hinausgehen. Insbesondere fällt auf, dass ethische Fragen zu den Konsequenzen der Testung praktisch gar nicht untersucht wurden. Hier bestünde unseres Erachtens dringender Forschungsbedarf.

Außerdem ist die die Genauigkeit der Schätzungen bei Assessments, welche die Kosten von Produktivitätsausfällen berechnen, als problematisch einzustufen. So weisen Zhang et al.in einer Vergleichsstudie von vier Assessments (u. a. WLQ und WPAI) nach, dass die Resultate teilweise sehr stark abweichen (W. Zhang, Gignac, Beaton, Tang, & Anis, 2010). Dies ist im Hinblick auf Wirksamkeitsstudien komplexer interprofessioneller Programme problematisch.

Des Weiteren hat sich im Rahmen der Literaturrecherche gezeigt, dass in (teilweise vergleichbaren) Programmen des Gesundheitswesens aufgrund der Heterogenität des Feldes (Diversität von Diagnosen, Zielgruppen, angestrebten Outcomes, institutionellen oder politischen Satzungen etc.) sehr unterschiedliche Assessments genutzt werden, um Arbeits(un)fähigkeit und damit zusammenhängende Produktivitätskosteneinbußen zu erfassen oder zu berechnen. Diese Tatsache erschwert den Aufbau einer programmübergreifenden oder gar internationalen Datengrundlage als Basis für interprofessionelle Wirkungsforschung in komplexen Programmen des Gesundheitswesens.

Es kommt hinzu, dass die Begrifflichkeit im Thema „Arbeitsfähigkeit“ unterschiedlich verwendet wird und teilweise auch ungeklärt bleibt (Sturesson, Edlund, Fjellman-Wiklund, Falkdal, & Bernspång, 2013). So verwendet die Autorenschaft des RA-WIS beispielsweise die Begriffe „functional ability“, „functional capabilities“ und „functional capacity“ weitgehend synonym, ohne sie aber klar zu definieren oder zu beschreiben (Gilworth et al., 2003; Gilworth, Emery, Barkham, et al., 2009; Gilworth, Emery, Gossec, et al., 2009).

Grundsätzlich stehen für die interprofessionelle Praxis und Forschung jedoch valide und praktikable Assessments zur Erfassung der Arbeitsfähigkeit und damit zusammenhängender Konstrukte zur Verfügung. Im spezifischen Kontext muss jedoch genau geprüft werden, welches Assessment sich für die jeweiligen Ziele, Ansprüche, Klientengruppen und die zur Verfügung stehenden Ressourcen (z. B. Zeit- und Geldressourcen) eignet. Wenn das Ziel des Einsatzes eines Assessments ein erstes Screening des Risikos von Arbeitsunfähigkeit oder des Bedarfs an entsprechenden Rehabilitationsmaßnahmen ist, eignen sich Screening-Instrumente wie SIBAR, SIMBO und allenfalls WAI; stehen hingegen arbeitsfähigkeitsspezifische Outcome- Messungen im Hinblick auf Wirkungsnachweise im Zentrum, müssen eher Assessments der Produktivität wie iPCQ, VOLP oder allenfalls WPAI verwendet werden, wohingegen sich für die Prävention eines Arbeitsplatzverlustes bei Beschäftigten Assessments wie WLQ oder RA-WIS eignen. Eher komplexe Assessments wie z. B. der iPCQ werden mit Vorteil computerunterstützt ausgewertet, andere Assessments wie beispielsweise der RA-WIS lassen sich sehr einfach händisch auswerten.

Wichtig erscheint primär, dass in Forschung und Praxis vermehrt validierte Assessments angewendet werden, zumal deren Anwendung in der Praxis gesetzlich vorgeschrieben ist oder es bald sein wird (Schweizerische Eidgenossenschaft, 2016). Weiter wäre es wünschenswert, wenn Forschung und Praxis hinsichtlich Assessments zum Thema Arbeitsfähigkeit die Zusammenarbeit interinstitutionell und international intensivieren und einen Diskurs für eine Optimierung, allenfalls Vereinheitlichung und umfassendere Validierung von Assessments, anstoßen würden.

eISSN:
2296-990X
Languages:
English, German
Publication timeframe:
Volume Open
Journal Subjects:
Medicine, Clinical Medicine, other