Hilfe! Statistikfrage am Sonntag

Liebe interessierte Neu-Rabeneltern,

wenn Ihr Euch für das Forum registrieren möchtet, schickt uns bitte eine Mail an kontakt@rabeneltern.org mit eurem Wunschnickname.
Auch bei Fragen erreicht ihr uns unter der obigen Mail-Adresse.

Herzliche Grüße
das Team von Rabeneltern.org
    • Offizieller Beitrag

    Ich hab einen Konten in Hirn, vielleicht kann mir ja eine von euch weiterhelfen.


    Also, ich muss die Daten von 2 Geräten vergleichen. Ich hab dafür Messreihen für Gerät 1 und Gerät 2. Die Messreihe ist auch untergliedert, also:


    Gerät1 Gerät2

    A Z

    B Y

    C X

    D W

    E V

    F U


    Das wäre ja noch machbar, aber man hat ja nicht viel davon 1 Messung pro Gerät zu vergleichen, also hab ich das ganze 15 mal.


    So und jetzt muss ich das ganze irgendwie so sinnvoll darstellen, dass ich zeigen kann, dass sich Gerät 1 und Gerät 2, wenn man 15 mal auf beiden Geräten das gleiche misst, nicht wahnsinnig unterscheiden. Nur wie? #haare


    EDIT: ok, also die Forensoftware mag die Formatierung nicht. A-F gehört zu Gerät 1, U-Z gehört zu Gerät 2.

  • Stichwort Vergleich zweier Verteilungen:


    Du hast also die Verteilung 1 der Messwerte von Gerät 1 und Verteilung 2 der Messwerte von Gerät 2.


    Zunächst mal solltest Du Dir graphisch die Verteilungen an gucken (Histogramm mit geeignetem Binning). Sieht das einigermaßen gaussverteilt aus, wäre z.B. ein T-Test (Vergleich der Mittelwerte) drin, ein F-Test (Vergleich der Varianzen) oder ähnliche Tests.

  • Oder misst Du nicht 15 mal den gleichen Wert?


    Sondern nur einmal mit Gerät 1 und einem mit Gerät 2?


    Dann bilde die Differenz und zeige, dass die Verteilung der Mittwerte der Differenzen annähernd den Mittelwert Null hat und die Varianz klein ist. (Hypothese: Gaussverteilung mit Mittelwert Null)

  • Naja, die Verteilungen sind ja immer unbekannt. Prüfen ob die Voraussetzungen erfüllt sind muss man ja immer.

    Im Rahmen der gängigen Genauigkeit bei unimodalen Verteilungen (prüfen! Deshalb immer, immer, immer Histogramm betrachten!) tut meist der T-Test sein Werk, aber natürlich gibt es unterschiedliche Tests.


    Welche Frage genau beantwortet werden soll, kann nur Almarna beantworten.


    Ich mag den Sachs/ Hedderich Angewandte Statistik gerne, für solche Fragestellungen

    Der fast sehr kompakt zusammen, was die Voraussetzungen für einen speziellen Test sind und welche Frage er beantwortet.

    • Offizieller Beitrag

    ok, ich muss wohl noch etwas ausholen:


    Ich habe 15 verschiedene Proben, die jeweils auf Gerät 1 und auf Gerät 2 gemessen wurden. Also insgesammt 30 Messungen. Jedes Gerät schaut auf 14 verschiedene Points of interest. Ich hab also zu jedem point of interest 30 Messungen, 15 von Gerät1 und 15 von Gerät2 und will die Leistung der beiden Geräte pro point of interest miteinander vergleichen.

  • Ich mag den Sachs/ Hedderich Angewandte Statistik gerne, für solche Fragestellungen

    Der fast sehr kompakt zusammen, was die Voraussetzungen für einen speziellen Test sind und welche Frage er beantwortet.

    Danke für den Tipp, schau ich mir mal an. Mir fehlt bei Tests total die Praxis, wir haben im Studium nur immer bewiesen, dass die Tests tun, was sie sollen; mit Anwendungsbeispielen sah es eher mau aus.

  • T-test scheint mir hier nicht geeignet, der würde ja bei Daten wie


    1 - 10

    2 - 9

    3 - 8

    4 - 7

    5 - 6

    6 - 5

    7 - 4

    8 - 3

    9 - 2

    10 - 1


    keinen Unterschied zwischen den zwei Messungsgruppen feststellen.


    Ich würde hier eher Richtung Korrelation/Regression denken. Zumindest wenn es um die globalen Übereinstimmungen geht (dein letztes Posting verwirrt mich gerade mehr als dass es mir hilft...).

  • ok, ich muss wohl noch etwas ausholen:


    Ich habe 15 verschiedene Proben, die jeweils auf Gerät 1 und auf Gerät 2 gemessen wurden. Also insgesammt 30 Messungen. Jedes Gerät schaut auf 14 verschiedene Points of interest. Ich hab also zu jedem point of interest 30 Messungen, 15 von Gerät1 und 15 von Gerät2 und will die Leistung der beiden Geräte pro point of interest miteinander vergleichen.

    Damit hast Du gepaarte Messungen, richtig? In diesem Fall also kein T-Test und sonst auch nix, was Verteilungen vergleicht.

    Die 14 POI sind egal, Du musst dann halt alles 14 mal machen.


    Erster Schritt, den macht man immer, immer, immer: Rohdaten anschauen!


    Als zweites die Differenz der jeweiligen Paare der Messwerte bilden.


    Also Probe A, POI 1, Gerät 1

    DA=A(POI=1, Gerät=1)-B(POI=1, G=1)

    Probe B

    DB= ....


    U.s.w.


    Dann hast Du im Ergebnis 15 Differenzen. Von denen baust Du als erstes ein Histogramm, um selbst einen Eindruck zu haben.

    Im Idealfall ist es eine unimodale Verteilung mit Mittelwert um die Null und kleiner Standardabweichung. Dann wären dir Abweichungen nur durch Rauschen bedingt.


    Das willst Du dann natürlich auch noch in Zahlen ausdrücken


    Hypothese: Der Mittelwert (der Differenzen ) ist Null.


    So, und an der Stelle bin ich spontan blank und nachgucken kann ich grade nicht.


    Müsste aber zu finden sein. Stichwort wäre Hypothesentest Mittelwert Vergleich.

  • Korrelation wie Anja vorschlägt, ginge natürlich auch. Aber ich befürchte, dass es nicht ganz Deine Fragestellung trifft.



    Da Du die gleiche Eigenschaft der Probe misst, müssen die Messwerte hochgradig korreliert sein, wenn nicht ein Gerät komplett kaputt ist.

  • Wahh, da war ein Fehler oben, es muss heißen


    DA=A(POI=1, G=1)-A((POI=1, G=2)


    DB=B(POI=1, G=1)-B((POI=1, G=2)


    Also immer die Differenz der Messwerte derselben Probe zum selben POI aber mit verschiedenen Geräten, klar?

    • Offizieller Beitrag

    Ich hab mich schlussendlich für Regression entscheiden. Das ist dann auch schön anschaulich für nicht-Techniker in einer Präsentation. Alle datenpunkte liegen schön an der Linie = gut. Die datenpunkte liegen irgendwo = schlecht. :)


    Zum Glück gibt es gute Gründe für den zweiten Fall, wir können das Gerät also guten Gewissens behalten.

  • Doch, der t-Test eignet sich auch für gepaarte Stichproben. In jedem Fall sollte aber die Normalverteilungs getestet werden. Lässt sich auch alles relativ leicht mit Excel machen. Ich gehe davon aus, dass es tatsächlich metrische Daten sind.


    Da du jetzt eine lineare (?) Regression verwendet hast: Auch hier muss natürlich eine Normalverteilung vorliegen. Mit deiner Interpretation bin ich nicht einverstanden, weil sich das höchstens (und dann auch nur näherungsweise) auf die Modellgüte bezieht. Außerdem frage ich mich, wie du die Gruppen vergleichst hier. Bei einer dichotomen unabhängigen Variable machst du mit der Regression nichts anderes als einen t-Wert und der Regressionskoeffizient entspricht dem Unterschied im arithmetischen Mittel.

    Every time you make a typo, the errorists win.

  • Ich hab mich schlussendlich für Regression entscheiden. Das ist dann auch schön anschaulich für nicht-Techniker in einer Präsentation. Alle datenpunkte liegen schön an der Linie = gut. Die datenpunkte liegen irgendwo = schlecht. :)


    Zum Glück gibt es gute Gründe für den zweiten Fall, wir können das Gerät also guten Gewissens behalten.

    Doch, der t-Test eignet sich auch für gepaarte Stichproben. In jedem Fall sollte aber die Normalverteilungs getestet werden. Lässt sich auch alles relativ leicht mit Excel machen. Ich gehe davon aus, dass es tatsächlich metrische Daten sind.


    Da du jetzt eine lineare (?) Regression verwendet hast: Auch hier muss natürlich eine Normalverteilung vorliegen. Mit deiner Interpretation bin ich nicht einverstanden, weil sich das höchstens (und dann auch nur näherungsweise) auf die Modellgüte bezieht. Außerdem frage ich mich, wie du die Gruppen vergleichst hier. Bei einer dichotomen unabhängigen Variable machst du mit der Regression nichts anderes als einen t-Wert und der Regressionskoeffizient entspricht dem Unterschied im arithmetischen Mittel.

    Ich merke grade, dass die Statistik bei mir recht lange her ist.


    Aber Mtn hat recht.

    Für einen ersten Überblick ist so ein Regressionsdiagramm gut. Insbesondere erkennt man Werte, bei denen eine Messung gar nicht geklappt hat schnell. Für eine fundierte statistische Analyse, sie was Mtn gesagt hat.



    Im übrigen ergäbe es auch eine Gerade, wenn ein Gerät einen Offset hat oder immer einen x-fach höherer Wert misst.