Verteilungs- und Gruppierungsreihen. Variationsreihen und statistische Verteilungsreihen Variationsreihen und Methoden ihrer statistischen Verarbeitung

  • Einführungsstunde ist gratis;
  • Eine große Anzahl erfahrener Lehrer (muttersprachlich und russischsprachig);
  • Die Kurse gelten NICHT für einen bestimmten Zeitraum (Monat, sechs Monate, ein Jahr), sondern für eine bestimmte Anzahl von Klassen (5, 10, 20, 50);
  • Mehr als 10.000 zufriedene Kunden.
  • Die Kosten für eine Unterrichtsstunde mit einem russischsprachigen Lehrer - ab 600 Rubel, mit einem Muttersprachler - ab 1500 Rubel

Das Konzept einer Variationsreihe. Der erste Schritt bei der Systematisierung von statistischem Beobachtungsmaterial besteht darin, die Anzahl der Einheiten zu zählen, die dieses oder jenes Merkmal aufweisen. Indem wir die Einheiten in aufsteigender oder absteigender Reihenfolge ihres quantitativen Merkmals anordnen und die Anzahl der Einheiten mit einem bestimmten Wert des Merkmals zählen, erhalten wir eine Variationsreihe. Die Variationsreihe charakterisiert die Verteilung von Einheiten einer bestimmten statistischen Grundgesamtheit nach einem quantitativen Kriterium.

Die Variationsreihe besteht aus zwei Spalten, die linke Spalte zeigt die Werte des variierenden Merkmals, genannt Varianten und bezeichnet mit (x), und die rechte Spalte enthält absolute Zahlen, die angeben, wie oft jede Variante vorkommt. Die Indikatoren in dieser Spalte werden Frequenzen genannt und mit (f) bezeichnet.

Die Variationsreihen lassen sich in Form von Tabelle 5.1 schematisch darstellen:

Tabelle 5.1

Variationsserienansicht

Optionen (x)

Frequenzen (f)

In der rechten Spalte können auch relative Indikatoren verwendet werden, die den Anteil der Häufigkeit einzelner Varianten an der Gesamtsumme der Häufigkeiten charakterisieren. Diese relativen Indikatoren werden Frequenzen genannt und werden üblicherweise durch bezeichnet, d.h. ... Die Summe aller Teile ist gleich eins. Häufigkeiten können auch als Prozentsatz ausgedrückt werden, und dann ergibt ihre Summe 100%.

Unterschiedliche Vorzeichen können unterschiedlicher Natur sein. Varianten einiger Zeichen werden in ganzen Zahlen ausgedrückt, zum Beispiel die Anzahl der Zimmer in einer Wohnung, die Anzahl der veröffentlichten Bücher usw. Diese Zeichen werden als diskontinuierlich oder diskret bezeichnet. Varianten anderer Merkmale können in gewissen Grenzen beliebige Werte annehmen, wie zum Beispiel die Erfüllung von Planzielen, Löhne usw. Diese Merkmale werden als kontinuierlich bezeichnet.

Diskrete Variationsreihen. Wenn die Varianten der Variationsreihe in Form von diskreten Werten ausgedrückt werden, dann heißt eine solche Variationsreihe diskret, ihr Aussehen ist in der Tabelle dargestellt. 5.2:

Tabelle 5.2

Verteilung der Studierenden nach den in der Prüfung erzielten Noten

Noten (x)

Anzahl der Studierenden (w)

In% zum Gesamtwert ()

Die Art der Verteilung in diskreten Reihen wird grafisch in Form eines Verteilungspolygons dargestellt, Bild 5.1.

Reis. 5.1. Verteilung der Studierenden nach den in der Prüfung erzielten Noten.

Intervallvariationsserie. Bei stetigen Merkmalen wird die Variationsreihe als Intervall konstruiert, d.h. die Werte des Attributs in ihnen werden in Form von Intervallen "von und bis" ausgedrückt. In diesem Fall wird der Minimalwert eines Merkmals in einem solchen Intervall als untere Grenze des Intervalls und das Maximum als obere Grenze des Intervalls bezeichnet.

Intervallvariationsserien werden sowohl für diskontinuierliche (diskrete) Merkmale als auch für solche konstruiert, die über einen großen Bereich variieren. Die Abstandsreihen können in gleichen oder ungleichen Abständen sein. In der wirtschaftlichen Praxis werden meistens ungleiche Intervalle verwendet, die sich progressiv erhöhen oder verringern. Ein solcher Bedarf entsteht insbesondere in Fällen, in denen die Variabilität des Merkmals ungleichmäßig und in weiten Grenzen ausgeführt wird.

Betrachten Sie die Art der Intervallreihe mit gleichen Intervallen, Tabelle. 5.3:

Tabelle 5.3

Verteilung der Arbeiter nach Produktion

Generation, tr. (NS)

Anzahl Arbeiter (w)

Kumulative Häufigkeit (f´)

Die Intervallreihe der Verteilung wird in Form eines Histogramms grafisch dargestellt, Bild 5.2.

Abbildung 5.2. Verteilung der Arbeiter nach Produktion

Kumulierte (kumulative) Häufigkeit. In der Praxis besteht die Notwendigkeit, die Verteilungsreihen in kumulative Reihe, basierend auf den akkumulierten Frequenzen. Sie können verwendet werden, um die strukturellen Mittel zu bestimmen, die die Analyse der Daten der Verteilungsreihen erleichtern.

Die akkumulierten Häufigkeiten werden durch sukzessives Addieren zu den Häufigkeiten (oder Teilen) der ersten Gruppe dieser Indikatoren der nachfolgenden Gruppen der Verteilungsreihe bestimmt. Cumulate und Ogives werden verwendet, um die Verteilungsreihen zu veranschaulichen. Um sie darzustellen, werden die Werte des diskreten Merkmals (oder die Enden der Intervalle) auf der Abszissenachse und die steigenden Summen der Häufigkeiten (kumulativ) auf der Ordinatenachse markiert, Abbildung 5.3.

Reis. 5.3. Kumulative Verteilung der Arbeitskräfte nach Produktion

Wenn die Skalen von Häufigkeiten und Varianten vertauscht sind, d.h. die akkumulierten Häufigkeiten auf der Abszissenachse und die Werte der Optionen auf der Ordinatenachse widerspiegeln, dann wird die Kurve, die die Änderung der Häufigkeiten von Gruppe zu Gruppe charakterisiert, als Verteilungsogiven bezeichnet, Abb. 5.4.

Reis. 5.4. Verteilung der Arbeitskräfte für die Produktion

Variationsreihen mit gleichen Intervallen stellen eine der wichtigsten Voraussetzungen für statistische Verteilungsreihen dar, um ihre zeitliche und räumliche Vergleichbarkeit zu gewährleisten.

Verteilungsdichte. Allerdings sind die Häufigkeiten einzelner ungleicher Intervalle in diesen Reihen nicht direkt vergleichbar. Um die notwendige Vergleichbarkeit zu gewährleisten, wird in solchen Fällen die Verteilungsdichte berechnet, d.h. Bestimmen Sie, wie viele Einheiten in jeder Gruppe pro Einheit des Intervalls sind.

Bei der Erstellung eines Diagramms der Verteilung der Variationsreihe mit ungleichen Intervallen wird die Höhe der Rechtecke nicht proportional zu den Häufigkeiten, sondern zu den Indikatoren der Verteilungsdichte der Werte des untersuchten Attributs in den entsprechenden Intervallen bestimmt .

Die Zusammenstellung der Variationsreihen und deren grafische Darstellung ist der erste Schritt zur Verarbeitung der Ausgangsdaten und der erste Schritt in der Analyse der untersuchten Population. Der nächste Schritt bei der Analyse von Variationsreihen besteht darin, die wichtigsten generalisierenden Indikatoren zu bestimmen, die als Merkmale der Reihe bezeichnet werden. Diese Merkmale sollten eine Vorstellung vom Durchschnittswert des Merkmals in Bevölkerungseinheiten geben.

Durchschnittswert... Der Durchschnittswert ist ein verallgemeinertes Merkmal des untersuchten Merkmals in der untersuchten Population, das sein typisches Niveau pro Populationseinheit unter bestimmten räumlichen und zeitlichen Bedingungen widerspiegelt.

Der Durchschnitt wird immer benannt, hat die gleiche Dimension wie das Attribut für einzelne Bevölkerungseinheiten.

Vor der Berechnung der Durchschnittswerte ist es notwendig, die Einheiten der untersuchten Bevölkerung zu gruppieren und die qualitativ homogenen Gruppen hervorzuheben.

Der für die Gesamtbevölkerung berechnete Durchschnitt wird als Gesamtdurchschnitt und für jede Gruppe als Gruppendurchschnitt bezeichnet.

Es gibt zwei Arten von Mittelwerten: Leistung (arithmetisches Mittel, harmonisches Mittel, geometrisches Mittel, quadratisches Mittel); strukturell (Mode, Median, Quartile, Dezile).

Die Wahl des Durchschnitts für die Berechnung hängt vom Verwendungszweck ab.

Arten von Leistungsmittelwerten und Methoden zu ihrer Berechnung. In der Praxis der statistischen Verarbeitung des gesammelten Materials treten verschiedene Probleme auf, für deren Lösung unterschiedliche Mittelwerte erforderlich sind.

Die mathematische Statistik leitet verschiedene Mittelwerte aus Potenzmittelformeln ab:

wo ist der Durchschnittswert; x - einzelne Varianten (charakteristische Werte); z - Exponent (für z = 1 - arithmetisches Mittel, z = 0 geometrisches Mittel, z = - 1 - harmonisches Mittel, z = 2 - mittleres Quadrat).

Die Frage, welche Mittelwertart im Einzelfall angewendet werden muss, wird jedoch durch eine spezifische Analyse der untersuchten Population geklärt.

Die gebräuchlichste Art von Durchschnitt in der Statistik ist arithmetisches Mittel... Es wird in Fällen berechnet, in denen das Volumen des gemittelten Attributs als Summe seiner Werte für einzelne Einheiten der untersuchten statistischen Population gebildet wird.

Je nach Art der Ausgangsdaten wird das arithmetische Mittel auf verschiedene Weise bestimmt:

Wenn die Daten nicht gruppiert sind, erfolgt die Berechnung nach der Formel eines einfachen Mittelwertes

Berechnung des arithmetischen Mittels in einer diskreten Reihe erfolgt nach der Formel 3.4.

Berechnung des arithmetischen Mittels in der Intervallreihe. In der Intervallvariationsserie, bei der die Mitte des Intervalls herkömmlicherweise als Wert eines Merkmals in jeder Gruppe verwendet wird, kann das arithmetische Mittel von dem aus nicht gruppierten Daten berechneten Durchschnitt abweichen. Darüber hinaus sind die möglichen Abweichungen des aus den gruppierten Daten berechneten Mittelwerts von dem aus den nicht gruppierten Daten berechneten Mittelwert umso größer, je größer der Wert des Intervalls in den Gruppen ist.

Bei der Berechnung des Durchschnitts über eine Intervallvariationsreihe gehen sie von den Intervallen zu ihren Mittelpunkten, um die erforderlichen Berechnungen durchzuführen. Und dann wird der Durchschnitt mit der Formel des arithmetischen gewichteten Mittels berechnet.

Eigenschaften des arithmetischen Mittels. Das arithmetische Mittel hat einige Eigenschaften, die es ermöglichen, Berechnungen zu vereinfachen.

1. Das arithmetische Mittel konstanter Zahlen ist gleich dieser konstanten Zahl.

Wenn x = a. Dann .

2. Wenn sich die Gewichte aller Varianten proportional ändern, d.h. um die gleiche Anzahl erhöht oder verringert, dann ändert sich das arithmetische Mittel der neuen Reihe nicht.

Wenn alle Gewichte f um den Faktor k reduziert werden, dann .

3. Die Summe der positiven und negativen Abweichungen der einzelnen Varianten vom Mittelwert multipliziert mit den Gewichten ist gleich Null, d.h.

Wenn, dann. Von hier.

Wenn alle Optionen um eine beliebige Zahl reduziert oder erhöht werden, wird das arithmetische Mittel der neuen Reihe um denselben Betrag verringert oder erhöht.

Alle Optionen reduzieren x auf der ein, d.h. x´ = xA.

Dann

Das arithmetische Mittel der ursprünglichen Reihe erhält man, indem man zum reduzierten Durchschnitt die Zahl addiert, die zuvor von den Optionen abgezogen wurde ein, d.h. ...

5. Wenn alle Optionen um . reduziert oder erhöht werden k mal, dann wird das arithmetische Mittel der neuen Reihe um den gleichen Betrag kleiner oder größer, d.h. In k Einmal.

Lass dann .

Daher, d.h. um den Durchschnitt der Anfangsreihe zu erhalten, muss das arithmetische Mittel der neuen Reihe (mit reduzierten Optionen) um . erhöht werden k Einmal.

Durchschnittlich harmonisch. Das harmonische Mittel ist der Kehrwert des arithmetischen Mittels. Es wird verwendet, wenn statistische Informationen keine Häufigkeiten für einzelne Varianten der Grundgesamtheit enthalten, sondern als deren Produkt (M = xf) dargestellt werden. Das harmonische Mittel wird mit der Formel 3.5 berechnet

Praktische Anwendung des harmonischen Mittels - zur Berechnung einiger Indizes, insbesondere des Preisindex.

Geometrischer Mittelwert. Bei Verwendung des geometrischen Mittels sind die einzelnen Werte des Merkmals in der Regel die relativen Werte der Dynamik, gebildet in Form von Kettengrößen, in Bezug auf die vorherige Ebene jeder Ebene in der Reihe der Dynamik. Der Durchschnitt charakterisiert somit die durchschnittliche Wachstumsrate.

Das geometrische Mittel wird auch verwendet, um den äquidistanten Wert aus den Maximal- und Minimalwerten eines Merkmals zu bestimmen. Beispielsweise schließt eine Versicherungsgesellschaft Verträge über die Erbringung von Aab. Abhängig vom konkreten Versicherungsfall kann die Versicherungsleistung zwischen 10.000 und 100.000 US-Dollar pro Jahr betragen. Der durchschnittliche Versicherungsbetrag beträgt USD.

Der geometrische Mittelwert ist ein Wert, der als Mittelwert von Verhältnissen oder in Verteilungsreihen verwendet wird, die in Form einer geometrischen Progression für z = 0 dargestellt werden. Dieser Mittelwert ist praktisch zu verwenden, wenn nicht auf absolute Unterschiede, sondern auf die Verhältnisse von zwei geachtet wird Zahlen.

Die Formeln für die Berechnung lauten wie folgt

wo sind die Varianten des gemittelten Merkmals; - das Produkt von Optionen; F- Häufigkeit der Optionen.

Das geometrische Mittel wird zur Berechnung der durchschnittlichen jährlichen Wachstumsrate verwendet.

Quadratischer Mittelwert. Die Root-Mean-Square-Formel wird verwendet, um den Grad der Variabilität einzelner Werte eines Merkmals um das arithmetische Mittel in der Verteilungsreihe zu messen. Bei der Berechnung der Variationsindikatoren wird der Durchschnitt aus den Quadraten der Abweichungen der einzelnen Werte des Attributs vom arithmetischen Mittel berechnet.

Der quadratische Mittelwert wird nach der Formel berechnet

In ökonomischen Studien wird der quadratische Mittelwert in modifizierter Form häufig zur Berechnung der Indikatoren für die Variation eines Merkmals verwendet, z. B. Varianz, Standardabweichung.

Mehrheitsregel. Zwischen den Potenzmittelwerten besteht folgender Zusammenhang – je größer der Exponent, desto größer der Mittelwert, Tabelle 5.4:

Tabelle 5.4

Verhältnis zwischen Durchschnittswerten

Z-Wert

Das Verhältnis zwischen den Durchschnitten

Dieses Verhältnis wird Majorantenregel genannt.

Strukturelle Durchschnittswerte. Zur Charakterisierung der Bevölkerungsstruktur werden spezielle Indikatoren verwendet, die als strukturelle Durchschnitte bezeichnet werden können. Zu diesen Indikatoren gehören Mode, Median, Quartile und Dezile.

Mode. Modus (Mo) ist der häufigste Wert eines Merkmals in Bevölkerungseinheiten. Mode ist der Wert des Merkmals, der dem maximalen Punkt der theoretischen Verteilungskurve entspricht.

Mode wird in der kommerziellen Praxis häufig bei der Untersuchung der Verbrauchernachfrage (bei der Bestimmung der Größe von stark nachgefragten Kleidungsstücken und Schuhen) und der Registrierung von Preisen verwendet. Es kann mehrere Mods im Aggregat geben.

Modusberechnung in einer diskreten Zeile. In der diskreten Serie ist der Modus die Variante mit der höchsten Frequenz. Ziehen Sie in Betracht, einen Modus in einer diskreten Reihe zu finden.

Berechnung des Modus in der Intervallreihe. In der Intervallvariationsreihe wird der Modus näherungsweise als die zentrale Version des modalen Intervalls betrachtet, d.h. das Intervall mit der höchsten Frequenz (Frequenz). Innerhalb des Intervalls ist es notwendig, den Wert des Merkmals zu finden, welches der Modus ist. Für eine Intervallserie wird der Modus durch die Formel bestimmt

wo ist die untere Grenze des Modalintervalls; - der Wert des Modalintervalls; - die dem modalen Intervall entsprechende Frequenz; - die Frequenz vor dem modalen Intervall; Ist die Häufigkeit des Intervalls, das dem Modal folgt.

Median. Der Median () ist der Wert des Merkmals in der mittleren Einheit der Rangfolge. Eine Rangfolge ist eine Reihe, in der Kennwerte in auf- oder absteigender Reihenfolge geschrieben werden. Oder der Median ist ein Wert, der die Anzahl einer geordneten Variationsreihe in zwei gleiche Teile teilt: Ein Teil hat einen Wert eines variablen Merkmals, der kleiner als die durchschnittliche Variante ist, und der andere - groß.

Um den Median zu finden, wird zunächst seine Sequenznummer bestimmt. Dazu wird bei einer ungeraden Anzahl von Einheiten eins zur Summe aller Frequenzen addiert und alles durch zwei geteilt. Ist die Anzahl der Einheiten gerade, ergibt sich der Median als Wert des Attributs der Einheit, dessen Ordnungszahl durch die Gesamtsumme der Häufigkeiten dividiert durch zwei bestimmt wird. Wenn man die Ordnungszahl des Medians kennt, ist es leicht, seinen Wert aus den akkumulierten Häufigkeiten zu ermitteln.

Berechnung des Medians in einer diskreten Reihe. Gemäß der Stichprobenerhebung wurden Daten zur Verteilung der Familien nach Kinderzahl erhoben, Tab. 5.5. Um den Median zu bestimmen, bestimmen wir zunächst seine Ordnungszahl

=

Dann werden wir eine Reihe von akkumulierten Häufigkeiten konstruieren (durch die Ordnungszahl und die akkumulierte Häufigkeit finden wir den Median. Die kumulierte Häufigkeit 33 zeigt, dass in 33 Familien die Anzahl der Kinder 1 Kind nicht überschreitet, aber da der Median 50 beträgt, ist die Der Median liegt zwischen 34 und 55 Familien.

Tabelle 5.5

Verteilung der Zahl der Familien nach der Zahl der Kinder

Anzahl Kinder in der Familie

Die Anzahl der Familien ist der Wert des Medianintervalls;

Alle betrachteten Formen des Potenzmittels haben eine wichtige Eigenschaft (im Gegensatz zu den strukturellen Mittelwerten) - alle Werte der Reihe gehen in die Formel zur Mittelwertbildung ein, d.h. die Höhe des Durchschnitts wird durch den Wert jeder Option beeinflusst.

Dies ist einerseits eine sehr positive Eigenschaft, da in diesem Fall wird die Wirkung aller Ursachen berücksichtigt, die alle Einheiten der untersuchten Population betreffen. Andererseits kann selbst eine Beobachtung, die zufällig in die Ausgangsdaten fiel, die Vorstellung vom Entwicklungsstand des untersuchten Merkmals in der betrachteten Population (insbesondere bei kurzen Serien) erheblich verzerren.

Quartile und Dezile. Analog zum Ermitteln des Medians in der Variationsreihe können Sie den Wert des Merkmals für jede Einheit in der Rangreihe ermitteln. So können Sie insbesondere den Wert eines Merkmals in Einheiten ermitteln, die eine Reihe in 4 gleiche Teile, in 10 usw. teilen.

Quartile. Varianten, die eine Rangfolge in vier gleiche Teile unterteilen, werden als Quartile bezeichnet.

Gleichzeitig unterscheiden sie: das untere (oder erste) Quartil (Q1) - den Wert des Attributs in der Einheit der Rangfolge, die die Bevölkerung im Verhältnis ¼ zu ¾ teilt, und das obere (oder dritte) Quartil (Q3 .). ) - der Wert des Attributs in der Einheit der Rangfolge, wobei die Grundgesamtheit im Verhältnis ¾ zu ¼ geteilt wird.

Das zweite Quartil ist der Median Q2 = Me. Das untere und das obere Quartil in der Intervallreihe werden mit einer dem Median ähnlichen Formel berechnet.

wo ist die untere Grenze des Intervalls, das das untere bzw. das obere Quartil enthält;

- die kumulative Häufigkeit des Intervalls, das dem Intervall vorausgeht, das das untere oder obere Quartil enthält;

- Häufigkeit der Quartilsintervalle (untere und obere)

Die Intervalle, die Q1 und Q3 enthalten, werden aus den akkumulierten Frequenzen (oder Teilen) bestimmt.

Dezile. Zusätzlich zu Quartilen werden Dezile berechnet - Optionen, die die Rangfolge in 10 gleiche Teile aufteilen.

Sie werden mit D bezeichnet, das erste Dezil D1 teilt die Reihe im Verhältnis 1/10 und 9/10, das zweite D2 - 2/10 und 8/10 usw. Sie werden nach dem gleichen Schema berechnet wie der Median und die Quartile.

Sowohl Median, Quartile als auch Dezile gehören zur sogenannten Ordinalstatistik, die als Variante verstanden wird, die einen bestimmten Ordinalplatz in der Rangfolge einnimmt.

Gruppierung- Dies ist die Einteilung der Bevölkerung in in gewisser Weise homogene Gruppen.

Servicezweck... Mit dem Online-Rechner können Sie:

  • eine Variationsserie bauen, ein Histogramm und ein Polygon erstellen;
  • Variationsindikatoren finden (Mittelwert, Modus (einschließlich und grafisch), Median, Variationsbereich, Quartile, Dezile, Quartil-Differenzierungskoeffizient, Variationskoeffizient und andere Indikatoren);

Anweisung. Um die Serie zu gruppieren, müssen Sie den Typ der resultierenden Variationsserie (diskret oder Intervall) auswählen und die Datenmenge (Anzahl der Zeilen) angeben. Die resultierende Lösung wird in einer Word-Datei gespeichert (siehe Beispiel für Gruppierungsstatistiken).

Wenn die Gruppierung bereits durchgeführt und angegeben wurde diskrete Variationsreihen oder Intervallserie, dann müssen Sie den Online-Rechner Variationsindikatoren verwenden. Prüfung der Hypothese über die Art der Verteilung erfolgt über den Dienst Studie der Vertriebsform.

Arten von statistischen Gruppierungen

Variationsserie... Bei Beobachtungen einer diskreten Zufallsvariablen kann derselbe Wert mehrmals angetroffen werden. Solche Werte x i einer Zufallsvariablen werden aufgezeichnet und geben n i an, wie oft sie in n Beobachtungen vorkommt. Dies ist die Häufigkeit dieses Wertes.
Bei einer kontinuierlichen Zufallsvariablen wird in der Praxis die Gruppierung verwendet.
  1. Typologische Gruppierung- Dies ist die Einteilung der untersuchten qualitativ heterogenen Bevölkerung in Klassen, sozioökonomische Typen, homogene Gruppen von Einheiten. Verwenden Sie zum Erstellen dieser Gruppierung den Parameter Diskrete Variationsserie.
  2. Eine strukturelle Gruppierung heißt, in dem eine homogene Bevölkerung in Gruppen unterteilt wird, die ihre Struktur nach einem unterschiedlichen Merkmal charakterisieren. Verwenden Sie zum Erstellen dieser Gruppierung den Parameter Intervallserie.
  3. Eine Gruppierung, die die Beziehung zwischen den untersuchten Phänomenen und ihren Merkmalen identifiziert, wird als . bezeichnet analytische Gruppe(siehe analytische Gruppierung einer Reihe).

Beispiel 1. Erstellen Sie gemäß Tabelle 2 Verteilungsreihen für 40 Geschäftsbanken der Russischen Föderation. Bestimmen Sie anhand der erhaltenen Verteilungsreihen: den durchschnittlichen Gewinn pro Geschäftsbank, die durchschnittlichen Kreditinvestitionen pro Geschäftsbank, den Modal- und Medianwert des Gewinns; Quartile, Dezile, Variationsbereich, mittlere lineare Abweichung, Standardabweichung, Variationskoeffizient.

Lösung:
Im Kapitel "Ansicht der statistischen Reihen" Wählen Sie eine diskrete Serie. Klicken Sie auf Aus Excel einfügen. Anzahl der Gruppen: Sturgess-Formel

Grundsätze zum Aufbau statistischer Gruppierungen

Eine Reihe von Beobachtungen, die in aufsteigender Reihenfolge geordnet ist, wird als Variationsreihe bezeichnet. Gruppierungszeichen wird das Attribut genannt, durch das die Bevölkerung in separate Gruppen unterteilt wird. Es wird als Basis der Gruppe bezeichnet. Die Gruppierung kann sowohl nach quantitativen als auch nach qualitativen Merkmalen erfolgen.
Nachdem die Grundlage der Gruppierung festgelegt wurde, muss die Frage nach der Anzahl der Gruppen entschieden werden, in die die untersuchte Bevölkerung eingeteilt werden soll.

Bei der Verwendung von Personalcomputern zur Verarbeitung statistischer Daten erfolgt die Gruppierung von Objekteinheiten unter Verwendung von Standardverfahren.
Eines dieser Verfahren basiert auf der Verwendung der Sturgess-Formel, um die optimale Gruppenanzahl zu bestimmen:

k = 1 + 3,322 * log (N)

Wobei k die Anzahl der Gruppen ist, ist N die Anzahl der Einheiten in der Grundgesamtheit.

Die Länge der Teilintervalle berechnet sich zu h = (x max -x min) / k

Dann zählen Sie die Anzahl der Treffer von Beobachtungen in diesen Intervallen, die als Häufigkeiten n i genommen werden. Kleine Frequenzen, deren Werte kleiner als 5 sind (n i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
Die Mittelpunkte der Intervalle x i = (c i-1 + c i) / 2 werden als neue Werte für die Variante übernommen.

Beispiel Nr. 3. Als Ergebnis von 5% richtiger Zufallsstichprobe wurde die folgende Verteilung der Produkte nach Feuchtigkeitsgehalt erhalten. Berechnen Sie: 1) den durchschnittlichen Feuchtigkeitsgehalt; 2) Indikatoren, die die Feuchtigkeitsschwankungen charakterisieren.
Die Lösung wurde mit einem Taschenrechner erhalten: Beispiel # 1

Konstruiere eine Variationsreihe. Konstruieren Sie ein Verteilungspolygon, Histogramm, kumulativ basierend auf der gefundenen Reihe. Bestimmen Sie Mode und Median.
Lösung herunterladen

Beispiel... Basierend auf den Ergebnissen der selektiven Beobachtung (Probe A, Anhang):
a) eine Variationsreihe zusammenstellen;
b) Berechnen der relativen Häufigkeiten und der akkumulierten relativen Häufigkeiten;
c) ein Polygon bauen;
d) eine empirische Verteilungsfunktion zusammenstellen;
e) Zeichnen Sie die empirische Verteilungsfunktion auf;
f) Berechnen Sie die numerischen Merkmale: arithmetisches Mittel, Varianz, Standardabweichung. Lösung

Führen Sie basierend auf den Daten in Tabelle 4 (Anhang 1) und entsprechend Ihrer Option Folgendes durch:

  1. Konstruieren Sie auf der Grundlage der strukturellen Gruppierung die Variationshäufigkeits- und Summenverteilungsreihe mit gleichen geschlossenen Intervallen, wobei die Anzahl der Gruppen gleich 6 ist. Die Ergebnisse werden in Form einer Tabelle dargestellt und grafisch dargestellt.
  2. Analysieren Sie die Variationsreihe der Verteilung, indem Sie Folgendes berechnen:
    • das arithmetische Mittel des Merkmals;
    • Mode, Median, 1. Quartil, 1. und 9. Dezil;
    • Standardabweichung;
    • der Variationskoeffizient.
  3. Schlussfolgern.

Erforderlich: Um die Reihe zu ordnen, erstellen Sie eine Intervallreihe der Verteilung, berechnen Sie den Mittelwert, die Variabilität des Mittelwerts, den Modus und den Median für die Reihen- und Intervallreihen.

Konstruieren Sie basierend auf den Ausgangsdaten eine diskrete Variationsreihe; präsentieren sie in Form einer statistischen Tabelle und statistischer Grafiken. 2). Konstruieren Sie basierend auf den Ausgangsdaten eine Intervallvariationsserie mit gleichen Intervallen. Wählen Sie die Anzahl der Intervalle selbst und erklären Sie diese Wahl. Präsentieren Sie die erhaltenen Variationsreihen in Form einer statistischen Tabelle und statistischer Grafiken. Geben Sie die verwendeten Tabellen- und Diagrammtypen an.

Zur Ermittlung der durchschnittlichen Betreuungsdauer von Kunden in einer Pensionskasse, deren Kundenzahl sehr groß ist, wurde eine Befragung von 100 Kunden nach dem Schema einer nicht wiederholbaren Zufallsstichprobe durchgeführt. Die Umfrageergebnisse sind in der Tabelle dargestellt. Finden:
a) die Grenzen, innerhalb derer mit einer Wahrscheinlichkeit von 0.9946 die durchschnittliche Dienstzeit aller Kunden der Pensionskasse liegt;
b) die Wahrscheinlichkeit, dass der Anteil aller Kunden des Fonds mit einer Servicedauer von weniger als 6 Minuten vom Anteil dieser Kunden in der Stichprobe um höchstens 10 % (absoluter Wert) abweicht;
c) das Volumen der Wiederholungsstichprobe, bei dem mit einer Wahrscheinlichkeit von 0,9907 argumentiert werden kann, dass der Anteil aller Kunden des Fonds mit einer Servicedauer von weniger als 6 Minuten vom Anteil dieser Kunden an der Stichprobe um no . abweicht mehr als 10 % (in absoluten Werten).
2. Testen Sie anhand der Daten von Problem 1 mit dem X 2 Pearson-Kriterium auf dem Signifikanzniveau α = 0,05 die Hypothese, dass die Zufallsvariable X - Kundendienstzeit - nach dem Normalgesetz verteilt ist. Konstruieren Sie ein Histogramm der empirischen Verteilung und die entsprechende Normalkurve in einer Zeichnung.
Lösung herunterladen

Es wird eine Stichprobe von 100 Elementen gegeben. Notwendig:

  1. Erstellen Sie eine geordnete Variationsreihe;
  2. Finden Sie die maximalen und minimalen Terme der Reihe;
  3. Finden Sie den Variationsbereich und die Anzahl der optimalen Intervalle für die Konstruktion einer Intervallreihe. Finden Sie die Länge des Intervalls der Intervallreihe;
  4. Konstruiere eine Intervallreihe. Finden Sie die Frequenzen der Abtastelemente in den Kompositionsintervallen. Finden Sie die Mittelpunkte jedes Intervalls;
  5. Konstruieren Sie ein Histogramm und ein Frequenzpolygon. Vergleich mit Normalverteilung (analytisch und grafisch);
  6. Plotten Sie die empirische Verteilungsfunktion;
  7. Berechnen der numerischen Merkmale der Stichprobe: Stichprobenmittelwert und zentrales Stichprobenmoment;
  8. Berechnen Sie die ungefähren Werte der Standardabweichung, Schiefe und Kurtosis (mit dem MS Excel-Analysepaket). Vergleichen Sie die ungefähr berechneten Werte mit den genauen (berechnet mit MS Excel-Formeln);
  9. Vergleichen Sie ausgewählte grafische Eigenschaften mit entsprechenden theoretischen.
Lösung herunterladen

Es gibt die folgenden Beispieldaten (10% Probe, mechanisch) über die Leistung und die Höhe des Gewinns, Millionen Rubel. Nach den Ausgangsdaten:
Aufgabe 13.1.
13.1.1. Konstruieren Sie eine statistische Reihe der Verteilung der Unternehmen nach der Höhe des Gewinns, indem Sie in gleichen Abständen fünf Gruppen bilden. Zeichnen Sie die Verteilungsreihe.
13.1.2. Berechnen Sie die numerischen Merkmale einer Reihe von Unternehmensverteilungen nach der Höhe des Gewinns: das arithmetische Mittel, die Standardabweichung, die Varianz, den Variationskoeffizienten V. Ziehen Sie Schlussfolgerungen.
Aufgabe 13.2.
13.2.1. Bestimmen Sie die Grenzen, in denen die Summe des Gewinns eines Unternehmens in der Gesamtbevölkerung mit einer Wahrscheinlichkeit von 0,997 liegt.
13.2.2. Testen Sie mit dem x2-Test nach Pearson auf dem Signifikanzniveau α die Hypothese, dass die Zufallsvariable X – die Höhe des Gewinns – nach dem Normalgesetz verteilt wird.
Aufgabe 13.3.
13.3.1. Bestimmen Sie die Koeffizienten der Beispielregressionsgleichung.
13.3.2. Stellen Sie das Vorhandensein und die Art der Korrelation zwischen den Kosten der produzierten Güter (X) und der Höhe des Gewinns pro Unternehmen (Y) fest. Zeichnen Sie ein Streudiagramm und eine Regressionsgerade.
13.3.3. Berechnen Sie den linearen Korrelationskoeffizienten. Überprüfen Sie mit dem Student-t-Test die Signifikanz des Korrelationskoeffizienten. Ziehen Sie mithilfe der Chaddock-Skala eine Schlussfolgerung über die Enge der Beziehung zwischen den Faktoren X und Y.
Richtlinien... Aufgabe 13.3 wird mit diesem Dienst ausgeführt.
Lösung herunterladen

Eine Aufgabe... Die folgenden Daten stellen die Zeit dar, die Kunden für den Abschluss von Verträgen aufgewendet haben. Konstruieren Sie eine Intervallvariationsserie der präsentierten Daten, ein Histogramm, finden Sie eine unverzerrte Schätzung der mathematischen Erwartung, eine verzerrte und unverzerrte Schätzung der Varianz.

Ein Beispiel. Gemäß Tabelle 2:
1) Zeichnen Sie die Verteilungsreihen für 40 Geschäftsbanken in der Russischen Föderation:
A) in Höhe des Gewinns;
B) um die Höhe der Kreditinvestitionen.
2) Bestimmen Sie anhand der erhaltenen Verteilungsreihe:
A) durchschnittlicher Gewinn einer Geschäftsbank;
B) Kreditinvestitionen im Durchschnitt einer Geschäftsbank;
C) Modal- und Mediangewinnwerte; Quartile, Dezile;
D) Modalwert und Medianwert der Kreditinvestitionen.
3) Berechnen Sie nach der in Punkt 1 erhaltenen Verteilungsreihe:
a) die Variationsbreite;
b) durchschnittliche lineare Abweichung;
c) Standardabweichung;
d) Variationskoeffizient.
Füllen Sie die erforderlichen Berechnungen in Tabellenform aus. Analysieren Sie die Ergebnisse. Schlussfolgerungen.
Plotten Sie die erhaltene Verteilungsreihe. Definieren Sie grafisch Mode und Median.

Lösung:
Um in gleichen Abständen eine Gruppierung aufzubauen, verwenden wir den statistischen Datendienst Gruppierung.

Abbildung 1 - Parameter eingeben

Parameterbeschreibung
Anzahl der Zeilen: die Menge der Rohdaten. Wenn die Abmessung der Serie klein ist, geben Sie ihre Nummer an. Wenn die Auswahl groß genug ist, klicken Sie auf die Schaltfläche Aus Excel einfügen.
Anzahl Gruppen: 0 - die Anzahl der Gruppen wird durch die Sturgess-Formel bestimmt.
Wenn es eine bestimmte Anzahl von Gruppen gibt, geben Sie diese an (z. B. 5).
Reihenansicht: Diskrete Serie.
Signifikanzniveau: zum Beispiel 0,954. Dieser Parameter wird eingestellt, um das Vertrauensintervall für den Mittelwert zu definieren.
Stichprobe: Beispielsweise wurde eine 10 % mechanische Probenahme durchgeführt. Wir geben die Zahl 10 an. Für unsere Daten geben wir 100 an.

Eine Gruppe von Zahlen, die durch ein Zeichen verbunden sind, heißt Aggregat.

Wie oben erwähnt, ist das primäre statistische Sportmaterial eine Gruppe verstreuter Zahlen, die dem Trainer keine Vorstellung vom Wesen eines Phänomens oder Prozesses geben. Die Herausforderung besteht darin, aus dieser Sammlung ein System zu machen und anhand seiner Indikatoren die benötigten Informationen zu erhalten.

Die Zusammenstellung einer Variationsreihe ist genau die Bildung einer bestimmten mathematischen

Beispiel 2. 34 Athleten-Skifahrer zeichneten die folgende Pulserholungszeit nach dem Zurücklegen der Distanz auf (in Sekunden):

81; 78: 84; 90; 78; 74; 84; 85; 81; 84: 79; 84; 74; 84; 84;

85; 81; 84; 78: 81; 74; 84; 81; 84; 85; 81; 78; 81; 81; 84;

Wie Sie sehen, enthält diese Zahlengruppe keine Informationen.

Um eine Variationsreihe zu erstellen, führen wir zuerst die Operation aus Rangfolge - Zahlen in aufsteigender oder absteigender Reihenfolge anordnen. In aufsteigender Reihenfolge ergibt die Rangfolge beispielsweise Folgendes;

78; 78; 78; 78; 78; 78;

81; 81; 81; 81; 81; 81; 81; 81; 81;

84; 84; 84; 84; 84; 84; 84; 84; 84; 84; 84;

In absteigender Reihenfolge ergibt die Rangfolge eine Gruppe von Zahlen wie folgt:

84; 84; 84; 84; 84; 84; 84; 84: 84: 84; 84;

81; 81; 81; 81; 8!; 81: 81; 81; 81;

78; 78; 78; 78; 78; 78;

Nach dem Ranking wird die irrationale Schreibweise dieser Zahlengruppe deutlich – die gleichen Zahlen werden viele Male wiederholt. Daher entsteht ein natürlicher Gedanke, den Datensatz so umzuwandeln, dass er anzeigt, welche Zahl wie oft wiederholt wird. Zum Beispiel bei der Rangfolge in aufsteigender Reihenfolge:

Hier links eine Zahl, die die Erholungszeit des Pulses des Sportlers angibt, rechts die Anzahl der Wiederholungen dieser Angabe in dieser Gruppe von 34 Sportlern.

In Übereinstimmung mit den obigen Konzepten der mathematischen Symbole wird die betrachtete Gruppe von Messungen mit einem Buchstaben bezeichnet, beispielsweise x. Angesichts der aufsteigenden Zahlen in dieser Gruppe: x 1 -74 s; x 2 - 78 s; x 3 - 81 s; x 4 - 84 s; x 5 - 85 s; x 6 -x n - 90 s, jede betrachtete Zahl kann mit dem Symbol X i bezeichnet werden.

Bezeichnen wir die Anzahl der Wiederholungen der betrachteten Messungen mit dem Buchstaben n. Dann:

n 1 = 4; n2 = 6; n3 = 9; n4 = 11; n 5 = 3, n 6 = n n = 1, und jede Anzahl von Wiederholungen kann als n i bezeichnet werden.

Die Gesamtzahl der durchgeführten Messungen beträgt, wie sich aus der Bedingung des Beispiels ergibt, 34. Das heißt, die Summe aller n ist 34. Oder symbolisch:

Bezeichnen wir diese Summe mit einem Buchstaben - n. Dann können die Ausgangsdaten des betrachteten Beispiels in dieser Form geschrieben werden (Tabelle 1).

Die resultierende Zahlengruppe ist eine transformierte Reihe chaotisch verstreuter Messwerte, die der Trainer zu Beginn der Arbeit erhalten hat.

Tabelle 1

x ich n ich
n = 34

Eine solche Gruppe stellt ein spezifisches System dar, dessen Parameter die durchgeführten Messungen charakterisieren. Die Zahlen, die die Messergebnisse (x i) darstellen, heißen Optionen; n i - die Anzahl ihrer Wiederholungen - heißen Frequenzen; n - die Summe aller Häufigkeiten - ja das Bevölkerungsvolumen.

Das gesamte resultierende System heißt Variationsreihe. Diese Reihen werden manchmal als empirisch oder statistisch bezeichnet.

Es ist leicht zu erkennen, dass ein Spezialfall einer Variationsreihe möglich ist, wenn alle Frequenzen gleich eins n i == 1 sind, dh jede Messung in einer gegebenen Zahlengruppe kommt nur einmal vor.

Die resultierende Variationsreihe kann wie jede andere grafisch dargestellt werden. Um die resultierende Reihe zu zeichnen, müssen Sie sich zunächst auf den Maßstab auf der horizontalen und vertikalen Achse einigen.

In diesem Problem werden wir auf der horizontalen Achse die Werte der Impulserholungszeit (x 1) so auftragen, dass die willkürlich gewählte Längeneinheit dem Wert einer Sekunde entspricht. Wir werden diese Werte ab 70 Sekunden verschieben und konventionell vom Schnittpunkt der beiden Achsen 0 abweichen.

Auf der vertikalen Achse verschieben wir die Werte der Frequenzen unserer Reihe (n i) nach der Skala: Die Längeneinheit ist gleich der Frequenzeinheit.

Nachdem wir so die Bedingungen für das Zeichnen des Graphen vorbereitet haben, fahren wir mit der erhaltenen Variationsreihe fort.

Das erste Zahlenpaar x 1 = 74, n 1 = 4 ist im Graphen wie folgt aufgetragen: auf der x-Achse; finden x 1 =74 und stellen Sie die Senkrechte von diesem Punkt aus wieder her, finden Sie n 1 = 4 auf der n-Achse und ziehen Sie eine horizontale Linie davon, bis sie die zuvor wiederhergestellte Senkrechte schneidet. Beide Linien - vertikal und horizontal - sind Hilfslinien und werden daher mit einer gestrichelten Linie auf die Zeichnung aufgetragen. Ihr Schnittpunkt ist auf der Skala dieses Diagramms das Verhältnis X 1 = 74 und n 1 = 4.

Alle anderen Punkte des Graphen werden auf die gleiche Weise aufgetragen. Dann werden sie durch Liniensegmente verbunden. Damit der Graph eine geschlossene Form hat, verbinden wir die Extrempunkte mit Segmenten mit den benachbarten Punkten der horizontalen Achse.

Die resultierende Abbildung ist eine Grafik unserer Variationsreihe (Abb. 1).

Es ist ziemlich klar, dass jede Variationsreihe durch einen eigenen Graphen dargestellt wird.

Reis. 1. Grafische Darstellung der Variationsreihe.

In Abb. 1 zeigt:

1) von allen Befragten bestand die größte Gruppe aus Sportlern, deren Pulserholungszeit 84 s betrug;

2) für viele beträgt diese Zeit 81 s;

3) Die kleinste Gruppe bestand aus Sportlern mit einer kurzen Pulserholungszeit - 74 s und einer langen - 90 s.

Daher sollte man nach einer Reihe von Tests die erhaltenen Zahlen ordnen und eine Variationsreihe erstellen, die ein bestimmtes mathematisches System ist. Der Übersichtlichkeit halber können die Variationsreihen mit einer Grafik illustriert werden.

Die obige Variationsreihe heißt auch diskret next - eine, in der jede Option durch eine Zahl ausgedrückt wird.

Hier sind einige weitere Beispiele, wie man Variationsreihen komponiert.

Beispiel 3. 12 Schützen, die eine 10-Schuss-Liegeübung durchführten, zeigten die folgenden Ergebnisse (mit Brille):

94; 91; 96; 94; 94; 92; 91; 92; 91; 95; 94; 94.

Um eine Variationsreihe zu bilden, werden wir diese Zahlen ordnen;

94; 94; 94; 94; 94;

Nach dem Ranking stellen wir eine Variationsreihe zusammen (Tabelle 3).

Die Gesamtheit von Gegenständen oder Phänomenen, die durch ein gemeinsames Merkmal oder eine Eigenschaft qualitativer oder quantitativer Natur vereint sind, wird genannt Beobachtungsobjekt .

Jedes statistische Beobachtungsobjekt besteht aus einzelnen Elementen - Beobachtungseinheiten .

Statistische Beobachtungsergebnisse sind numerische Informationen - Daten . Statistische Daten - Dies sind Informationen darüber, welche Werte das für den Forscher interessante Attribut in der statistischen Population angenommen hat.

Wenn die Werte eines Merkmals in Zahlen ausgedrückt werden, dann heißt das Merkmal quantitativ .

Wenn ein Merkmal eine Eigenschaft oder einen Zustand der Elemente einer Menge charakterisiert, dann heißt das Merkmal Qualität .

Werden alle Elemente der Grundgesamtheit untersucht (kontinuierliche Beobachtung), dann heißt die statistische Grundgesamtheit Allgemeines.

Wenn ein Teil der Elemente der Allgemeinbevölkerung erforscht wird, dann heißt die statistische Population Probe (Probe) ... Die Stichprobe aus der Allgemeinbevölkerung wird nach dem Zufallsprinzip gezogen, sodass jedes der n Stichprobenelemente die gleiche Chance hat, ausgewählt zu werden.

Die Werte des Attributs ändern (variieren) beim Wechsel von einem Element der Bevölkerung zu einem anderen, daher werden in der Statistik auch verschiedene Werte des Attributs genannt Optionen ... Varianten werden meist mit kleinen lateinischen Buchstaben x, y, z bezeichnet.

Die laufende Nummer der Variante (Merkmalswert) heißt Rang ... x 1 - 1. Option (1. Attributwert), x 2 - 2. Option (2. Attributwert), x i - i-te Option (i-ter Attributwert).

Eine Reihe von Werten eines Merkmals (Varianten), die in aufsteigender oder absteigender Reihenfolge mit ihren entsprechenden Gewichten geordnet sind, heißt Variationsreihen (Verteilungsreihen).

Als Waage Frequenzen oder Frequenzen herauskommen.

Frequenz(m i) zeigt an, wie oft eine bestimmte Option (Merkmalswert) in einer statistischen Population vorkommt.

Häufigkeit oder relative Häufigkeit(w i) zeigt, welcher Teil der Bevölkerungseinheiten diese oder jene Variante hat. Die Häufigkeit wird als Verhältnis der Häufigkeit einer bestimmten Option zur Summe aller Häufigkeiten in der Reihe berechnet.

. (6.1)

Die Summe aller Frequenzen ist 1.

. (6.2)

Variationsreihen sind diskret und intervallartig.

Diskrete Variationsserien Sie werden normalerweise konstruiert, wenn die Werte des zu untersuchenden Merkmals um mindestens einen endlichen Wert voneinander abweichen können.

In diskreten Variationsreihen werden Punktwerte des Merkmals festgelegt.

Die allgemeine Ansicht der diskreten Variationsreihen ist in Tabelle 6.1 dargestellt.

Tabelle 6.1

wobei i = 1, 2, ..., l.

In den Intervallvariationsserien in jedem Intervall werden die oberen und unteren Grenzen des Intervalls unterschieden.

Die Differenz zwischen der oberen und unteren Grenze des Intervalls heißt Intervalldifferenz oder die Länge (Wert) des Intervalls .

Der Wert des ersten Intervalls k 1 wird durch die Formel bestimmt:

k 1 = a2 - a1;

zweitens: k 2 = ein 3 - ein 2; ...

zuletzt: k l = ein l - ein l -1.

Allgemein Intervalldifferenz k i wird nach der Formel berechnet:

k i = x i (max) – x i (min). (6.3)

Wenn das Intervall beide Grenzen hat, heißt es geschlossen .

Die ersten und letzten Intervalle können sein offen , d.h. haben nur eine Grenze.

Zum Beispiel kann das erste Intervall als "bis 100", das zweite - "100-110", ..., das vorletzte - "190-200", das letzte - "200 oder mehr" angegeben werden. Offensichtlich hat das erste Intervall keinen unteren Rand und das letzte keinen oberen, beide sind offen.

Offene Intervalle müssen oft bedingt geschlossen werden. Dazu wird der Wert des ersten Intervalls normalerweise gleich dem Wert des zweiten und der Wert des letzten - der Wert des vorletzten. In unserem Beispiel beträgt der Wert des zweiten Intervalls 110-100 = 10, daher ist die untere Grenze des ersten Intervalls bedingt 100-10 = 90; der Wert des vorletzten Intervalls beträgt 200-190 = 10, daher beträgt die Obergrenze des letzten Intervalls bedingt 200 + 10 = 210.

Außerdem können in der Intervallvariationsreihe Intervalle unterschiedlicher Länge auftreten. Haben die Intervalle in der Variationsreihe die gleiche Länge (Intervalldifferenz), heißen sie gleich , sonst - ungleich.

Bei der Konstruktion einer Intervallvariationsreihe stellt sich häufig das Problem der Wahl der Größe der Intervalle (Intervalldifferenz).

Um die optimale Größe der Intervalle zu bestimmen (für den Fall, dass eine Serie mit gleichen Intervallen erstellt wird), verwenden Sie Sturgess-Formel:

, (6.4)

wobei n die Anzahl der Einheiten in der Grundgesamtheit ist,

x (max) und x (min) sind die größten und kleinsten Werte der Optionen in der Reihe.

Um die Variationsreihen zusammen mit Frequenzen und Frequenzen zu charakterisieren, werden die akkumulierten Frequenzen und Frequenzen verwendet.

Akkumulierte Frequenzen (Frequenzen) zeigen, wie viele Einheiten der Bevölkerung (welcher Teil davon) einen bestimmten Wert nicht überschreiten (Option) x.

Akkumulierte Frequenzen ( ich bin) nach den Daten der diskreten Reihe kann mit folgender Formel berechnet werden:

. (6.5)

Bei einer Intervallvariationsreihe ist es die Summe der Häufigkeiten (Frequenzen) aller Intervalle, die dieses nicht überschreiten.

Eine diskrete Variationsreihe kann grafisch dargestellt werden mit Häufigkeits- oder Häufigkeitsverteilungspolygon.

Beim Konstruieren eines Verteilungspolygons werden die Werte des Merkmals (Varianten) entlang der Abszissenachse und Häufigkeiten oder Häufigkeiten entlang der Ordinatenachse aufgetragen. Am Schnittpunkt der Werte des Attributs und der entsprechenden Häufigkeiten (Frequenzen) werden Punkte gelegt, die wiederum durch Segmente verbunden sind. Die resultierende gestrichelte Linie wird als Häufigkeits-(Häufigkeits-)Verteilungspolygon bezeichnet.

x k
x 2
x 1 x ich


Reis. 6.1.

Intervallvariationsreihen können grafisch dargestellt werden mit Histogramme, d.h. Balkendiagramm.

Beim Erstellen eines Histogramms entlang der Abszissenachse werden die Werte des untersuchten Merkmals (die Grenzen der Intervalle) aufgetragen.

Für den Fall, dass die Intervalle gleich groß sind, können entlang der Ordinate Frequenzen oder Frequenzen aufgetragen werden.

Wenn die Intervalle unterschiedliche Werte haben, sollten die Werte der absoluten oder relativen Verteilungsdichte entlang der Ordinatenachse aufgetragen werden.

Absolute Dichte- das Verhältnis der Häufigkeit des Intervalls zum Wert des Intervalls:

; (6.6)

wobei: f (a) i die absolute Dichte des i-ten Intervalls ist;

m i - Häufigkeit des i-ten Intervalls;

k i - Wert des i-ten Intervalls (Intervalldifferenz).

Die absolute Dichte gibt an, wie viele Bevölkerungseinheiten pro Einheitsintervall sind.

Relative Dichte- das Verhältnis der Häufigkeit des Intervalls zum Wert des Intervalls:

; (6.7)

wobei: f (o) i die relative Dichte des i-ten Intervalls ist;

w i - Häufigkeit des i-ten Intervalls.

Die relative Dichte gibt an, wie viele der Bevölkerungseinheiten in der Intervalleinheit liegen.

ein l
a 1 x i
ein 2

Sowohl diskrete als auch intervallartige Variationsreihen können grafisch als Kumulate und Ogiven dargestellt werden.

Beim Bauen kumuliert Entsprechend den Daten der diskreten Reihe werden die Werte des Merkmals (Varianten) entlang der Abszissenachse und die akkumulierten Häufigkeiten oder Häufigkeiten entlang der Ordinatenachse aufgetragen. Am Schnittpunkt der Werte des Merkmals (Optionen) und der entsprechenden akkumulierten Häufigkeiten (Frequenzen) werden Punkte gebildet, die wiederum durch Segmente oder eine Kurve verbunden sind. Die resultierende gestrichelte Linie (Kurve) wird als kumulativ (kumulative Kurve) bezeichnet.

Bei der Bildung von Kumulaten gemäß den Daten der Intervallreihen werden die Grenzen der Intervalle entlang der Abszissenachse aufgetragen. Die Abszissen der Punkte sind die oberen Grenzen der Intervalle. Die Ordinaten bilden die akkumulierten Frequenzen (Frequenzen) der entsprechenden Intervalle. Häufig wird ein weiterer Punkt hinzugefügt, dessen Abszisse die untere Grenze des ersten Intervalls ist und dessen Ordinate Null ist. Wenn wir die Punkte mit Segmenten oder einer Kurve verbinden, erhalten wir die Summe.

Ogiva ist ähnlich wie das Kumulativ aufgebaut, mit dem einzigen Unterschied, dass die den akkumulierten Häufigkeiten (Teilen) entsprechenden Punkte auf der Abszissenachse und die Attributwerte (Varianten) entlang der Ordinatenachse aufgetragen sind.

Statistische Verteilungsreihen- Dies ist eine geordnete Verteilung von Bevölkerungseinheiten in Gruppen nach einem bestimmten unterschiedlichen Merkmal.
Je nach dem Merkmal, das der Bildung einer Verteilungsreihe zugrunde liegt, unterscheiden sie sich Attributive und Variationsreihen der Verteilung.

Das Vorhandensein eines gemeinsamen Merkmals ist die Grundlage für die Bildung einer statistischen Grundgesamtheit, die das Ergebnis der Beschreibung oder Messung gemeinsamer Merkmale der Untersuchungsgegenstände ist.

Das Studienfach Statistik sind wechselnde (wechselnde) Vorzeichen oder statistische Vorzeichen.

Arten von statistischen Funktionen.

Verteilungsreihen heißen attributiv nach Qualitätskriterien. Attributiv Ist ein Schild, das einen Namen hat (zB Beruf: Näherin, Lehrerin etc.).
Es ist üblich, mehrere Verteilungen in Form von Tabellen anzuordnen. Tisch 2.8 zeigt die attributive Verteilungsreihe.
Tabelle 2.8 - Verteilung der Arten der Rechtshilfe durch Rechtsanwälte für Bürger einer der Regionen der Russischen Föderation.

Variationsserie Sind die Werte des Merkmals (oder Werteintervalle) und deren Häufigkeiten.
Die Verteilungsreihen heißen Variationsreihen quantitativ aufgebaut. Jede Variationsserie besteht aus zwei Elementen: Optionen und Frequenzen.
Als Varianten gelten die einzelnen Werte des Merkmals, die es in der Variantenreihe einnimmt.
Häufigkeiten sind die Anzahl der einzelnen Varianten bzw. jeder Gruppe der Variantenreihen, d.h. das sind Zahlen, die zeigen, wie oft bestimmte Varianten in der Verteilungsreihe vorkommen. Die Summe aller Häufigkeiten bestimmt die Größe der Gesamtpopulation, ihr Volumen.
Häufigkeiten sind Häufigkeiten, die in Bruchteilen von 1 oder als Prozentsatz der Gesamtzahl ausgedrückt werden. Dementsprechend beträgt die Summe der Frequenzen 1 oder 100 %. Die Variationsreihe ermöglicht es, die Form des Verteilungsgesetzes basierend auf tatsächlichen Daten abzuschätzen.

Je nach Art der Variation des Merkmals werden sie unterschieden diskrete und intervallartige Variationsreihen.
Ein Beispiel für eine diskrete Variationsreihe ist in der Tabelle angegeben. 2.9.
Tabelle 2.9 - Verteilung der Familien nach der Anzahl der belegten Zimmer in einzelnen Wohnungen im Jahr 1989 in der Russischen Föderation.

Die erste Spalte der Tabelle stellt die Varianten der diskreten Variationsreihen dar, die zweite Spalte enthält die Häufigkeiten der Variationsreihen, die dritte - die Häufigkeitsindizes.

Variationsserie

In der Allgemeinbevölkerung wird ein gewisses quantitatives Merkmal untersucht. Eine Volumenprobe wird zufällig daraus gezogen n, d. h. die Anzahl der Elemente in der Stichprobe ist n... In der ersten Phase der statistischen Verarbeitung, Reichweite Probenahme, d.h. Nummern Ordnen x 1, x 2, ..., x n Aufsteigend. Jeder beobachtete Wert x ich namens Variante... Frequenz ich bin Ist die Anzahl der Beobachtungen des Wertes x ich in der Probe. Relative Häufigkeit (Häufigkeit) ich bin Ist das Frequenzverhältnis ich bin zur Stichprobengröße n: .
Beim Studium der Variationsreihen werden auch die Konzepte der akkumulierten Häufigkeit und der akkumulierten Häufigkeit verwendet. Lassen x irgendeine Zahl. Dann die Anzahl der Optionen , deren Werte kleiner sind x, heißt akkumulierte Frequenz: für x i n heißt die akkumulierte Frequenz w i max.
Ein Merkmal wird als diskret variiert bezeichnet, wenn sich seine einzelnen Werte (Varianten) um einen endlichen Wert (meist eine ganze Zahl) voneinander unterscheiden. Die Variationsreihe eines solchen Merkmals wird als diskrete Variationsreihe bezeichnet.

Tabelle 1. Gesamtansicht der diskreten Variationsreihen von Frequenzen

Charakteristische Wertex ich x 1 x 2 x nein
Frequenzenich bin m 1 m2 m n

Ein Merkmal wird als kontinuierlich variierend bezeichnet, wenn seine Werte um einen beliebig kleinen Betrag voneinander abweichen, d.h. das Attribut kann beliebige Werte in einem bestimmten Intervall annehmen. Eine kontinuierliche Variationsreihe für ein solches Merkmal wird Intervall genannt.

Tabelle 2. Allgemeine Ansicht der Intervallvariationsreihen von Frequenzen

Tabelle 3. Grafische Darstellungen der Variantenserien

Die ZeilePolygon oder HistogrammEmpirische Verteilungsfunktion
Diskret
Intervall
Betrachtet man die Ergebnisse der Beobachtungen, bestimmen sie, wie viele Werte der Optionen in jedes bestimmte Intervall fielen. Es wird angenommen, dass jedes Intervall zu einem seiner Enden gehört: entweder ist es in allen Fällen links (häufiger) oder in allen Fällen rechts, und die Häufigkeiten oder Häufigkeiten zeigen die Anzahl der Optionen, die in den angegebenen Grenzen eingeschlossen sind. Unterschiede ein ich - ein ich +1 werden Teilintervalle genannt. Um spätere Berechnungen zu vereinfachen, kann die Intervallvariationsreihe durch eine herkömmlich diskrete ersetzt werden. In diesem Fall ist der Medianwert ich-tes Intervall wird als Variante genommen x ich, und die entsprechende Intervallfrequenz ich bin- für die Häufigkeit dieses Intervalls.
Zur grafischen Darstellung von Variationsreihen werden am häufigsten Polygon, Histogramm, Summenkurve und empirische Verteilungsfunktion verwendet.

Tisch 2.3 (Gruppierung der Bevölkerung Russlands nach durchschnittlichem Pro-Kopf-Einkommen im April 1994) wird vorgestellt Intervallvariationsserie.
Es ist praktisch, Verteilungsreihen mit Hilfe eines grafischen Bildes zu analysieren, das es ermöglicht, die Form der Verteilung zu beurteilen. Eine klare Vorstellung von der Art der Änderung der Frequenzen der Variationsreihe ist gegeben durch Polygon und Histogramm.
Das Polygon wird verwendet, wenn diskrete Variationsreihen angezeigt werden.
Stellen wir uns beispielsweise die Verteilung des Wohnungsbestandes nach Wohnungstypen grafisch dar (Tabelle 2.10).
Tabelle 2.10 - Verteilung des Wohnungsbestandes des Stadtgebiets nach Wohnungstypen (beliebige Nummern).


Reis. Wohnungsbestandsverteilungspolygon


Auf der Ordinatenachse können nicht nur die Werte von Frequenzen, sondern auch die Frequenzen der Variationsreihen aufgetragen werden.
Das Histogramm wird für das Bild der Intervallvariationsreihe erstellt... Beim Erstellen eines Histogramms werden die Werte der Intervalle auf der Abszissenachse aufgetragen und die Häufigkeiten werden durch Rechtecke dargestellt, die in den entsprechenden Intervallen gebildet werden. Die Höhe der Balken sollte bei gleichem Abstand proportional zu den Frequenzen sein. Ein Histogramm ist ein Diagramm, in dem eine Reihe in Form von nebeneinander liegenden Balken dargestellt wird.
Lassen Sie uns die in der Tabelle angegebenen Intervallverteilungsreihen grafisch darstellen. 2.11.
Tabelle 2.11 - Verteilung der Familien nach Wohnfläche pro Person (willkürliche Zahlen).
N p / p Familiengruppen nach Wohnfläche pro Person Die Anzahl der Familien mit einer bestimmten Wohnfläche Kumulierte Anzahl von Familien
1 3 – 5 10 10
2 5 – 7 20 30
3 7 – 9 40 70
4 9 – 11 30 100
5 11 – 13 15 115
GESAMT 115 ----


Reis. 2.2. Histogramm der Verteilung der Familien nach Wohnfläche pro Person


Mit den Daten der akkumulierten Reihe (Tabelle 2.11) konstruieren wir kumulative Verteilung.


Reis. 2.3. Kumulierte Verteilung der Familien nach Wohnfläche pro Person


Die Darstellung der Variationsreihen in Form von Kumulaten ist besonders effektiv für Variationsreihen, deren Häufigkeiten in Bruchteilen oder Prozentsätzen zur Summe der Häufigkeiten der Reihe ausgedrückt werden.
Wenn wir bei der grafischen Darstellung der Variationsreihen in Form von Kumulaten die Achsen ändern, erhalten wir spitz... In Abb. 2.4 zeigt die auf der Grundlage der Daten in Tabelle gebaute Ogive. 2.11.
Ein Histogramm kann in ein Verteilungspolygon umgewandelt werden, indem die Mittelpunkte der Seiten der Rechtecke ermittelt und diese Punkte dann mit geraden Linien verbunden werden. Das resultierende Verteilungspolygon ist in Abb. 2.2 mit gestrichelter Linie.
Beim Erstellen eines Histogramms der Verteilung der Variationsreihen mit ungleichen Intervallen auf der Ordinatenachse werden nicht die Häufigkeiten aufgetragen, sondern die Dichte der Merkmalsverteilung in den entsprechenden Intervallen.
Die Verteilungsdichte ist die pro Einheitsintervallbreite berechnete Häufigkeit, d.h. wie viele Einheiten in jeder Gruppe pro Einheit des Intervalls sind. Ein Beispiel für die Berechnung der Verteilungsdichte ist in der Tabelle dargestellt. 2.12.
Tabelle 2.12 - Verteilung der Unternehmen nach Anzahl der Beschäftigten (bedingte Zahlen)
N p / p Unternehmensgruppen nach Anzahl der Beschäftigten, Personen Anzahl Unternehmen Intervallgröße, Personen Verteilungsdichte
ABER 1 2 3=1/2
1 Bis zu 20 15 20 0,75
2 20 – 80 27 60 0,25
3 80 – 150 35 70 0,5
4 150 – 300 60 150 0,4
5 300 – 500 10 200 0,05
GESAMT 147 ---- ----

Zur grafischen Darstellung von Variationsreihen auch verwendbar Summenkurve... Mit Hilfe von Kumulaten (Summenkurve) wird eine Reihe von akkumulierten Häufigkeiten angezeigt. Die akkumulierten Häufigkeiten werden durch sequentielles Summieren der Häufigkeiten nach Gruppen bestimmt und zeigen, wie viele Einheiten der Grundgesamtheit einen Merkmalswert haben, der nicht größer als der berücksichtigte Wert ist.


Reis. 2.4. Verteilung der Familien nach Wohnfläche pro Person

Bei der Bildung der Kumulate der Intervallvariationsreihen werden die Zeilenvarianten entlang der Abszissenachse aufgetragen und die akkumulierten Häufigkeiten werden entlang der Ordinatenachse aufgetragen.

Kontinuierliche Variationsserie

Kontinuierliche Variationsreihen sind eine Reihe, die auf der Grundlage eines quantitativen statistischen Merkmals erstellt wurde. Ein Beispiel. Die durchschnittliche Krankheitsdauer von Strafgefangenen (Tage pro Person) in der Herbst-Winter-Periode im laufenden Jahr betrug:
7,0 6,0 5,9 9,4 6,5 7,3 7,6 9,3 5,8 7,2
7,1 8,3 7,5 6,8 7,1 9,2 6,1 8,5 7,4 7,8
10,2 9,4 8,8 8,3 7,9 9,2 8,9 9,0 8,7 8,5


Ähnliche Veröffentlichungen