x의 평균값을 계산하는 공식입니다. 분포의 평균, 분산 및 모양을 결정합니다. 기술통계

대부분의 경우 데이터는 일부 중앙 지점을 중심으로 집중되어 있습니다. 따라서 모든 데이터 세트를 설명하려면 평균값을 나타내는 것으로 충분합니다. 분포의 평균값을 추정하는 데 사용되는 세 가지 수치 특성인 산술 평균, 중앙값 및 최빈값을 순차적으로 고려해 보겠습니다.

평균

산술 평균(간단히 평균이라고도 함)은 분포 평균의 가장 일반적인 추정치입니다. 관찰된 모든 수치의 합을 그 숫자로 나눈 결과입니다. 숫자로 구성된 샘플의 경우 엑스 1, 엑스 2, …, 엑스N, 표본 평균(으로 표시됨) ) 같음 = (엑스 1 + 엑스 2 + … + 엑스N) / N, 또는

표본 평균은 어디에 있습니까? N- 표본의 크기, 엑스– 샘플의 i번째 요소.

형식의 메모를 다운로드하거나 형식의 예를 다운로드하십시오.

15개 고위험 뮤추얼 펀드의 5년 평균 연간 수익률의 산술 평균을 계산해 보십시오(그림 1).

쌀. 1. 15개 고위험 뮤추얼 펀드의 연평균 수익률

표본 평균은 다음과 같이 계산됩니다.

특히 같은 기간 은행이나 신용조합 예금자들이 받은 3~4% 수익률과 비교하면 이는 좋은 수익률이다. 수익률을 정렬해 보면 8개 펀드가 평균보다 높은 수익률을, 7개 펀드가 평균보다 낮은 것을 쉽게 알 수 있습니다. 산술 평균은 균형점 역할을 하여 수익률이 낮은 자금이 수익률이 높은 자금과 균형을 이룹니다. 표본의 모든 요소가 평균 계산에 포함됩니다. 분포 평균의 다른 추정치에는 이 속성이 없습니다.

산술 평균은 언제 계산해야 합니까?산술 평균은 표본의 모든 요소에 따라 달라지므로 극단값의 존재는 결과에 큰 영향을 미칩니다. 이러한 상황에서 산술 평균은 수치 데이터의 의미를 왜곡할 수 있습니다. 따라서 극단값이 포함된 데이터 세트를 기술할 때에는 중앙값 또는 산술평균과 중앙값을 표시할 필요가 있습니다. 예를 들어 RS Emerging Growth 펀드의 수익률을 표본에서 제외하면 14개 펀드의 표본 평균 수익률은 5.19%로 거의 1% 감소합니다.

중앙값

중앙값은 순서가 지정된 숫자 배열의 중간 값을 나타냅니다. 배열에 반복되는 숫자가 포함되어 있지 않으면 해당 요소의 절반은 중앙값보다 작고 나머지 절반은 중앙값보다 큽니다. 표본에 극단값이 포함된 경우 평균을 추정하기 위해 산술 평균보다는 중앙값을 사용하는 것이 좋습니다. 표본의 중앙값을 계산하려면 먼저 표본을 주문해야 합니다.

이 공식은 모호합니다. 결과는 숫자가 짝수인지 홀수인지에 따라 달라집니다. N:

  • 표본에 홀수 개의 요소가 포함된 경우 중앙값은 다음과 같습니다. (n+1)/2-번째 요소.
  • 표본에 짝수 개의 요소가 포함된 경우 중앙값은 표본의 두 중간 요소 사이에 있으며 이 두 요소에 대해 계산된 산술 평균과 같습니다.

15개 고위험 뮤추얼 펀드의 수익률을 포함하는 표본의 중앙값을 계산하려면 먼저 원시 데이터를 정렬해야 합니다(그림 2). 그러면 중앙값은 표본의 중간 요소 수와 반대가 됩니다. 우리의 예 8번에서는요. Excel에는 정렬되지 않은 배열에도 작동하는 특수 함수 =MEDIAN()이 있습니다.

쌀. 2. 중앙값 15개 펀드

따라서 중앙값은 6.5이다. 이는 초고위험 펀드 중 절반의 수익률이 6.5를 초과하지 않고, 나머지 절반의 수익률이 이를 초과한다는 의미다. 중앙값 6.5는 평균 6.08보다 그리 크지 않습니다.

표본에서 RS Emerging Growth 펀드의 수익률을 제거하면 나머지 14개 펀드의 중앙값은 6.2%로 감소합니다. 즉, 산술 평균만큼 크게 감소하지는 않습니다(그림 3).

쌀. 3. 중간값 14개 펀드

패션

이 용어는 1894년 Pearson에 의해 처음 만들어졌습니다. 패션은 샘플에서 가장 자주 나타나는 숫자(가장 패셔너블한 것)입니다. 예를 들어, 패션은 교통 신호등 신호에 대한 운전자의 일반적인 반응을 잘 설명합니다. 패션 활용의 전형적인 예는 신발 사이즈나 벽지 색상을 선택하는 것입니다. 분포에 여러 모드가 있는 경우 다중 모드 또는 다중 모드(2개 이상의 "피크"가 있음)라고 합니다. 분포의 다중 양식은 연구되는 변수의 특성에 대한 중요한 정보를 제공합니다. 예를 들어, 사회학적 조사에서 변수가 어떤 것에 대한 선호도나 태도를 나타내는 경우 다중 양식은 뚜렷이 다른 몇 가지 의견이 있음을 의미할 수 있습니다. 다중 양식은 또한 표본이 동질적이지 않고 두 개 이상의 "겹치는" 분포에 의해 관찰이 생성될 수 있음을 나타내는 지표 역할도 합니다. 산술 평균과 달리 이상값은 모드에 영향을 주지 않습니다. 뮤추얼 펀드의 연평균 수익률과 같이 연속적으로 분포된 확률 변수의 경우 모드가 전혀 존재하지 않거나 의미가 없는 경우가 있습니다. 이러한 지표는 매우 다른 값을 가질 수 있으므로 반복되는 값은 극히 드뭅니다.

사분위수

사분위수는 대규모 수치 표본의 속성을 설명할 때 데이터 분포를 평가하는 데 가장 자주 사용되는 측정항목입니다. 중앙값은 정렬된 배열을 절반으로 나누는 반면(배열 요소의 50%는 중앙값보다 작고 50%는 더 큽니다), 사분위수는 정렬된 데이터 세트를 네 부분으로 나눕니다. Q 1 , 중앙값 및 Q 3 값은 각각 25번째, 50번째 및 75번째 백분위수입니다. 첫 번째 사분위수 Q 1은 표본을 두 부분으로 나누는 숫자입니다. 요소의 25%는 첫 번째 사분위수보다 작고, 75%는 더 큽니다.

세 번째 사분위수 Q 3은 표본을 두 부분으로 나누는 숫자이기도 합니다. 요소의 75%는 세 번째 사분위수보다 작고, 25%는 더 큽니다.

2007년 이전 Excel 버전에서 사분위수를 계산하려면 =QUARTILE(array,part) 함수를 사용하세요. Excel 2010부터 두 가지 기능이 사용됩니다.

  • =QUARTILE.ON(배열,부분)
  • =QUARTILE.EXC(배열,부분)

이 두 함수는 약간 다른 값을 제공합니다(그림 4). 예를 들어, 15개 고위험 뮤추얼 펀드의 평균 연간 수익률을 포함하는 표본의 사분위수를 계산할 때 QUARTILE.IN 및 QUARTILE.EX에 대해 각각 Q 1 = 1.8 또는 -0.7입니다. 그런데 이전에 사용된 QUARTILE 기능은 최신 QUARTILE.ON 기능에 해당합니다. 위 수식을 사용하여 Excel에서 사분위수를 계산하려면 데이터 배열을 정렬할 필요가 없습니다.

쌀. 4. Excel에서 사분위수 계산

다시 한 번 강조해 보겠습니다. Excel에서는 일변량의 사분위수를 계산할 수 있습니다. 이산 시리즈, 랜덤 변수의 값을 포함합니다. 빈도 기반 분포에 대한 사분위수 계산은 아래 섹션에 나와 있습니다.

기하평균

산술 평균과 달리 기하 평균을 사용하면 시간에 따른 변수의 변화 정도를 추정할 수 있습니다. 기하평균은 근이다 N직장에서 2급 N수량(Excel에서는 =SRGEOM 함수가 사용됨):

G= (X 1 * X 2 * … * X n) 1/n

유사한 매개변수(이익률의 기하 평균 값)는 다음 공식에 의해 결정됩니다.

G = [(1 + R1) * (1 + R2) * … * (1 + Rn)] 1/n – 1,

어디 나는– 이익률 번째 기간.

예를 들어 초기 투자금이 $100,000라고 가정해 보겠습니다. 첫 해 말에는 $50,000로 떨어졌다가 두 번째 해가 지나면 이 투자의 수익률은 $100,000로 회복됩니다. -년 기간은 초기 자금과 최종 자금 금액이 동일하므로 0입니다. 그러나 연간 이율의 산술 평균은 = (–0.5 + 1) / 2 = 0.25 또는 25%입니다. 첫 해의 이윤율 R 1 = (50,000 – 100,000) / 100,000 = –0.5 이고, 두 번째 R 2 = (100,000 – 50,000) / 50,000 = 1. 동시에 2년 동안의 이윤율의 기하 평균 값은 다음과 같습니다. G = [(1–0.5) * (1+1 ) ] 1/2 – 1 = ½ – 1 = 1 – 1 = 0. 따라서 기하 평균은 산술 평균보다 2년 동안의 투자량 변화(보다 정확하게는 변화 없음)를 더 정확하게 반영합니다. 평균.

흥미로운 사실.첫째, 기하 평균은 항상 같은 숫자의 산술 평균보다 작습니다. 취한 모든 숫자가 서로 동일한 경우를 제외하고. 둘째, 직각삼각형의 성질을 고려하면 평균을 기하학적이라고 부르는 이유를 이해할 수 있습니다. 빗변으로 낮아진 직각 삼각형의 높이는 빗변에 대한 다리의 투영 사이의 평균 비례이며, 각 다리는 빗변과 빗변에의 투영 사이의 평균 비례입니다 (그림 5). 이는 두 개의 (길이) 세그먼트의 기하 평균을 구성하는 기하학적 방법을 제공합니다. 이 두 세그먼트의 합을 직경으로 원을 구성한 다음 연결 지점에서 원과의 교차점까지의 높이를 복원해야 합니다. 원하는 값을 제공합니다.

쌀. 5. 기하평균의 기하학적 특성(Wikipedia의 그림)

수치 데이터의 두 번째 중요한 속성은 변화, 데이터 분산 정도를 특성화합니다. 두 개의 서로 다른 표본은 평균과 분산이 모두 다를 수 있습니다. 그러나 그림에 표시된 것처럼. 도 6 및 도 7에서, 두 샘플은 동일한 변형이지만 평균이 다를 수도 있고, 평균은 동일하지만 변형이 완전히 다를 수도 있습니다. 그림의 다각형 B에 해당하는 데이터입니다. 7, 다각형 A가 구성된 데이터보다 변경 사항이 훨씬 적습니다.

쌀. 6. 산포는 동일하고 평균값은 다른 두 개의 대칭 종 모양 분포

쌀. 7. 평균값은 동일하고 스프레드는 다른 두 개의 대칭 종 모양 분포

데이터 변동에는 5가지 추정치가 있습니다.

  • 범위,
  • 사분위간 범위,
  • 분산,
  • 표준 편차,
  • 변동 계수.

범위

범위는 샘플의 가장 큰 요소와 가장 작은 요소 간의 차이입니다.

범위 = X최대 – X최소

15개 고위험 뮤추얼 펀드의 평균 연간 수익률을 포함하는 표본의 범위는 순서 배열을 사용하여 계산할 수 있습니다(그림 4 참조). 범위 = 18.5 – (–6.1) = 24.6. 이는 초고위험 펀드의 연평균 최고수익률과 최저수익률의 차이가 24.6%라는 뜻이다.

범위는 데이터의 전체 확산을 측정합니다. 표본 범위는 데이터의 전체 분포에 대한 매우 간단한 추정치이지만, 최소 요소와 최대 요소 사이에 데이터가 어떻게 분포되어 있는지 정확하게 고려하지 않는다는 약점이 있습니다. 이 효과는 그림에서 명확하게 볼 수 있습니다. 도 8은 동일한 범위를 갖는 샘플을 예시한다. 척도 B는 표본에 하나 이상의 극단값이 포함된 경우 표본 범위가 데이터 확산에 대한 매우 부정확한 추정치라는 것을 보여줍니다.

쌀. 8. 동일한 범위의 세 가지 샘플을 비교합니다. 삼각형은 척도의 지지를 상징하며 그 위치는 표본 평균에 해당합니다.

사분위수 범위

사분위간 또는 평균 범위는 표본의 세 번째 사분위수와 첫 번째 사분위수 간의 차이입니다.

사분위간 범위 = Q 3 – Q 1

이 값을 사용하면 요소의 50% 분산을 추정할 수 있으며 극한 요소의 영향을 고려하지 않을 수 있습니다. 15개의 고위험 뮤추얼 펀드의 평균 연간 수익률을 포함하는 표본의 사분위간 범위는 그림 1의 데이터를 사용하여 계산할 수 있습니다. 4(예: QUARTILE.EXC 함수의 경우): 사분위간 범위 = 9.8 – (–0.7) = 10.5. 숫자 9.8과 -0.7로 둘러싸인 간격을 중간 절반이라고 합니다.

Q 1 및 Q 3 값과 이에 따른 사분위수 범위는 이상값의 존재 여부에 의존하지 않는다는 점에 유의해야 합니다. 왜냐하면 계산 시 Q 1보다 작거나 그보다 큰 값은 고려되지 않기 때문입니다. Q3보다. 이상값의 영향을 받지 않는 중앙값, 1사분위수, 3분위수, 사분위간 범위와 같은 요약 측도를 강력한 측도라고 합니다.

범위와 사분위간 범위는 각각 표본의 전체 및 평균 확산에 대한 추정치를 제공하지만 이러한 추정치 중 어느 것도 데이터가 어떻게 분포되어 있는지 정확하게 고려하지 않습니다. 분산 및 표준편차이러한 단점이 없습니다. 이러한 지표를 사용하면 데이터가 평균값을 기준으로 변동하는 정도를 평가할 수 있습니다. 표본 분산는 각 표본 요소와 표본 평균 간의 차이의 제곱으로 계산된 산술 평균의 근사치입니다. 표본 X 1, X 2, ... X n의 경우 표본 분산(기호 S 2로 표시됨)은 다음 공식으로 제공됩니다.

일반적으로 표본 분산은 표본 요소와 표본 평균 간의 차이의 제곱의 합을 표본 크기에서 1을 뺀 값으로 나눈 값입니다.

어디 - 산술 평균, N- 표본의 크기, X 나는 - 번째 선택 요소 엑스. Excel 2007 이전 버전에서는 =VARIN() 함수를 사용하여 표본 분산을 계산했지만, 2010 버전부터는 =VARIAN() 함수를 사용합니다.

데이터 확산에 대한 가장 실용적이고 널리 받아들여지는 추정치는 다음과 같습니다. 표본 표준편차. 이 표시기는 기호 S로 표시되며 표본 분산의 제곱근과 같습니다.

2007 이전 버전의 Excel에서는 표준 표본 편차를 계산하는 데 =STDEV.() 함수가 사용되었습니다. 2010 버전부터는 =STDEV.V() 함수가 사용되었습니다. 이러한 함수를 계산하기 위해 데이터 배열의 순서가 지정되지 않을 수 있습니다.

표본 분산이나 표본 표준 편차는 음수가 될 수 없습니다. 표시기 S 2 및 S가 0이 될 수 있는 유일한 상황은 샘플의 모든 요소가 서로 동일한 경우입니다. 전혀 있을 법하지 않은 이 경우에는 범위와 사분위간 범위도 0입니다.

수치 데이터는 본질적으로 가변적입니다. 모든 변수는 다양한 값을 가질 수 있습니다. 예를 들어, 뮤추얼 펀드마다 수익률과 손실률이 다릅니다. 수치 데이터의 가변성으로 인해 본질적으로 요약되는 평균 추정치뿐만 아니라 데이터의 확산을 특징으로 하는 분산 추정치도 연구하는 것이 매우 중요합니다.

분산 및 표준 편차를 사용하면 평균 값 주위의 데이터 분포를 평가할 수 있습니다. 즉, 평균보다 작은 샘플 요소 수와 더 큰 샘플 요소 수를 확인할 수 있습니다. 분산에는 몇 가지 귀중한 수학적 특성이 있습니다. 그러나 그 값은 측정 단위의 제곱(제곱 퍼센트, 제곱 달러, 제곱 인치 등)입니다. 따라서 자연적인 분산 측정은 표준 편차이며, 이는 소득 비율, 달러 또는 인치의 공통 단위로 표시됩니다.

표준편차를 사용하면 평균값을 기준으로 표본 요소의 변동량을 추정할 수 있습니다. 거의 모든 상황에서 관찰된 값의 대부분은 평균에서 ±1 표준편차 범위 내에 있습니다. 결과적으로, 표본 요소의 산술 평균과 표준 표본 편차를 알면 대량의 데이터가 속하는 간격을 결정할 수 있습니다.

15개 고위험 뮤추얼 펀드의 수익률 표준편차는 6.6입니다(그림 9). 이는 대부분의 펀드의 수익성이 평균 가치와 6.6% 이하로 다르다는 것을 의미합니다. – 에스= 6.2 – 6.6 = –0.4 ~ +에스= 12.8). 실제로 펀드의 5년 평균 연평균 수익률 53.3%(15개 중 8개)가 이 범위에 속합니다.

쌀. 9. 표본 표준편차

차이 제곱을 합산할 때 평균에서 더 멀리 있는 샘플 항목이 평균에 가까운 항목보다 더 큰 가중치를 갖습니다. 이 속성은 산술 평균이 분포의 평균을 추정하는 데 가장 자주 사용되는 주된 이유입니다.

변동 계수

이전 산포 추정치와 달리 변동 계수는 상대적 추정치입니다. 항상 원본 데이터 단위가 아닌 백분율로 측정됩니다. CV 기호로 표시되는 변동 계수는 평균 주위의 데이터 분산을 측정합니다. 변동 계수는 표준 편차를 산술 평균으로 나누고 100%를 곱한 것과 같습니다.

어디 에스- 표준 표본 편차, - 샘플 평균.

변동 계수를 사용하면 요소가 서로 다른 측정 단위로 표현되는 두 샘플을 비교할 수 있습니다. 예를 들어, 우편 배달 서비스 관리자가 트럭을 교체하려고 합니다. 패키지를 적재할 때 고려해야 할 두 가지 제한 사항은 각 패키지의 무게(파운드)와 부피(입방피트)입니다. 200개의 가방이 포함된 표본에서 평균 무게는 26.0파운드, 무게의 표준 편차는 3.9파운드, 평균 가방 부피는 8.8입방피트, 부피의 표준 편차는 2.2입방피트라고 가정합니다. 패키지의 무게와 부피 변화를 비교하는 방법은 무엇입니까?

무게와 부피의 측정 단위가 서로 다르기 때문에 관리자는 이러한 수량의 상대적 분포를 비교해야 합니다. 중량의 변동계수는 CV W = 3.9 / 26.0 * 100% = 15%이고, 부피의 변동계수는 CV V = 2.2 / 8.8 * 100% = 25%이다. 따라서 패킷 부피의 상대적 변화는 무게의 상대적 변화보다 훨씬 더 큽니다.

배포 형태

표본의 세 번째 중요한 특성은 분포의 형태입니다. 이 분포는 대칭적일 수도 있고 비대칭적일 수도 있습니다. 분포의 모양을 설명하려면 평균과 중앙값을 계산해야 합니다. 두 변수가 동일한 경우 변수는 대칭 분포로 간주됩니다. 변수의 평균값이 중앙값보다 크면 해당 분포는 양의 왜도를 갖습니다(그림 10). 중앙값이 평균보다 크면 변수 분포가 음의 방향으로 치우쳐 있습니다. 양의 왜도는 평균이 비정상적으로 높은 값으로 증가할 때 발생합니다. 음의 왜도는 평균이 비정상적으로 작은 값으로 감소할 때 발생합니다. 변수는 어느 방향으로든 극단값을 취하지 않으면 대칭적으로 분포되므로 변수의 큰 값과 작은 값이 서로 상쇄됩니다.

쌀. 10. 세 가지 유형의 분포

척도 A에 표시된 데이터는 음의 치우침을 가지고 있습니다. 이 그림은 비정상적으로 작은 값으로 인해 발생한 긴 꼬리와 왼쪽으로 기울어진 모습을 보여줍니다. 이러한 극히 작은 값은 평균값을 왼쪽으로 이동시켜 중앙값보다 작게 만듭니다. 스케일 B에 표시된 데이터는 대칭적으로 분포되어 있습니다. 분포의 왼쪽과 오른쪽 절반은 그 자체의 거울상입니다. 큰 값과 작은 값이 서로 균형을 이루며, 평균과 중앙값이 동일합니다. 척도 B에 표시된 데이터는 양의 방향으로 치우쳐 있습니다. 이 그림은 비정상적으로 높은 값으로 인해 긴 꼬리와 오른쪽으로 치우친 모습을 보여줍니다. 값이 너무 크면 평균이 오른쪽으로 이동하여 중앙값보다 커집니다.

Excel에서는 추가 기능을 사용하여 기술 통계를 얻을 수 있습니다. 분석 패키지. 메뉴를 살펴보세요 데이터데이터 분석, 열리는 창에서 라인을 선택하십시오 기술통계그리고 클릭 좋아요. 창문에서 기술통계반드시 표시하세요 입력 간격(그림 11). 원본 데이터와 동일한 시트에서 기술 통계를 보려면 라디오 버튼을 선택하세요. 출력 간격표시된 통계의 왼쪽 상단 모서리가 배치되어야 하는 셀을 지정합니다(이 예에서는 $C$1). 데이터를 새 시트나 새 통합 문서로 출력하려면 적절한 라디오 버튼을 선택하기만 하면 됩니다. 옆의 확인란을 선택하세요. 요약 통계. 원하는 경우 선택할 수도 있습니다. 난이도,k번째로 작고k번째로 큰.

예금인 경우 데이터지역에 분석아이콘이 보이지 않네요 데이터 분석, 먼저 부가기능을 설치해야 합니다 분석 패키지(예를 들어 참조).

쌀. 11. 추가 기능을 사용하여 계산된 위험 수준이 매우 높은 펀드의 5년 평균 연간 수익률에 대한 기술 통계 데이터 분석엑셀 프로그램

Excel은 위에서 설명한 평균, 중앙값, 최빈값, 표준 편차, 분산, 범위( 간격), 최소, 최대 및 표본 크기( 확인하다). Excel에서는 표준 오류, 첨도, 왜도 등 새로운 통계도 계산합니다. 표준 에러표준편차를 표본 크기의 제곱근으로 나눈 값과 같습니다. 어울리지 않음분포의 대칭성 편차를 특성화하며 샘플 요소와 평균값 간의 차이의 큐브에 따라 달라지는 함수입니다. 첨도는 분포의 꼬리와 비교하여 평균 주위의 데이터의 상대적 집중도를 측정한 것으로, 표본 요소와 4제곱한 평균 간의 차이에 따라 달라집니다.

모집단에 대한 기술 통계 계산

위에서 설명한 분포의 평균, 산포, 모양은 표본을 통해 결정되는 특성입니다. 그러나 데이터 세트에 전체 모집단의 수치 측정값이 포함되어 있으면 해당 매개변수를 계산할 수 있습니다. 이러한 매개변수에는 모집단의 기대값, 분산 및 표준 편차가 포함됩니다.

기대값인구의 모든 값의 합을 인구 규모로 나눈 값과 같습니다.

어디 µ - 기대값, 엑스- 변수의 두 번째 관찰 엑스, N- 일반 인구의 양. Excel에서는 수학적 기대값을 계산하기 위해 산술 평균과 동일한 함수인 =AVERAGE()가 사용됩니다.

인구 분산일반 인구의 요소와 매트 사이의 차이의 제곱의 합과 같습니다. 기대치를 인구 규모로 나눈 값:

어디 σ 2– 일반 인구의 분산. 2007 이전 버전의 Excel에서는 버전 2010 =VARP()부터 =VARP() 함수를 사용하여 모집단의 분산을 계산했습니다.

모집단 표준편차모집단 분산의 제곱근과 같습니다.

2007 이전 버전의 Excel에서는 버전 2010 =STDEV.Y()부터 =STDEV() 함수를 사용하여 모집단의 표준 편차를 계산했습니다. 모집단 분산 및 표준 편차에 대한 공식은 표본 분산 및 표준 편차를 계산하기 위한 공식과 다릅니다. 표본 통계를 계산할 때 에스 2그리고 에스분수의 분모는 엔 – 1, 그리고 매개변수를 계산할 때 σ 2그리고 σ - 일반 인구의 양 N.

경험 법칙

대부분의 경우 관측치의 상당 부분이 중앙값 주위에 집중되어 군집을 형성합니다. 양의 왜도를 갖는 데이터 세트에서 이 클러스터는 수학적 기대값의 왼쪽(즉, 아래)에 위치하며, 음의 왜도를 갖는 세트에서는 이 클러스터는 수학적 기대값의 오른쪽(즉, 위)에 위치합니다. 대칭 데이터의 경우 평균과 중앙값은 동일하며 관측치는 평균 주위에 모여 종 모양의 분포를 형성합니다. 분포가 명확하게 치우쳐 있지 않고 데이터가 무게 중심 주위에 집중되어 있는 경우 변동성을 추정하는 데 사용할 수 있는 경험 법칙은 데이터가 종 모양 분포를 갖는 경우 관측치의 약 68%가 범위 내에 있다는 것입니다. 기대값의 1 표준편차. 관측치의 약 95%는 수학적 기대치에서 2표준편차 이하이며, 99.7%의 관측치는 수학적 기대치에서 3표준편차 이하입니다.

따라서 기대값 주변의 평균 변동을 추정한 표준편차는 관측값이 어떻게 분포되어 있는지 이해하고 특이치를 식별하는 데 도움이 됩니다. 경험상 종 모양 분포의 경우 20개 중 단 하나의 값만 수학적 기대치와 2개 이상의 표준 편차만큼 다릅니다. 따라서 간격 밖의 값은 µ ± 2σ, 이상값으로 간주될 수 있습니다. 또한 1000개의 관측치 중 3개만이 수학적 기대치와 3표준편차 이상 차이가 납니다. 따라서 간격 밖의 값은 µ ± 3σ거의 항상 이상치입니다. 심하게 치우쳐 있거나 종 모양이 아닌 분포의 경우 Bienamay-Chebyshev 경험 법칙을 적용할 수 있습니다.

100여 년 전, 수학자 비에나마이(Bienamay)와 체비셰프(Chebyshev)는 독립적으로 표준편차의 유용한 특성을 발견했습니다. 그들은 분포의 모양에 관계없이 모든 데이터 세트에 대해 다음 거리 내에 있는 관측치의 비율이 다음과 같다는 것을 발견했습니다. 케이수학적 기대치로부터의 표준 편차, 그 이상 (1 – 1/ k 2)*100%.

예를 들어, 케이= 2인 경우 Bienname-Chebyshev 규칙에 따르면 최소한 (1 – (1/2) 2) x 100% = 75%의 관측치가 해당 구간에 있어야 합니다. µ ± 2σ. 이 규칙은 누구에게나 적용됩니다. 케이, 1개를 초과합니다. Bienamay-Chebyshev 규칙은 매우 일반적이며 모든 유형의 분포에 유효합니다. 이는 수학적 기대치까지의 거리가 지정된 값을 초과하지 않는 최소 관찰 수를 지정합니다. 그러나 분포가 종 모양인 경우 경험 법칙에 따르면 기대값 주변의 데이터 집중도가 더 정확하게 추정됩니다.

빈도 기반 분포에 대한 기술 통계 계산

원본 데이터를 사용할 수 없는 경우 빈도 분포가 유일한 정보 소스가 됩니다. 이러한 상황에서는 산술평균, 표준편차, 사분위수 등 분포의 정량적 지표의 대략적인 값을 계산하는 것이 가능합니다.

표본 데이터를 도수분포로 표현하면, 각 클래스 내의 모든 값이 클래스 중간점에 집중되어 있다고 가정하여 산술 평균의 근사치를 계산할 수 있습니다.

어디 - 표본 평균, N- 관측치 수 또는 표본 크기 와 함께- 빈도 분포의 클래스 수, mj- 중간점 제이수업, 에프제이- 주파수 대응 제이-학년.

도수분포로부터 표준편차를 계산하기 위해, 각 클래스 내의 모든 값이 클래스 중간점에 집중되어 있다고 가정합니다.

빈도에 따라 계열의 사분위수가 어떻게 결정되는지 이해하려면 1인당 평균 통화 소득에 따른 러시아 인구 분포에 대한 2013년 데이터를 기반으로 하위 사분위수 계산을 고려하십시오(그림 12).

쌀. 12. 월별 1인당 평균 현금 소득이 있는 러시아 인구의 비율(루블)

간격 변동 계열의 첫 번째 사분위수를 계산하려면 다음 공식을 사용할 수 있습니다.

여기서 Q1은 첫 번째 사분위수의 값이고, xQ1은 첫 번째 사분위수를 포함하는 간격의 하한입니다(구간은 처음으로 25%를 초과하는 누적 빈도에 의해 결정됩니다). 나는 – 간격 값; Σf – 전체 샘플의 주파수 합 아마도 항상 100%일 것입니다. SQ1–1 – 하위 사분위수를 포함하는 간격 이전 간격의 누적 빈도입니다. fQ1 - 하위 사분위수를 포함하는 간격의 빈도입니다. 세 번째 사분위수에 대한 공식은 모든 장소에서 Q1 대신 Q3을 사용해야 하고 ¼ 대신 3/4를 사용해야 한다는 점에서 다릅니다.

이 예(그림 12)에서 하위 사분위수는 7000.1 – 10,000 범위에 있으며 누적 빈도는 26.4%입니다. 이 구간의 하한은 7000루블이고, 구간 값은 3000루블이며, 하위 사분위수를 포함하는 구간 이전 구간의 누적 빈도는 13.4%, 하위 사분위수를 포함하는 구간의 빈도는 13.0%입니다. 따라서: Q1 = 7000 + 3000 * (¼ * 100 – 13.4) / 13 = 9677 문지름.

기술통계와 관련된 함정

이번 포스트에서는 평균, 확산, 분포를 평가하는 다양한 통계를 사용하여 데이터 세트를 설명하는 방법을 살펴보았습니다. 다음 단계는 데이터 분석과 해석이다. 지금까지 데이터의 객관적인 속성을 연구했으며 이제 주관적인 해석으로 넘어갑니다. 연구자는 두 가지 실수에 직면합니다. 분석 대상을 잘못 선택한 것과 결과를 잘못 해석한 것입니다.

15개 고위험 뮤추얼 펀드의 수익률 분석은 상당히 편견이 없습니다. 그는 완전히 객관적인 결론을 내렸습니다. 모든 뮤추얼 펀드는 수익률이 다르며 펀드 수익률의 분포 범위는 -6.1에서 18.5이며 평균 수익률은 6.08입니다. 데이터 분석의 객관성은 분포의 요약 정량 지표를 올바르게 선택함으로써 보장됩니다. 데이터의 평균과 산포를 추정하는 여러 가지 방법을 고려하고 그 장점과 단점을 제시했습니다. 객관적이고 공정한 분석을 제공하기 위해 올바른 통계를 어떻게 선택합니까? 데이터 분포가 약간 치우친 경우 평균이 아닌 중앙값을 선택해야 합니까? 표준편차와 범위 중 데이터의 확산을 더 정확하게 나타내는 지표는 무엇입니까? 분포의 양의 왜도를 지적해야 합니까?

반면에 데이터 해석은 주관적인 과정입니다. 같은 결과를 해석해도 사람들은 서로 다른 결론을 내립니다. 모든 사람은 자신의 관점을 가지고 있습니다. 누군가는 위험 수준이 매우 높은 15개 펀드의 총 평균 연간 수익률이 좋다고 생각하고 수입에 상당히 만족합니다. 다른 사람들은 이 펀드의 수익률이 너무 낮다고 느낄 수도 있습니다. 따라서 주관성은 정직성, 중립성, 결론의 명확성으로 보상되어야 합니다.

윤리적 문제

데이터 분석은 윤리적 문제와 불가분의 관계가 있습니다. 신문, 라디오, 텔레비전, 인터넷을 통해 전파되는 정보에 대해 비판적이어야 합니다. 시간이 지남에 따라 결과뿐만 아니라 연구의 목표, 주제 및 객관성에 대해서도 회의적인 태도를 갖게 될 것입니다. 영국의 유명한 정치가 벤자민 디즈레일리(Benjamin Disraeli)는 “거짓말에는 세 가지 종류가 있습니다. 거짓말, 빌어먹을 거짓말, 통계”라고 말했습니다.

메모에 명시된 바와 같이 보고서에 제시되어야 하는 결과를 선택할 때 윤리적 문제가 발생합니다. 긍정적인 결과와 부정적인 결과 모두 게시되어야 합니다. 또한 보고나 서면 보고 시에는 그 결과를 정직하고 중립적이며 객관적으로 제시해야 합니다. 실패한 프레젠테이션과 부정직한 프레젠테이션에는 차이가 있습니다. 그러기 위해서는 화자의 의도가 무엇인지 파악하는 것이 필요하다. 때때로 말하는 사람은 무지 때문에 중요한 정보를 생략하기도 하고, 때로는 고의적이기도 합니다(예를 들어, 원하는 결과를 얻기 위해 분명히 왜곡된 데이터의 평균을 추정하기 위해 산술 평균을 사용하는 경우). 연구자의 관점과 일치하지 않는 결과를 억압하는 것도 부정직한 행위입니다.

Levin et al. Statistics for Managers 책의 자료가 사용됩니다. – M.: Williams, 2004. – p. 178~209

QUARTILE 함수는 이전 버전의 Excel과의 호환성을 위해 유지되었습니다.

수학에서 숫자의 산술 평균(또는 간단히 평균)은 주어진 집합에 있는 모든 숫자의 합을 숫자의 수로 나눈 것입니다. 이것은 평균값에 대한 가장 일반화되고 널리 퍼진 개념입니다. 이미 이해하셨듯이, 찾으려면 주어진 모든 숫자를 합산하고 결과 결과를 용어 수로 나누어야 합니다.

산술 평균은 무엇입니까?

예를 살펴보겠습니다.

실시예 1. 주어진 숫자: 6, 7, 11. 평균값을 찾아야 합니다.

해결책.

먼저, 이 모든 숫자의 합을 구해 봅시다.

이제 결과 합계를 용어 수로 나눕니다. 3개의 항이 있으므로 3개로 나누어 보겠습니다.

따라서 숫자 6, 7, 11의 평균은 8입니다. 왜 8인가요? 예, 왜냐하면 6, 7, 11의 합은 3개의 8과 같기 때문입니다. 이는 그림에서 명확하게 볼 수 있습니다.

평균은 일련의 숫자를 "저녁으로 나누는" 것과 약간 비슷합니다. 보시다시피, 연필 더미가 같은 수준이 되었습니다.

얻은 지식을 통합하기 위한 또 다른 예를 살펴보겠습니다.

예시 2.주어진 숫자: 3, 7, 5, 13, 20, 23, 39, 23, 40, 23, 14, 12, 56, 23, 29. 해당 산술 평균을 찾아야 합니다.

해결책.

금액을 찾아보세요.

3 + 7 + 5 + 13 + 20 + 23 + 39 + 23 + 40 + 23 + 14 + 12 + 56 + 23 + 29 = 330

용어 수로 나눕니다(이 경우 - 15).

따라서 이 일련의 숫자의 평균값은 22입니다.

이제 음수를 살펴 보겠습니다. 요약하는 방법을 기억해 봅시다. 예를 들어, 1과 -4라는 두 개의 숫자가 있습니다. 그 합을 구해 봅시다.

1 + (-4) = 1 - 4 = -3

이것을 알았으니 또 다른 예를 살펴보자.

예시 3. 3, -7, 5, 13, -2 등 일련의 숫자의 평균값을 구합니다.

해결책.

숫자의 합을 찾아보세요.

3 + (-7) + 5 + 13 + (-2) = 12

항이 5개이므로 결과 합을 5로 나눕니다.

따라서 숫자 3, -7, 5, 13, -2의 산술 평균은 2.4입니다.

기술이 발전하는 시대에는 컴퓨터 프로그램을 사용하여 평균값을 찾는 것이 훨씬 더 편리합니다. 마이크로소프트 오피스 엑셀도 그 중 하나입니다. Excel에서 평균을 찾는 것은 빠르고 쉽습니다. 또한 이 프로그램은 Microsoft Office 소프트웨어 패키지에 포함되어 있습니다. 이 프로그램을 사용하는 것의 가치인 간단한 지침을 살펴보겠습니다.

일련의 숫자의 평균값을 계산하려면 AVERAGE 함수를 사용해야 합니다. 이 함수의 구문은 다음과 같습니다.
= 평균(인수1, 인수2, ...인수255)
여기서 인수1, 인수2, ... 인수255는 숫자이거나 셀 참조입니다(셀은 범위 및 배열을 나타냄).

더 명확하게 하기 위해, 우리가 얻은 지식을 시험해 봅시다.

  1. 셀 C1 - C6에 숫자 11, 12, 13, 14, 15, 16을 입력합니다.
  2. C7 셀을 클릭하여 선택합니다. 이 셀에는 평균값이 표시됩니다.
  3. 수식 탭을 클릭합니다.
  4. 추가 기능 > 통계를 선택하여 엽니다.
  5. 평균을 선택하세요. 그런 다음 대화 상자가 열립니다.
  6. C1-C6 셀을 선택하고 드래그하여 대화 상자에서 범위를 설정합니다.
  7. "확인" 버튼을 눌러 작업을 확인하세요.
  8. 모든 작업을 올바르게 수행했다면 셀 C7 - 13.7에 답이 있어야 합니다. C7 셀을 클릭하면 (=Average(C1:C6)) 함수가 수식 입력줄에 나타납니다.

이 기능은 회계, 송장 또는 매우 긴 숫자 계열의 평균을 찾아야 하는 경우에 매우 유용합니다. 따라서 사무실이나 대기업에서 자주 사용됩니다. 이를 통해 기록을 정리하고 빠르게 계산할 수 있습니다(예: 평균 월 소득). Excel을 사용하여 함수의 평균값을 찾을 수도 있습니다.

평균값은 분석적 관점과 통계 지표의 보편적인 표현 형태에서 가장 가치가 높습니다. 가장 일반적인 평균인 산술 평균에는 계산에 사용할 수 있는 여러 가지 수학적 속성이 있습니다. 동시에 특정 평균을 계산할 때 항상 속성의 양과 모집단의 양의 비율인 논리 공식을 사용하는 것이 좋습니다. 각 평균에는 실제 초기 관계가 하나만 있으며, 이를 구현하려면 사용 가능한 데이터에 따라 다양한 형태의 평균이 필요할 수 있습니다. 그러나 평균화되는 값의 특성상 가중치가 있음을 의미하는 모든 경우에는 가중 평균 공식 대신 비가중 공식을 사용하는 것이 불가능합니다.

평균값은 인구에 대한 속성의 가장 특징적인 값이며 인구 단위간에 균등하게 분배되는 인구 속성의 크기입니다.

평균값이 계산되는 특성을 평균 .

평균값은 절대값과 상대값을 비교하여 계산한 지표입니다. 평균값이 표시됩니다.

평균값은 연구 중인 현상에 영향을 미치는 모든 요인의 영향을 반영하며 그 결과입니다. 즉, 개인의 편차를 소멸시키고 사례의 영향을 제거하는 평균값은 이 조치의 결과에 대한 일반적인 척도를 반영하여 연구되는 현상의 일반적인 패턴으로 작용합니다.

평균값 사용 조건:

Ø 연구 대상 인구의 동질성. 임의 요인의 영향을 받는 모집단의 일부 요소가 나머지 특성과 크게 다른 연구 특성 값을 갖는 경우 이러한 요소는 이 모집단의 평균 크기에 영향을 미칩니다. 이 경우 평균은 모집단에 대한 속성의 가장 일반적인 값을 표현하지 않습니다. 연구 중인 현상이 이질적이라면 동질적인 요소를 포함하는 그룹으로 나누어야 합니다. 이 경우 그룹 평균이 계산됩니다. 그룹 평균은 각 그룹에서 현상의 가장 특징적인 값을 표현한 다음 모든 요소에 대해 전체 평균값을 계산하여 현상을 전체적으로 특성화합니다. 이는 각 그룹에 포함된 모집단 요소의 수에 따라 가중치가 부여된 그룹 평균의 평균으로 계산됩니다.

Ø 총 단위 수가 충분합니다.

Ø 연구 대상 인구의 특성의 최대 및 최소값.

평균값(지표)특정 장소와 시간 조건에서 체계적으로 집합된 특성의 일반화된 정량적 특성입니다..

통계에서는 검정력 및 구조라고 하는 다음과 같은 평균 형태(유형)가 사용됩니다.

Ø 산술 평균(단순하고 가중치가 있음);

단순한

이 용어에는 다른 의미가 있습니다. 평균 의미를 참조하세요.

평균(수학과 통계에서) 숫자 집합 - 모든 숫자의 합을 해당 숫자로 나눈 것입니다. 이는 중심경향을 측정하는 가장 일반적인 척도 중 하나입니다.

이는 피타고라스 학파에 의해 (기하 평균 및 조화 평균과 함께) 제안되었습니다.

산술 평균의 특별한 경우는 평균(일반 모집단)과 표본 평균(표본)입니다.

소개

데이터 세트를 나타내자 엑스 = (엑스 1 , 엑스 2 , …, 엑스 N), 표본 평균은 일반적으로 변수 (x ̅ (\displaystyle (\bar (x))) 위에 수평 막대로 표시되며 " 엑스줄로").

그리스 문자 μ는 전체 인구의 산술 평균을 나타내는 데 사용됩니다. 평균값이 결정되는 확률 변수의 경우 μ는 다음과 같습니다. 확률적 평균또는 무작위 변수의 수학적 기대. 세트인 경우 엑스확률적 평균 μ를 갖는 난수 모음입니다. 임의의 샘플에 대해 엑스 이 집합에서 μ = E( 엑스 )는 이 표본의 수학적 기대값입니다.

실제로 μ와 x̅ (\displaystyle (\bar (x)))의 차이점은 μ가 전체 모집단이 아닌 표본을 볼 수 있기 때문에 일반적인 변수라는 것입니다. 따라서 표본이 (확률 이론의 관점에서) 무작위로 표현되면 x̅ (\displaystyle (\bar (x))) (그러나 μ는 아님)은 표본에 대한 확률 분포를 갖는 무작위 변수로 처리될 수 있습니다( 평균의 확률 분포).

이 두 수량은 모두 같은 방식으로 계산됩니다.

X ̅ = 1n ∑ i = 1n x i = 1n (x 1 + ⋯ + xn) . (\displaystyle (\bar (x))=(\frac (1)(n))\sum _(i=1)^(n)x_(i)=(\frac (1)(n))(x_ (1)+\cdots +x_(n)).)

만약에 엑스는 랜덤 변수이고 수학적 기대값은 다음과 같습니다. 엑스수량을 반복적으로 측정할 때 값의 산술 평균으로 간주될 수 있습니다. 엑스. 이는 대수의 법칙을 표현한 것입니다. 따라서 표본 평균은 알려지지 않은 기대값을 추정하는 데 사용됩니다.

평균은 초등학교 대수학에서 입증되었습니다. N+ 평균보다 높은 숫자 1개 N숫자는 새 숫자가 이전 평균보다 큰 경우에만, 새 숫자가 평균보다 작은 경우에만 감소하고, 새 숫자가 평균과 같은 경우에만 변경되지 않습니다. 더 N, 새로운 평균과 이전 평균의 차이가 작을수록.

거듭제곱 평균, 콜모고로프 평균, 조화 평균, 산술-기하 평균 및 다양한 가중 평균(예: 가중 산술 평균, 가중 기하 평균, 가중 조화 평균)을 포함하여 여러 가지 다른 "평균"을 사용할 수 있습니다.

  • 세 개의 숫자의 경우 숫자를 더하고 3으로 나누어야 합니다.
x 1 + x 2 + x 3 3 . (\displaystyle (\frac (x_(1)+x_(2)+x_(3))(3)).)
  • 숫자 4개의 경우 숫자를 더한 후 4로 나누어야 합니다.
x 1 + x 2 + x 3 + x 4 4 . (\displaystyle (\frac (x_(1)+x_(2)+x_(3)+x_(4))(4)).)

또는 더 간단하게: 5+5=10, 10:2. 우리는 2개의 숫자를 더하고 있었기 때문에, 이는 우리가 더한 숫자의 수를 의미하므로 그 숫자로 나눕니다.

연속확률변수

연속적으로 분포된 양 f (x) (\displaystyle f(x))에 대해 구간 [ a ; b ] (\displaystyle )은 정적분을 통해 결정됩니다.

F (x) ̅ [ a ; b ] = 1 b − a ∫ a b f (x) d x (\displaystyle (\overline (f(x)))_()=(\frac (1)(b-a))\int _(a)^(b) 에프엑스(f(x)dx)

평균 사용의 몇 가지 문제

견고성 부족

주요 기사: 통계의 견고성

산술 평균은 종종 평균 또는 중심 경향으로 사용되지만 이 개념은 강력한 통계가 아닙니다. 즉, 산술 평균은 "큰 편차"에 크게 영향을 받습니다. 왜도 계수가 큰 분포의 경우 산술 평균이 "평균" 개념과 일치하지 않을 수 있으며 견고한 통계(예: 중앙값)의 평균 값이 중앙값을 더 잘 설명할 수 있다는 점은 주목할 만합니다. 성향.

전형적인 예는 평균 소득을 계산하는 것입니다. 산술 평균은 중위수로 잘못 해석될 수 있으며, 이는 실제보다 소득이 높은 사람이 더 많다는 결론으로 ​​이어질 수 있습니다. “평균” 소득은 대부분의 사람들이 이 수치 근처의 소득을 갖고 있다는 의미로 해석됩니다. 이 "평균"(산술 평균의 의미에서) 소득은 대부분의 사람들의 소득보다 높습니다. 왜냐하면 평균과의 편차가 큰 높은 소득으로 인해 산술 평균이 크게 왜곡되기 때문입니다(반대로 중위 소득의 평균 소득은 그러한 왜곡에 "저항"합니다). 그러나 이 "평균" 소득은 중위 소득에 가까운 사람의 수에 대해서는 아무 말도 하지 않습니다(그리고 모달 소득에 가까운 사람의 수에 대해서는 아무 말도 하지 않습니다). 그러나 '평균'과 '대부분의 사람'이라는 개념을 가볍게 받아들이면 대부분의 사람의 소득이 실제보다 높다는 잘못된 결론을 내릴 수 있습니다. 예를 들어 워싱턴 주 메디나의 "평균" 순이익에 대한 보고서는 주민들의 모든 연간 순이익에 대한 산술 평균으로 계산되며 빌 게이츠에 따르면 놀라울 정도로 많은 수치가 나올 것입니다. 표본(1, 2, 2, 2, 3, 9)을 고려하십시오. 산술 평균은 3.17인데 6개 중 5개가 이 평균보다 낮습니다.

복리

주요 기사: 투자 수익

숫자라면 곱하다, 하지만 , 산술평균이 아닌 기하평균을 사용해야 합니다. 대부분이 사건은 금융 투자 수익을 계산할 때 발생합니다.

예를 들어, 주식이 첫 해에 10% 하락하고 두 번째 해에 30% 상승한 경우 해당 2년 동안의 "평균" 증가를 산술 평균(−10% + 30%) / 2으로 계산하는 것은 올바르지 않습니다. = 10%; 이 경우 정확한 평균은 복합 연간 성장률로 제공되며, 이는 연간 성장률이 약 8.16653826392% ≒ 8.2%에 불과합니다.

그 이유는 백분율이 매번 새로운 시작점을 갖기 때문입니다. 즉, 30%는 30%입니다. 첫 해 초의 가격보다 적은 숫자에서:어떤 주식이 30달러에서 시작하여 10% 하락했다면 두 번째 해 초에는 27달러의 ​​가치가 있습니다. 만약 주가가 30% 상승했다면 두 번째 해 말에는 35.1달러의 가치가 있을 것입니다. 이 성장의 산술 평균은 10%이지만 주가는 2년 동안 $5.1만 상승했기 때문에 평균 8.2% 성장은 $35.1의 최종 결과를 제공합니다.

[$30 (1 - 0.1) (1 + 0.3) = $30 (1 + 0.082) (1 + 0.082) = $35.1]. 같은 방식으로 10%의 산술 평균을 사용하면 실제 값인 [$30 (1 + 0.1) (1 + 0.1) = $36.3]을 얻을 수 없습니다.

2년 말 복리: 90% * 130% = 117%, 즉 총 증가율은 17%이고, 연평균 복리 이자는 117% ≒ 108.2% (\displaystyle (\sqrt (117\% ))\대략 108.2\%) , 즉 연평균 8.2% 증가한 수치입니다.

지도

주요 기사: 목적지 통계

주기적으로 변하는 일부 변수(예: 위상 또는 각도)의 산술 평균을 계산할 때는 특별한 주의가 필요합니다. 예를 들어, 1°와 359°의 평균은 1 Ø + 359 Ø 2 = (\displaystyle (\frac (1^(\circ )+359^(\circ ))(2))=) 180°입니다. 이 숫자는 두 가지 이유로 올바르지 않습니다.

  • 첫째, 각도 측정값은 0° ~ 360°(또는 라디안으로 측정할 경우 0 ~ 2π) 범위에 대해서만 정의됩니다. 따라서 동일한 숫자 쌍은 (1° 및 −1°) 또는 (1° 및 719°)로 쓸 수 있습니다. 각 쌍의 평균값은 다릅니다: 1 Ø + (− 1 Ø) 2 = 0 Ø (\displaystyle (\frac (1^(\circ )+(-1^(\circ )))(2 ))=0 ^(\circ )) , 1 Ø + 719 Ø 2 = 360 Ø (\displaystyle (\frac (1^(\circ )+719^(\circ ))(2))=360^(\ 동그라미 )) .
  • 둘째, 이 경우 0°(360°와 동일) 값은 기하학적으로 더 나은 평균 값이 됩니다. 왜냐하면 숫자가 다른 값보다 0°에서 덜 벗어나기 때문입니다(값 0°의 차이가 가장 작음). 비교하다:
    • 숫자 1°는 0°에서 단 1°만 벗어납니다.
    • 숫자 1°는 계산된 평균 180° x 179°에서 벗어납니다.

위 공식을 사용하여 계산된 순환 변수의 평균 값은 실제 평균에 비해 수치 범위의 중간으로 인위적으로 이동됩니다. 따라서 평균은 다른 방식으로 계산됩니다. 즉, 분산이 가장 작은 숫자(중심점)를 평균값으로 선택합니다. 또한 뺄셈 대신 모듈러 거리(즉, 원주 거리)를 사용합니다. 예를 들어, 1°와 359° 사이의 모듈 거리는 358°가 아니라 2°입니다(359°와 360° 사이의 원에서==0° - 1도, 0°와 1° 사이 - 총 1°) - 2 °).

평균값의 유형 및 계산 방법

통계 처리 단계에서는 다양한 연구 문제가 설정될 수 있으며, 이를 해결하려면 적절한 평균을 선택해야 합니다. 이 경우 다음 규칙을 따라야 합니다. 평균의 분자와 분모를 나타내는 수량은 서로 논리적으로 관련되어야 합니다.

  • 전력 평균;
  • 구조적 평균.

다음 규칙을 소개하겠습니다.

평균이 계산되는 수량

평균. 위의 막대는 개별 값의 평균화가 발생함을 나타냅니다.

빈도(개별 특성 값의 반복성).

다양한 평균은 일반적인 전력 평균 공식에서 파생됩니다.

(5.1)

k = 1일 때 - 산술 평균; k = -1 - 조화 평균; k = 0 - 기하 평균; k = -2 - 제곱 평균 제곱근.

평균값은 단순하거나 가중될 수 있습니다. 가중 평균이는 속성 값의 일부 변형이 서로 다른 숫자를 가질 수 있으므로 각 옵션에 이 숫자를 곱해야 한다는 점을 고려한 값입니다. 즉, "척도"는 서로 다른 그룹의 집계 단위 수입니다. 각 옵션은 빈도에 따라 "가중치"가 적용됩니다. 주파수 f는 다음과 같습니다. 통계적 가중치또는 평균 체중.

산술 평균- 가장 일반적인 유형의 평균입니다. 그룹화되지 않은 통계 데이터에 대해 계산을 수행할 때 평균 항을 구해야 하는 경우에 사용됩니다. 산술 평균은 특성의 평균 값으로, 집합체에서 특성의 총량이 변경되지 않은 상태로 유지됩니다.

산술 평균 공식( 단순한) 형식을 갖습니다.

여기서 n은 인구 규모입니다.

예를 들어 기업 직원의 평균 급여는 산술 평균으로 계산됩니다.

여기서 결정 지표는 각 직원의 급여와 기업 직원 수입니다. 평균을 계산할 때 임금 총액은 동일하게 유지되었지만 모든 직원에게 균등하게 분배되었습니다. 예를 들어, 직원이 8명인 소규모 회사의 직원 평균 급여를 계산해야 합니다.

평균값을 계산할 때 평균화되는 특성의 개별값이 반복될 수 있으므로 그룹화된 데이터를 이용하여 평균값을 계산합니다. 이 경우 우리는 다음을 사용하는 것에 대해 이야기하고 있습니다. 산술 평균 가중, 이는 다음과 같은 형식을 갖습니다.

(5.3)

그래서 우리는 증권거래소에서 주식회사의 평균주가를 계산해야 합니다. 해당 거래는 5일(5건) 이내에 이루어진 것으로 알려졌으며, 판매율로 판매된 주식 수는 다음과 같이 분배되었습니다.

1 - 800ak. - 1010 문지름.

2 - 650ak. - 990 문지름.

3 - 700ak. - 1015 문지름.

4 - 550ak. - 900 문지름.

5 - 850ak. - 1150 문지름.

주식의 평균 가격을 결정하기 위한 초기 비율은 판매된 주식 수(KPA)에 대한 총 거래 금액(TVA)의 비율입니다.

OSS = 1010·800+990·650+1015·700+900·550+1150·850= 3,634,500;

인민군 = 800+650+700+550+850=3550.

이 경우 평균 주가는 다음과 같습니다.

산술 평균의 속성을 알아야 하며 이는 사용과 계산 모두에 매우 중요합니다. 우리는 통계 및 경제 계산에서 산술 평균의 광범위한 사용을 결정하는 세 가지 주요 속성을 구별할 수 있습니다.

속성 1 (): 평균값에서 특성의 개별 값의 양수 편차의 합은 음수 편차의 합과 같습니다. 이는 임의적인 이유로 발생한 모든 편차(+ 및 - 모두)가 상호 상쇄된다는 점을 보여주기 때문에 매우 중요한 속성입니다.

증거:

속성 2 (최저한의): 산술 평균에서 특성의 개별 값의 제곱 편차의 합이 다른 숫자(a)보다 작습니다. 최소 숫자가 있습니다.

증거.

변수 a로부터의 제곱 편차의 합을 컴파일해 보겠습니다.

(5.4)

이 함수의 극값을 찾으려면 a에 대한 도함수를 0과 동일시해야 합니다.

여기에서 우리는 다음을 얻습니다:

(5.5)

결과적으로 편차 제곱합의 극값은 에서 달성됩니다. 함수는 최대값을 가질 수 없으므로 이 극값은 최소값입니다.

속성 3: 상수 값의 산술 평균은 다음 상수와 같습니다: for a = const.

산술 평균의 세 가지 가장 중요한 속성 외에도 소위 말하는 것이 있습니다. 디자인 속성, 전자 컴퓨터 기술의 사용으로 인해 점차 그 중요성을 잃어가고 있습니다.

  • 각 단위 속성의 개별 값을 상수로 곱하거나 나누면 산술 평균이 같은 양만큼 증가하거나 감소합니다.
  • 각 속성 값의 가중치(빈도)를 상수로 나누어도 산술 평균은 변하지 않습니다.
  • 각 단위 속성의 개별 값이 같은 양만큼 감소하거나 증가하면 산술 평균도 같은 양만큼 감소하거나 증가합니다.

고조파 평균. 이 평균은 k = -1일 때 사용되는 값이므로 역산술 평균이라고 합니다.

단순 조화 평균속성값의 가중치가 동일한 경우에 사용됩니다. 해당 공식은 k = -1을 대체하여 기본 공식에서 파생될 수 있습니다.

예를 들어, 동일한 경로를 주행했지만 속도가 다른 두 자동차의 평균 속도를 계산해야 합니다. 첫 번째 자동차는 100km/h, 두 번째 자동차는 90km/h입니다. 조화 평균 방법을 사용하여 평균 속도를 계산합니다.

통계 실습에서는 고조파 가중치가 더 자주 사용되며 그 공식은 다음과 같습니다.

이 공식은 각 속성의 가중치(또는 현상의 양)가 동일하지 않은 경우에 사용됩니다. 평균을 계산하기 위한 초기 관계에서 분자는 알지만 분모는 알 수 없습니다.

예를 들어, 평균 가격을 계산할 때 판매 수량에 대한 판매 금액의 비율을 사용해야 합니다. 우리는 판매된 단위 수(다른 제품에 대해 이야기하고 있음)를 모르지만 이러한 다양한 제품의 판매량을 알고 있습니다. 판매된 상품의 평균 가격을 알아내야 한다고 가정해 보겠습니다.

우리는 얻는다

기하평균. 대부분의 경우 기하 평균은 특성의 개별 값이 상대 값의 형태로 표시될 때 평균 성장률(평균 성장 계수)을 결정하는 데 적용됩니다. 특성의 최소값과 최대값 사이의 평균을 구해야 하는 경우(예: 100에서 1000000 사이)에도 사용됩니다. 단순 및 가중 기하 평균에 대한 공식이 있습니다.

간단한 기하 평균의 경우

가중 기하 평균의 경우

평균 제곱근 값. 주요 응용 분야는 전체 특성의 변화를 측정하는 것입니다(표준 편차 계산).

간단한 평균 제곱 공식

가중 평균 제곱 공식

(5.11)

결과적으로 통계 연구 문제의 성공적인 해결은 각 특정 사례에서 평균값 유형을 올바르게 선택하는 데 달려 있다고 말할 수 있습니다. 평균을 선택하는 과정은 다음과 같습니다.

a) 인구에 대한 일반 지표를 설정합니다.

b) 주어진 일반 지표에 대한 수량의 수학적 관계 결정;

c) 개별 값을 평균값으로 대체합니다.

d) 적절한 방정식을 사용하여 평균을 계산합니다.

평균과 변동

평균값- 이는 특정 양적 특성에 따라 질적으로 동질적인 인구를 특성화하는 일반적인 지표입니다. 예를 들어, 절도로 유죄 판결을 받은 사람의 평균 연령입니다.

사법 통계에서는 평균값을 사용하여 다음을 특성화합니다.

이 카테고리의 사례를 고려하는 평균 시간

평균 청구 규모

사건당 평균 피고인 수

평균 손상;

심사위원 평균 업무량 등

평균은 항상 명명된 값이며 인구의 개별 단위의 특성과 동일한 차원을 갖습니다. 각각의 평균값은 하나의 다양한 특성에 따라 연구 대상 모집단의 특성을 나타냅니다. 따라서 각 평균값 뒤에는 연구 대상 특성에 따른 이 모집단 단위의 일련의 분포가 있습니다. 평균 유형의 선택은 지표의 내용과 평균값 계산을 위한 초기 데이터에 따라 결정됩니다.

통계 연구에 사용되는 모든 유형의 평균은 두 가지 범주로 나뉩니다.

1) 전력 평균;

2) 구조적 평균.

평균의 첫 번째 범주에는 다음이 포함됩니다. 산술평균, 조화평균, 기하평균 그리고 제곱 평균 제곱근 . 두 번째 카테고리는 패션그리고 중앙값. 또한 나열된 각 유형의 전력 평균은 두 가지 형식을 가질 수 있습니다. 단순한 그리고 가중 . 단순한 형태의 평균은 그룹화되지 않은 통계 데이터에 대해 계산이 수행되거나 집합의 각 옵션이 한 번만 발생할 때 연구 중인 특성의 평균 값을 얻는 데 사용됩니다. 가중 평균은 속성 값의 변형이 서로 다른 숫자를 가질 수 있다는 점을 고려한 값이므로 각 변형에 해당 빈도를 곱해야 합니다. 즉, 각 옵션은 빈도에 따라 "가중치"가 적용됩니다. 빈도를 통계적 가중치라고 합니다.

단순 산술 평균- 가장 일반적인 유형의 평균입니다. 이는 속성의 개별 값의 합을 다음 값의 총 개수로 나눈 값과 같습니다.

,

어디 x 1 , x 2 , … , x N는 다양한 특성(변형)의 개별 값이고 N은 모집단의 단위 수입니다.

산술 평균 가중데이터가 분포 시리즈 또는 그룹화 형태로 표시되는 경우에 사용됩니다. 이는 옵션과 해당 빈도의 곱의 합을 모든 옵션의 빈도의 합으로 나눈 값으로 계산됩니다.

어디 x 나는- 의미 - 특성의 변형; 내가- 빈도 -번째 옵션.

따라서 각 변형 값은 빈도에 따라 가중치가 부여되므로 빈도를 통계적 가중치라고도 합니다.

논평.유형을 표시하지 않고 산술 평균에 대해 이야기하는 경우 단순 산술 평균을 의미합니다.

표 12.

해결책.계산하려면 가중 산술 평균 공식을 사용합니다.

따라서 형사사건당 피고인은 평균 2명이다.

구간분포 계열 형태로 그룹화된 데이터를 이용하여 평균값의 계산을 수행하는 경우, 먼저 각 구간 x"i의 중간값을 결정한 후 산술가중평균을 이용하여 평균값을 계산해야 한다. xi 대신에 x"i가 대체되는 공식입니다.

예.절도로 유죄 판결을 받은 범죄자의 연령에 대한 데이터가 표에 나와 있습니다.

표 13.

절도로 유죄판결을 받은 범죄자의 평균 연령을 구하십시오.

해결책.구간변동 계열을 기반으로 범죄자의 평균나이를 결정하기 위해서는 먼저 구간의 중간값을 찾아야 한다. 첫 번째 및 마지막 열린 구간이 있는 구간 계열이 제공되므로 이러한 구간의 값은 인접한 닫힌 구간의 값과 동일한 것으로 간주됩니다. 우리의 경우 첫 번째 간격과 마지막 간격의 값은 10입니다.

이제 가중 산술 평균 공식을 사용하여 범죄자의 평균 연령을 찾습니다.

따라서 절도로 유죄 판결을 받은 범죄자의 평균 연령은 약 27세입니다.

평균 고조파 단순 특성의 역값의 산술 평균의 역수를 나타냅니다.

여기서 1/ x 나는는 옵션의 역수 값이고 N은 인구의 단위 수입니다.

예.형사사건을 고려할 때 지방법원 판사의 연간 평균 업무량을 알아보기 위해 본 법원 판사 5명의 업무량을 조사하였다. 설문 조사에 참여한 각 판사가 하나의 형사 사건에 소비한 평균 시간은 6, 0, 5, 6, 6, 3, 4, 9, 5, 4와 같은 것으로 나타났습니다. 하나의 평균 비용을 찾으십시오. 형사 사건 및 형사 사건을 고려할 때 특정 지방 법원 판사의 평균 연간 업무량.

해결책.하나의 형사 사건에 소요되는 평균 시간을 결정하기 위해 조화 평균 공식을 사용합니다.

계산을 단순화하기 위해 예제에서는 주말을 포함하여 1년의 일수를 365로 간주합니다(이는 계산 방법에 영향을 주지 않으며 실제로 유사한 지표를 계산할 때 작업 수를 대체해야 함). 365일 대신 특정 연도의 일수). 그러면 형사 사건을 고려할 때 해당 지방 법원 판사의 연간 평균 업무량은 365(일) : 5.56 ≒ 65.6(사건)이 됩니다.

하나의 형사 사건에 소요되는 평균 시간을 결정하기 위해 간단한 산술 평균 공식을 사용하면 다음과 같은 결과를 얻을 수 있습니다.

365(일): 5.64 ≒ 64.7(건), 즉 판사의 평균 업무량이 적은 것으로 나타났습니다.

이 접근 방식의 타당성을 확인해 보겠습니다. 이를 위해 우리는 각 판사가 하나의 형사 사건에 소비한 시간에 대한 데이터를 사용하고 각 판사가 연간 고려하는 형사 사건 수를 계산합니다.

우리는 그에 따라 얻습니다:

365(일) : 6 ≒ 61(건), 365(일) : 5.6 ≒ 65.2(건), 365(일) : 6.3 ≒ 58(건),

365(일) : 4.9 ≒ 74.5(건), 365(일) : 5.4 ≒ 68(건).

이제 형사 사건을 고려할 때 특정 지방 법원 판사의 평균 연간 업무량을 계산해 보겠습니다.

저것들. 평균 연간 부하는 조화 평균을 사용할 때와 동일합니다.

따라서 이 경우 산술평균을 사용하는 것은 불법이다.

특성의 변형과 해당 체적 값(변형과 주파수의 곱)이 알려져 있지만 주파수 자체를 알 수 없는 경우 가중 조화 평균 공식이 사용됩니다.

,

어디 x 나는는 속성 옵션의 값이고, w i는 옵션의 체적 값( w 나는 = x 나는 f 나는).

예.다양한 형벌제도 기관에서 생산한 동일한 유형의 제품 단위 가격과 판매량에 대한 데이터가 표 14에 나와 있습니다.

표 14

해당 제품의 평균 판매 가격을 구합니다.

해결책.평균 가격을 계산할 때 판매 수량에 대한 판매 금액의 비율을 사용해야 합니다. 판매된 수량은 알 수 없지만 상품의 판매량은 알고 있습니다. 따라서 판매된 상품의 평균 가격을 구하기 위해 가중 조화 평균 공식을 사용합니다. 우리는 얻는다

여기서 산술 평균 공식을 사용하면 비현실적인 평균 가격을 얻을 수 있습니다.

기하평균속성 변형의 모든 값의 곱에서 N차 근을 추출하여 계산됩니다.

어디 x 1 , x 2 , … , x N– 다양한 특성(변형)의 개별 값 및

N– 인구 단위 수.

이 유형의 평균은 시계열의 평균 성장률을 계산하는 데 사용됩니다.

평균 제곱변동의 지표인 표준편차를 계산하는 데 사용되며 이에 대해서는 아래에서 설명합니다.

인구 구조를 결정하기 위해 다음을 포함하는 특수 평균 지표가 사용됩니다. 중앙값 그리고 패션 , 또는 소위 구조적 평균. 속성 값의 모든 변형을 사용하여 산술 평균을 계산하는 경우 중앙값과 최빈값은 순위가 매겨진 계열에서 특정 평균 위치를 차지하는 변형 값의 특성을 나타냅니다. 통계적 모집단의 단위는 연구되는 특성의 변형에 따라 오름차순 또는 내림차순으로 정렬될 수 있습니다.

중앙값(나)– 랭크 시리즈의 중간에 위치한 옵션에 해당하는 값입니다. 따라서 중앙값은 순위가 매겨진 시리즈의 해당 버전이며, 이 시리즈의 양쪽에는 동일한 수의 인구 단위가 있어야 합니다.

중앙값을 찾으려면 먼저 다음 공식을 사용하여 순위가 매겨진 시리즈의 일련 번호를 결정해야 합니다.

여기서 N은 계열의 볼륨(모집단의 단위 수)입니다.

계열이 홀수 개의 항으로 구성된 경우 중앙값은 N Me의 옵션과 같습니다. 계열이 짝수 항으로 구성된 경우 중앙값은 중앙에 위치한 두 인접 옵션의 산술 평균으로 정의됩니다.

예.순위가 매겨진 시리즈 1, 2, 3, 3, 6, 7, 9, 9, 10이 주어지면 시리즈의 볼륨은 N = 9이며 이는 N Me = (9 + 1) / 2 = 5를 의미합니다. 따라서 Me = 6, 즉 . 다섯 번째 옵션. 행에 1, 5, 7, 9, 11, 14, 15, 16이 주어지면, 즉 짝수 항(N = 8)을 갖는 계열이면 N Me = (8 + 1) / 2 = 4.5입니다. 이는 중앙값이 네 번째와 다섯 번째 옵션의 합의 절반과 같다는 것을 의미합니다. 나 = (9 + 11) / 2 = 10.

이산형 변형 계열에서 중앙값은 누적된 빈도에 의해 결정됩니다. 옵션의 빈도는 첫 번째부터 시작하여 중앙값을 초과할 때까지 합산됩니다. 마지막으로 합산된 옵션의 값이 중앙값이 됩니다.

예.표 12의 데이터를 사용하여 형사 사건당 피고인의 중앙값을 찾으십시오.

해결책.이 경우 변동 계열의 부피는 N = 154이므로 N Me = (154 + 1) / 2 = 77.5입니다. 첫 번째와 두 번째 옵션의 빈도를 합하면 다음과 같습니다. 75 + 43 = 118, 즉 우리는 중앙값을 넘어섰습니다. 그래서 나 = 2.

구간 변동 계열에서 분포는 먼저 중앙값이 위치할 구간을 나타냅니다. 그는 불린다 중앙값 . 누적 빈도가 간격 변동 시리즈 볼륨의 절반을 초과하는 첫 번째 간격입니다. 그런 다음 중앙값의 수치는 다음 공식에 의해 결정됩니다.

어디 x 나– 중앙값 간격의 하한 i - 중앙값 간격의 값 에스미-1– 중앙값 이전 간격의 누적 빈도; f 나– 중앙값 간격의 빈도.

예.표 13에 제시된 통계를 바탕으로 절도로 유죄 판결을 받은 범죄자의 평균 연령을 구합니다.

해결책.통계 데이터는 간격 변동 계열로 표시됩니다. 즉, 먼저 중앙값 간격을 결정합니다. 모집단의 부피는 N = 162이므로 중앙값 간격은 18-28 간격입니다. 누적 빈도(15 + 90 = 105)가 간격 변동 시리즈 볼륨(162:2 = 81)의 절반을 초과하는 첫 번째 간격입니다. 이제 위 공식을 사용하여 중앙값의 수치를 결정합니다.

따라서 절도 혐의로 유죄 판결을 받은 사람의 절반이 25세 미만입니다.

패션(모)그들은 인구 단위에서 가장 자주 발견되는 특성의 가치를 부릅니다. 패션은 가장 널리 퍼져 있는 특성의 가치를 식별하는 데 사용됩니다. 개별 시리즈의 경우 모드는 가장 높은 주파수를 갖는 옵션이 됩니다. 예를 들어, 표 3에 제시된 이산 계열의 경우 = 1, 이 값은 가장 높은 빈도인 75에 해당하므로 간격 계열의 모드를 결정하려면 먼저 결정합니다. 모달 간격(가장 높은 빈도를 갖는 간격). 그러면 이 간격 내에서 특징의 값이 발견되는데, 이것이 모드가 될 수 있다.

해당 값은 다음 공식을 사용하여 구합니다.

어디 x 모– 모달 간격의 하한 i – 모달 간격의 값 f 모– 모달 간격의 빈도; f Mo-1– 모달 이전 간격의 빈도; f Mo+1– 모달 다음 간격의 빈도.

예.표 13에 제시된 데이터에서 절도로 유죄 판결을 받은 범죄자의 나이를 구하십시오.

해결책.가장 높은 주파수는 간격 18-28에 해당하므로 모드는 이 간격에 있어야 합니다. 그 값은 위 공식에 의해 결정됩니다.

따라서 절도로 유죄 판결을 받은 범죄자 중 가장 많은 수는 24세입니다.

평균값은 연구 중인 현상 전체의 일반적인 특성을 제공합니다. 그러나 동일한 평균값을 갖는 두 모집단은 연구되는 특성 값의 변동(변이) 정도가 서로 크게 다를 수 있습니다. 예를 들어, 한 법원에서는 3, 3, 3, 4, 5, 5, 5, 12, 12, 15년의 징역형이 부과되었고 다른 법원에서는 5, 5, 6, 6, 7, 7년이 선고되었습니다. , 7, 8, 8, 8세. 두 경우 모두 산술평균은 6.7년이다. 그러나 이들 인구는 평균값에 비해 할당된 수감 기간의 개별 값의 분포가 서로 크게 다릅니다.

그리고 이러한 확산이 상당히 큰 첫 번째 법원의 경우 평균 투옥 기간이 전체 인구를 반영하지 않습니다. 따라서 특성의 개별 값이 서로 거의 다르지 않으면 산술 평균은 주어진 모집단의 특성을 상당히 나타내는 특성이 됩니다. 그렇지 않으면 산술 평균은 이 모집단의 신뢰할 수 없는 특성이 될 것이며 실제로 사용하는 것은 효과적이지 않을 것입니다. 따라서 연구되는 특성 값의 변화를 고려할 필요가 있습니다.

변화-동일한 기간이나 시점에 특정 인구의 여러 단위 간의 특성 값의 차이입니다. "변이(Variation)"라는 용어는 라틴어에서 유래되었습니다. 즉, 차이, 변화, 변동을 의미하는 variatio입니다. 이는 특성의 개별 값이 각 개별 사례마다 다르게 결합되는 다양한 요소(조건)의 결합된 영향으로 형성된다는 사실의 결과로 발생합니다. 특성의 변화를 측정하기 위해 다양한 절대 및 상대 지표가 사용됩니다.

변동의 주요 지표는 다음과 같습니다.

1) 변동 범위;

2) 평균 선형 편차;

3) 분산;

4) 표준편차;

5) 변동계수.

각각에 대해 간단히 살펴보겠습니다.

변화의 범위 R은 계산 용이성 측면에서 가장 접근하기 쉬운 절대 지표로, 주어진 모집단 단위에 대한 특성의 최대값과 최소값 간의 차이로 정의됩니다.

변동 범위(변동 범위)는 특성의 변동성을 나타내는 중요한 지표이지만 극단적인 편차만 볼 수 있으므로 적용 범위가 제한됩니다. 다양성을 기반으로 특성의 변화를 보다 정확하게 특성화하기 위해 다른 지표가 사용됩니다.

평균 선형 편차평균과 특성의 개별 값의 편차 절대 값의 산술 평균을 나타내며 다음 공식에 의해 결정됩니다.

1) 을 위한 그룹화되지 않은 데이터

2) 을 위한 변형 시리즈

그러나 가장 널리 사용되는 변동 측정 방법은 다음과 같습니다. 분산 . 이는 평균값을 기준으로 연구되는 특성 값의 분산 측정을 특성화합니다. 분산은 편차의 제곱 평균으로 정의됩니다.

단순분산그룹화되지 않은 데이터의 경우:

.

가중치가 적용된 분산변형 시리즈의 경우:

논평.실제로 분산을 계산하려면 다음 공식을 사용하는 것이 좋습니다.

단순 분산의 경우

.

가중 분산의 경우

표준 편차는 분산의 제곱근입니다:

표준편차는 평균의 신뢰도를 나타내는 척도입니다. 표준 편차가 작을수록 모집단이 더 동질적이며 산술 평균이 전체 모집단을 더 잘 반영합니다.

위에서 설명한 산란 측정값(변동 범위, 분산, 표준 편차)은 절대적인 지표이므로 특성의 변동 정도를 판단하는 것이 항상 가능한 것은 아닙니다. 일부 문제에서는 상대 산란 지수를 사용해야 하는데 그 중 하나는 다음과 같습니다. 변동 계수.

변동 계수– 산술 평균에 대한 표준 편차의 비율(%로 표시):

변동계수는 서로 다른 특성이나 서로 다른 모집단의 동일한 특성의 변동을 비교 평가하는 것뿐만 아니라 모집단의 동질성을 특성화하는 데에도 사용됩니다. 변동 계수가 33%를 초과하지 않으면(정규 분포에 가까운 분포의 경우) 통계적 모집단은 양적으로 균질한 것으로 간주됩니다.

예.형벌 시스템의 교정 기관에서 법원이 부과한 형을 복역하기 위해 전달된 50명의 죄수에 대한 투옥 조건에 대해 다음 데이터를 사용할 수 있습니다. 5, 4, 2, 1, 6, 3, 4, 3, 2, 2 , 5, 6, 4, 3, 10, 5, 4, 1, 2, 3, 3, 4, 1, 6, 5, 3, 4, 3, 5, 12, 4, 3, 2, 4, 6 , 4, 4, 3, 1, 5, 4, 3, 12, 6, 7, 3, 4, 5, 5, 3.

1. 투옥 기간별로 일련의 분포를 구성합니다.

2. 평균, 분산, 표준편차를 구합니다.

3. 변동계수를 계산하고 연구 대상 모집단의 동질성 또는 이질성에 대한 결론을 내립니다.

해결책.이산형 분포 계열을 구성하려면 옵션과 빈도를 결정해야 합니다. 이 문제의 선택지는 징역형이고, 빈도는 개인 선택의 수이다. 빈도를 계산하면 다음과 같은 이산 분포 계열을 얻습니다.

평균과 분산을 구해보자. 통계자료는 이산변동계열로 표현되므로 가중산술평균과 분산의 공식을 이용하여 계산한다. 우리는 다음을 얻습니다:

= = 4,1;

= 5,21.

이제 표준편차를 계산합니다.

변동 계수 찾기:

결과적으로 통계적 모집단은 양적으로 이질적입니다.

단순 산술 평균

평균값

평균값은 통계에 널리 사용됩니다.

평균값- 이것은 연구중인 현상의 일반적인 조건과 발전 패턴의 효과가 표현되는 일반적인 지표입니다.

통계 평균은 적절하게 통계적으로 구성된 관찰(연속 및 선택적)에서 얻은 대량 데이터를 기반으로 계산됩니다. 그러나 통계 평균은 질적으로 동질적인 인구(대량 현상)에 대한 대량 데이터로부터 계산되는 경우 객관적이고 일반적입니다. 예를 들어, 합자회사와 공기업의 평균 급여를 계산하고 그 결과를 전체 인구로 확장하면 이 평균은 이질적인 인구에 대해 계산되므로 이 평균은 허구입니다. 의미.

평균의 도움으로 개별 관찰 단위에서 어떤 이유로 발생하는 특성 값의 차이가 완화됩니다.

예를 들어, 개별 영업사원의 평균 생산량은 자격, 근무 기간, 연령, 서비스 형태, 건강 등 여러 가지 이유에 따라 달라집니다. 평균 생산량은 전체 인구의 일반적인 특성을 반영합니다.

평균값은 속성 자체와 동일한 단위로 측정됩니다.

각 평균값은 하나의 특성에 따라 연구 대상 인구의 특성을 나타냅니다. 다양한 필수 특성을 기반으로 연구 대상 인구에 대한 완전하고 포괄적인 그림을 얻으려면 현상을 다양한 각도에서 설명할 수 있는 평균값 시스템이 필요합니다.

평균에는 다양한 유형이 있습니다.

    산술 평균;

    조화 평균;

    기하평균;

    평균 제곱;

    평균 입방체.

위에 나열된 모든 유형의 평균은 단순(비가중) 및 가중으로 구분됩니다.

통계에 사용되는 평균의 종류를 살펴보겠습니다.

단순 산술 평균(비가중)은 속성의 개별 값의 합을 해당 값의 수로 나눈 값과 같습니다.

특성의 개별 값을 변형이라고 하며 x i(
); 모집단 단위 수는 n으로 표시되고 특성의 평균값은 . 따라서 산술 단순 평균은 다음과 같습니다.

또는

예시 1. 1 번 테이블

교대조당 근로자의 제품 A 생산에 관한 데이터

이 예에서 가변 속성은 교대당 제품 생산량입니다.

속성의 숫자값(16, 17 등)을 옵션이라고 합니다. 이 그룹 근로자의 평균 생산량을 결정해 보겠습니다.

PC.

단순 산술 평균은 특성의 개별 값이 있는 경우에 사용됩니다. 데이터가 그룹화되지 않았습니다. 데이터가 분포 계열 또는 그룹화 형태로 표시되는 경우 평균은 다르게 계산됩니다.

산술 평균 가중

산술 가중 평균은 속성(변형)의 각 개별 값을 해당 빈도로 곱한 값의 합을 모든 빈도의 합으로 나눈 값과 같습니다.

분포 행에 있는 특성의 동일한 값의 수를 빈도 또는 가중치라고 하며 f i로 표시합니다.

이에 따라 가중 산술 평균은 다음과 같습니다.

또는

평균은 속성의 값뿐만 아니라 해당 빈도에도 의존한다는 것이 공식에서 분명합니다. 집합체의 구성, 구조에 관한 것입니다.

예시 2.표 2

근로자 임금 데이터

이산형 분포 계열 데이터에 따르면 동일한 특성 값(변형)이 여러 번 반복되는 것이 분명합니다. 따라서 옵션 x 1은 총 2회 발생하고 옵션 x 2~6회 등이 발생합니다.

한 근로자의 평균 급여를 계산해 보겠습니다.

각 근로자 그룹의 임금 기금은 옵션과 빈도(
), 그리고 이들 곱의 합은 모든 근로자의 총 임금 기금(
).

간단한 산술 평균 공식을 사용하여 계산을 수행하면 평균 수입은 3,000 루블과 같습니다. (). 얻은 결과를 초기 데이터와 비교하면 평균 임금이 상당히 높아야 한다는 것이 분명합니다(근로자의 절반 이상이 3,000 루블 이상의 임금을 받습니다). 따라서 이러한 경우 단순 산술 평균을 사용한 계산은 잘못된 것입니다.

처리 결과, 통계자료는 이산형 분포 계열의 형태뿐만 아니라 닫힌 구간이나 열린 구간을 갖는 구간 변동 계열의 형태로도 제시될 수 있습니다.

그러한 계열에 대한 산술 평균을 계산하는 것을 고려해 봅시다.

평균은 다음과 같습니다.

평균값

평균값- 숫자 또는 함수 집합의 수치적 특성 - 가장 작은 값과 가장 큰 값 사이의 특정 숫자입니다.

  • 1 기본정보
  • 2 수학 평균의 계층 구조
  • 3 확률이론과 통계학
  • 4 또한 참조하십시오
  • 5개의 메모

기본 정보

평균 이론 개발의 출발점은 피타고라스 학파의 비율 연구였습니다. 동시에 평균 크기와 비율의 개념 사이에는 엄격한 구분이 이루어지지 않았습니다. 그리스 수학자인 Geras의 Nicomachus(AD 1세기 말~2세기 초)와 Alexandria의 Pappus(AD 3세기)는 산술적 관점에서 비율 이론 개발에 중요한 자극을 주었습니다. 평균 개념 개발의 첫 번째 단계는 평균이 연속 비율의 중심 구성원으로 간주되기 시작한 단계입니다. 그러나 진행의 중심 값인 평균 개념은 서로 이어지는 순서에 관계없이 n 개의 용어 시퀀스와 관련하여 평균 개념을 도출하는 것을 가능하게 하지 않습니다. 이를 위해서는 평균의 공식적인 일반화에 의존할 필요가 있습니다. 다음 단계는 연속 비율에서 산술, 기하학, 조화 등의 진행으로의 전환입니다.

통계 역사상 처음으로 평균의 광범위한 사용은 영국 과학자 W. Petty의 이름과 관련이 있습니다. W. Petty는 평균 가치에 통계적 의미를 부여하고 이를 경제 범주와 연결하려는 최초의 사람 중 한 명이었습니다. 그러나 페티는 평균 크기의 개념을 설명하거나 분리하지 않았습니다. A. Quetelet은 평균 이론의 창시자로 간주됩니다. 그는 평균 이론을 지속적으로 개발하고 이에 대한 수학적 기초를 제공하려고 노력한 최초의 사람 중 한 명이었습니다. A. Quetelet은 실제 평균과 산술 평균이라는 두 가지 유형의 평균을 구별했습니다. 실제로 평균은 실제로 존재하는 사물, 즉 숫자를 나타냅니다. 실제로 평균이나 통계적 평균은 동일한 품질, 내부 의미가 동일한 현상에서 파생되어야 합니다. 산술 평균은 동종이지만 서로 다른 많은 숫자에 대해 가장 가까운 아이디어를 제공하는 숫자입니다.

각 유형의 평균은 단순 평균 또는 가중 평균 형태로 나타날 수 있습니다. 중간 형태의 올바른 선택은 연구 대상의 물질적 성격에 따라 결정됩니다. 평균화되는 특성의 개별 값이 반복되지 않는 경우 간단한 평균 공식이 사용됩니다. 실제 연구에서 연구 중인 특성의 개별 값이 연구 대상 인구 단위에서 여러 번 발생하는 경우 특성의 개별 값의 반복 빈도가 전력 평균 계산 공식에 나타납니다. 이 경우 이를 가중 평균 공식이라고 합니다.

위키미디어 재단. 2010.

단순 산술 평균은 주어진 특성의 총 부피를 결정하는 평균 용어입니다. 전체데이터는 이 모집단에 포함된 모든 단위에 균등하게 배포됩니다. 따라서 직원당 평균 연간 생산량은 전체 생산량이 조직의 모든 직원에게 균등하게 분배된 경우 각 직원에게 해당되는 생산량입니다. 산술 평균 단순 값은 다음 공식을 사용하여 계산됩니다.

단순 산술 평균- 전체 특성 수에 대한 특성의 개별 값 합계의 비율과 같습니다.

실시예 1. 6명의 근로자로 구성된 팀은 한 달에 3 3.2 3.3 3.5 3.8 3.1,000 루블을 받습니다.

평균 급여 해결책 찾기: (3 + 3.2 + 3.3 +3.5 + 3.8 + 3.1) / 6 = 3.32,000 루블.

산술 평균 가중

데이터 세트의 양이 크고 분포 계열을 나타내는 경우 가중 산술 평균이 계산됩니다. 이것이 생산 단위당 가중 평균 가격이 결정되는 방법입니다. 총 생산 비용 (생산 단위 가격으로 수량의 제품 합계)을 총 생산 수량으로 나눕니다.

이를 다음 공식의 형태로 상상해 봅시다.

가중 산술 평균- (이 기능의 반복 빈도에 대한 기능 값의 곱의 합계) 대 (모든 기능의 빈도 합계)의 비율과 같습니다. 연구 중인 모집단의 변형에 사용됩니다. 균등하지 않은 횟수가 발생합니다.

실시예 2. 작업장 근로자의 월 평균 급여를 구하세요.

근로자 1,000루블의 급여; 엑스

근로자 수 F

평균 임금은 총 임금을 총 근로자 수로 나누어 구할 수 있습니다.

답변 : 335,000 루블.

간격 계열의 산술 평균

구간 변동 계열의 산술 평균을 계산할 때는 먼저 각 구간의 평균을 상한과 하한의 절반합으로 결정한 다음 전체 계열의 평균을 결정합니다. 열린 간격의 경우 하위 또는 상위 간격의 값은 인접한 간격의 크기에 따라 결정됩니다.

간격 계열에서 계산된 평균은 근사치입니다.

실시예 3. 저녁 학생의 평균 연령을 결정합니다.

나이는 몇년!!x??

학생수

구간의 평균값

구간(나이)의 중간점과 학생 수의 곱

(18 + 20) / 2 =19 18 이 경우 하위 구간의 경계입니다. 20 - (22-20)으로 계산됨

(20 + 22) / 2 = 21

(22 + 26) / 2 = 24

(26 + 30) / 2 = 28

30 이상

(30 + 34) / 2 = 32

간격 계열에서 계산된 평균은 근사치입니다. 근사 정도는 구간 내 모집단 단위의 실제 분포가 균등 분포에 접근하는 정도에 따라 달라집니다.

평균을 계산할 때 절대값뿐만 아니라 상대값(빈도)도 가중치로 사용할 수 있습니다.