目錄/提綱:……
(一)主成分分析法的原理
(二)主成分的推導(dǎo)及其性質(zhì)
(三)主成分的計(jì)算步驟
(四)主成分的分析過程
(五)主成分分析確定權(quán)數(shù)的優(yōu)點(diǎn)
(一)因子分析模型建立
(二)因子分析的步驟
(三)因子分析的計(jì)算過程
(四)因子分析方法的優(yōu)點(diǎn)
(一)原始數(shù)據(jù)標(biāo)準(zhǔn)化
(二)計(jì)算標(biāo)準(zhǔn)化數(shù)據(jù)的相關(guān)系數(shù)矩陣
(三)求相關(guān)系數(shù)矩陣特征值,方差貢獻(xiàn)率,累計(jì)方差貢獻(xiàn)率和主成分負(fù)荷
(四)確定主成分
(五)主成分得分
(六)結(jié)果分析
(一)評價指標(biāo)的選擇
(二)將原始數(shù)據(jù)標(biāo)準(zhǔn)化,以消除變量間在數(shù)量級和量綱上的不同
(三)求標(biāo)準(zhǔn)化矩陣的方差—協(xié)方差矩陣,即原始矩陣的相關(guān)系數(shù)矩陣
(六)求出各因子得分
(七)畫出雙重信息圖biplot
……
本 科 畢 業(yè) 論 文
題目:多元統(tǒng)計(jì)分析及其應(yīng)用——2010年我國各省份電信業(yè)發(fā)展水平的分析及應(yīng)用
學(xué) 院: 數(shù)學(xué)科學(xué)學(xué)院學(xué)院
年 級: 2008級
專 業(yè): 數(shù)學(xué)與應(yīng)用數(shù)學(xué)
多元統(tǒng)計(jì)分析及其應(yīng)用
——2010年我國各省份電信業(yè)發(fā)展水平的分析及應(yīng)用
摘要 本文應(yīng)用多元統(tǒng)計(jì)分析的方法對2010年我國各省份的電信業(yè)發(fā)展水平進(jìn)行綜合評價,建立評價指標(biāo)體系。首先,用主成分分析對原始數(shù)據(jù)進(jìn)行分析處理,得出評價電信業(yè)發(fā)展水平的綜合指標(biāo)。同時用因子分析方法對各地區(qū)電信業(yè)發(fā)展水平進(jìn)行分析作為驗(yàn)證。探索了引起我國各省份電信業(yè)發(fā)展水平的差異性的主要因素,并對如何提高各地區(qū)的電信業(yè)綜合實(shí)力提出建議,以實(shí)現(xiàn)各省份的共同發(fā)展。
關(guān)鍵詞 多元統(tǒng)計(jì)分析 主成分分析 因子分析
Multivariate Statistical Analysis and Its Applications
——Based on the Developmental Level of Telecom Industry in Each Province of China in 2010
Abstract: This article conducts an overall evaluation of the developmental level of telecom industry in each province of China in 2010 based on the method of Multivariate Statistical Analysis aiming at establishing a system of evaluation inde*. First of all, the initial data are analyzed and processed by the use of Principal Component Analysis to obtain the overall evaluation inde*. Meanwhile, the overall evaluation inde* is verified by applying Factor Analysis to analyze the developmental level of telecom industry in each province. This article e*plores the major factors causing the developmental differences of telecom industry in each province and gives suggestions on how to improve the general strength of telecom indu
……(新文秘網(wǎng)http://m.jey722.cn省略2009字,正式會員可完整閱讀)……
作出一個整體性的規(guī)劃,因此多元統(tǒng)計(jì)分析方法得到了普及與應(yīng)用。在構(gòu)造綜合評價指標(biāo)中,如何科學(xué)客觀地將多個復(fù)雜指標(biāo)綜合成少數(shù)幾個簡單指標(biāo),也就是降維處理,這就是我們所要解決的問題之一。我們知道已經(jīng)有很多這樣的降維方法,比如層次分析法,模糊綜合評價法等。但是這些方法都有一個共同的缺點(diǎn)就是帶有人為主觀性,都需要專家評價,然后我們再進(jìn)行信息處理。而主成分分析法則采用了一種完全不同的思路,倍受青睞,它避免了主觀評分。在實(shí)際生活中,比如學(xué)生成績的評價、物價指數(shù)、生活費(fèi)用指數(shù)、商業(yè)活動指數(shù)、企業(yè)經(jīng)濟(jì)效益的分析等等,這都用到了多指標(biāo)的統(tǒng)計(jì)分析方法。對于這些實(shí)際問題進(jìn)行評價時,顯然需要選取很多指標(biāo),而各指標(biāo)之間往往又相互影響、具有相關(guān)性,關(guān)系相當(dāng)復(fù)雜,給統(tǒng)計(jì)分析工作帶來很大困難。因此,我們要通過降維技術(shù),科學(xué)客觀的選擇一組相互無關(guān)的綜合指標(biāo),這就使得主成分分析法成為一種廣受歡迎的綜合評價方法。
主成分分析(簡記PCA)是將多指標(biāo)化為少數(shù)幾個綜合指標(biāo)的一種統(tǒng)計(jì)分析方法,是由英國生物統(tǒng)計(jì)學(xué)家Kart Pearson于1901年首次提出的,后來又由Hotelling于1933年發(fā)展起來。這一方法在處理解決多指標(biāo)的統(tǒng)計(jì)分析中得到廣泛應(yīng)用,是一種很常用的、行之有效的多元統(tǒng)計(jì)分析方法。
(一)主成分分析法的原理
主成分分析法是通過恰當(dāng)?shù)臄?shù)學(xué)變換,使新變量主成分成為原變量的線性組合,并選取少數(shù)幾個方差累積量所占比例較大的主成分,主成分在方差總和中的比例越大,它在綜合評價中的作用就越大。也可以說,在多維幾何空間中,首先,把高維橢球的各個主軸找出來,對主軸作適當(dāng)正交(垂直)旋轉(zhuǎn),再用代表大多數(shù)數(shù)據(jù)信息的最長的幾個軸作為新變量,這些相互正交的新變量是原先變量的線性組合,就是主成分。
主成分分析的成分 和原來變量 之間的關(guān)系(假定原先有 個變量):
這里, 為第 個成分 和第 個原先的變量 之間的線性相關(guān)系數(shù)。
分別叫第一主成分,第二主成分,…,第 主成分,而總和的特性也就是用這些線性關(guān)系式的系數(shù) 來表示的。其中,在選擇加權(quán)數(shù) 時要使 能得到最大解釋變異能力,即要使 能得到最大的變異數(shù),而 則是對原始資料中尚未被 解釋的變異部分擁有最大解釋能力,若以此類推,我們可以找到 個 出來( ),通常原始數(shù)據(jù)有 個 變量時,經(jīng)過轉(zhuǎn)換后,仍可找到 個 出來。然而我們最多只選擇 個 ( = ),希望此愈小愈好,但解釋能力卻能達(dá)到80%以上。除此之外, 個 與原來 個變量 的最大差別是:原始變量中多為彼此相關(guān)的變量,經(jīng)過線性轉(zhuǎn)換后所產(chǎn)生的 個 則為彼此不相關(guān)的新變量。
(二)主成分的推導(dǎo)及其性質(zhì)
設(shè)
其中, 求主成分就是尋求 的線性函數(shù) ,使相應(yīng)的方差達(dá)到最大,即 達(dá)到最大,且 (目的是使 唯一)。此處, 的協(xié)防差矩陣。
定理1 設(shè) 為非負(fù)定對稱矩陣, 是它的 個不相同的特征根,相應(yīng)的特征向量 相互正交,記 = ,則 可表示為 = ,稱為 的譜分解。即存在一個正交陣 ,使 = , 的列向量為相應(yīng)的特征向量。
設(shè) 特征根為 ,相應(yīng)的單位特征向量為 ,令 ,則 ,即 為一正交陣,且:
。
因此 。
于是 。
當(dāng)取 時, 。于是 就是第一主成分,它的方差最大, = = 。
同理, = = 。
另外,
該定理表明:變量 的主成分 是以 特征向量為系數(shù)的線性組合,他們是互不相關(guān),方差為 特征根。而 特征根 ,所以有: 。
性質(zhì):(1) = ,這里, 為 的協(xié)方差陣的特征向量組成的正交陣。
(2) 的 個分量 之間是互不相關(guān)的。
(3) 的 個分量 是按方差大小由大到小排列的。
(4) 的協(xié)方差陣是對角陣。
(5) ,這里, 。
此處定義 為第 個主成分 的方差貢獻(xiàn)率,第一個主成分的貢獻(xiàn)率最大,表明 綜合原始變量 的能力最強(qiáng),而 的綜合能力依次遞減。若只取 (< )個主成分,則稱 為主成分 的累計(jì)方差貢獻(xiàn)率,它表明 的綜合 的能力,通常取 使得累計(jì)貢獻(xiàn)率不低于80%即可。
(6) ,這里, 。
這里, 表示第 個成分 和第 個原先的變量 的相關(guān)系數(shù),也稱為主成分負(fù)荷(loadings,在因子分析中稱之為因子負(fù)荷),矩陣 稱為因子載荷矩陣。在實(shí)際中,通常用 代替 作為主成分系數(shù),因?yàn)樗麄儤?biāo)準(zhǔn)化系數(shù),能反映變量影響大小。
(三)主成分的計(jì)算步驟
(1)設(shè)有 個樣品, 個指標(biāo)將原始數(shù)據(jù)標(biāo)準(zhǔn)化,得到標(biāo)準(zhǔn)化數(shù)據(jù)矩陣:
。
(2)建立變量的相關(guān)系數(shù)陣: 。
(3)求 的特征值 及相應(yīng)的單位特征向量:
, ,…, 。
(4)寫出主成分:
, 。
(四)主成分的分析過程
(1)將原始數(shù)據(jù)的標(biāo)準(zhǔn)化,以消除變量之間在數(shù)量級和量綱上的不同。
設(shè)有 個樣本, 項(xiàng)指標(biāo),可得數(shù)據(jù)矩陣 表示 個樣本, 表示 個指標(biāo), 表示第 個樣本的第 項(xiàng)指標(biāo)值。
用 法對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化變換:
式中 。
(2)求標(biāo)準(zhǔn)化數(shù)據(jù)的相關(guān)矩陣 。
其中: 為指標(biāo) 與指標(biāo) 的相關(guān)系數(shù)
,
即 有 , 。
(3)求相關(guān)矩陣 的特征值和特征向量。
由特征方程式 ,可求得 個特征根 ,將其按大小順序排列為 ,它是主成分的方差,它的大小描述了各個主成分在描述被評價對象上所起作用的大小。由特征方程式,每一個特征根對應(yīng)一個特征向量
, 。
(4)求方差貢獻(xiàn)率,方差累計(jì)貢獻(xiàn)率,確定主成分個數(shù)。
一般主成分個數(shù)等于原始指標(biāo)個數(shù),如果原始指標(biāo)個數(shù)比較多,進(jìn)行綜合評價時就比較麻煩。主成分分析法就是選取盡量少的 個主成分 來進(jìn)行綜合評價,同時還要使損失的信息量盡可能少。設(shè) 為 個主成分, 的值由累計(jì)方差貢獻(xiàn)率 決定,取前 個主成分來反映原評價對象。
(5)用原指標(biāo)的線性組合來計(jì)算各主成分得分:以各主成分對原指標(biāo)的相關(guān)系數(shù)(即載荷系數(shù))為權(quán),將各主成分表示為原指標(biāo)的線性組合,而主成分的經(jīng)濟(jì)意義則由各線性組合中權(quán)數(shù)較大的指標(biāo)的綜合意義來確定,即
, 。
(6)綜合得分:以各主成分的方法貢獻(xiàn)率為權(quán),將其線性組合得到綜合評價函數(shù)。
。
(7)得分排名:利用總得分可以得到得分名次。
(五)主成分分析確定權(quán)數(shù)的優(yōu)點(diǎn)
(1)可消除評價指標(biāo)之間的具有相關(guān)關(guān)系的影響。由于主成分分析在對原指標(biāo)變量進(jìn)行變換后形成了彼此相互獨(dú)立的主成分,并且實(shí)踐證明指標(biāo)間相關(guān)程度越低,主成分分析效果越好。
(2)可減少指標(biāo)選擇的工作量,對于其它評價方法,由于難以消除評價指標(biāo)間的相關(guān)影響, 所以選擇指標(biāo)時要花費(fèi)不少精力,而主成分分析由于可以消除這種相關(guān)影響,所以在指標(biāo)選擇上相對容易些。
(3)主成分分析中各主成分是按方差大小依次排列順序的,在分析問題時,可以舍棄一部分主成分,只取前后方差較大的幾個主成分來代表原變量,從而減少了計(jì)算工作量。
1.3 因子分析法
因子分析是主成分分析的推廣,它也是一種把多個變量化為少數(shù)幾個綜合變量的多元統(tǒng)計(jì)分析方法,但其目的是用有限個不可測的隱變量來解釋原變量之間的相關(guān)關(guān)系。主成分分析通過線性組合將原變量綜合成幾個主成分,用較少的綜合指標(biāo)來代替原來較多的指標(biāo)(變量)。在多元統(tǒng)計(jì)分析中,變量間往往存在相關(guān)性,是什么原因使得變量間有關(guān)系呢?是否存在不能直接觀測到的但影響可測變量變化的公共因子呢?因子分析就是尋找這些公共因子的統(tǒng)計(jì)分析方法,它是在主成分的基礎(chǔ)上構(gòu)筑若干意義較為明確的公因子,以它們?yōu)榭蚣芊纸庠兞,以此考慮原變量間的聯(lián)系與區(qū)別。
因子分析就是以最小的信息損失,將眾多的原始變量濃縮成為少數(shù)幾個因子變量,使得變量具有更高的可解釋性的一種數(shù)據(jù)縮減方法,是多變量分析的主干技術(shù)之一。因子分析法是從研究變量內(nèi)部相關(guān)的依賴關(guān)系出發(fā),把一些具有錯綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個綜合因子的一種多變量統(tǒng)計(jì)分析方法。它的基本思想是將觀測變量進(jìn)行分類,將相關(guān)性較高,即聯(lián)系比較緊密的分在同一類中,而不同類變量之間的相關(guān)性則較低,那么每一類變量實(shí)際上代表了一個基本結(jié)構(gòu),即公共因子。對于所研究的問題,試圖用最少個數(shù)的不可測的公共因子的線性函數(shù)與特殊因子之和來描述原來觀測的每一分量。研究樣本間的相互關(guān)系的因子分析稱為 型因子分析,而研究變量間的相互關(guān)系的因子分析稱為 型因子分析,下面主要討論并運(yùn)用的是 型因子分析。
(一)因子分析模型建立
(1)求解初始因子載荷矩陣 ,也即 。
(2)建立因子模型 。
也即為下式表達(dá):
,
,
…
,
其矩陣形式為: ,其中:
① 是可觀測隨機(jī)向量,均值向量 ,協(xié)方差陣 。且協(xié)方差陣 相關(guān)矩陣 相等(只要將變量標(biāo)準(zhǔn)化即可實(shí)現(xiàn))。
② 是不可測的向量,其均值向量 ,協(xié)方差矩陣 ,即向量的各分量是相互獨(dú)立的。
③ 與 相互獨(dú)立,且 的協(xié)方差陣 對角陣,即各分量 之間是相互獨(dú)立的。
④ 。
⑤ 即 和 是不相關(guān)的。
⑥ ,即 不相關(guān),且方差均為1。
,即 不相關(guān),且方差不同,分別 , , 。
我們把 稱為 的公共因子或潛在因子,矩陣 稱為因子載荷矩陣, 稱為 的特殊因子。 為因子載荷。數(shù)學(xué)上可以證明,因子載荷 就是第 個變量與第 個因子的相關(guān)系數(shù),反映第 個變量在第 個因子上的重要性。
(二)因子分析的步驟
(1)確認(rèn)待分析的原變量是否適合作因子分析。
(2)構(gòu)造因子變量。
(3)利用旋轉(zhuǎn)方法使因子變量更具有可解釋性。
(4)計(jì)算因子變量得分。
(三)因子分析的計(jì)算過程
(1)將原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,即將統(tǒng)一變量減去其均值再除以標(biāo)準(zhǔn)差,以消除量綱的影響,記為 。
(2)計(jì)算相關(guān)系數(shù)據(jù)矩陣 。
(3)求相關(guān)系數(shù)矩陣 的特征向量 和特征值 。
(4)計(jì)算方差貢獻(xiàn)率與累計(jì)貢獻(xiàn)率。
(5)確定公共因子的個數(shù),設(shè) 為 個因子,其中前 個因子包含的數(shù)據(jù)信息總量(即其累計(jì)貢獻(xiàn)率 )不低于80%時,可取前 個因子來反映原評價指標(biāo)。
(6)因子旋轉(zhuǎn):若所得的 個因子無法確定或其實(shí)際意義不是很明顯,這時需要將因子進(jìn)行旋轉(zhuǎn)以獲得較為明顯的實(shí)際含義的新的因子載荷矩陣 。
(7)用原指標(biāo)的線性組合來求各因子得分:采用回歸估計(jì)法、Bartlet ……(未完,全文共31368字,當(dāng)前僅顯示5642字,請閱讀下面提示信息。
收藏《畢業(yè)論文:多元統(tǒng)計(jì)分析及其應(yīng)用——2010年我國各省份電信業(yè)發(fā)展水平的分析及應(yīng)用》)