ﺑﺎﺳﻤﻪ ﺗﻌﺎﻟﯽ آﻣﺎر و اﺣﺘﻤﺎل ﻣﻬﻨﺪﺳﯽ ﻧﯿﻢﺳﺎل اول ٩۴-٩۵ دﮐﺘﺮ ﻣﻄﻬﺮی داﻧﺸﮑﺪه ﻣﻬﻨﺪﺳﯽ ﮐﺎﻣﭙﯿﻮﺗﺮ ﺗﻤﺮﯾﻦ ﻫﻔﺘﻢ آﻣﺎر زﻣﺎن ﺗﺤﻮﯾﻞ ﺑﺨﺶ ﻣﺴﺎﯾﻞ -٩۴/١٠/٢١ :ﺑﺨﺶ ﺷﺒﯿﻪ ﺳﺎزی٩۴/١١/٠٣ : ﻣﺴﺎﯾﻞ ﻣﺴﺎﻟﻪ اول ﻓﺮض ﮐﻨﯿﺪ ﻣﻘﺪار yاز ﻣﺘﻐﯿﺮ ﺗﺼﺎدﻓﯽ Yرا ﻣﺸﺎﻫﺪه ﮐﺮدهاﯾﻢ ،ﮐﻪ از ﺗﻮزﯾﻊ ) f (y; θﭘﯿﺮوی ﻣﯽﮐﻨﺪ θ .ﺑﺮدار ﺗﻤﺎم ﭘﺎراﻣﺘﺮﻫﺎی ﺗﻮزﯾﻊ و yﺑﺮدار ﺗﻤﺎﻣﯽ ﻣﺸﺎﻫﺪات اﺳﺖ .ﻣﻨﻈﻮر از likelihoodﯾﺎ درﺳﺘﯽﻧﻤﺎﯾﯽ θﺑﺮﺣﺴﺐ ،y )L(θ) = f (y; θ اﺳﺖ ﮐﻪ Lﺗﺎﺑﻌﯽ از θﺑﺮای yﺛﺎﺑﺖ اﺳﺖ .در ﺣﺎﻟﺘﯽ ﮐﻪ yﺑﺮداری از ﻣﺸﺎﻫﺪات ﻣﺴﺘﻘﻞ ﺑﺎﺷﺪ ﺑﻪ وﺿﻮح دارﯾﻢ )f (yj ; θ ∏ = )L(θ ﺑﺨﺶ ١ﻓﺮض ﮐﻨﯿﺪ ) y = (y١ , . . . , ynﻧﻤﻮﻧﻪﻫﺎﯾﯽ ﺗﺼﺎدﻓﯽ از ﺗﻮزﯾﻊ ﻧﻤﺎﯾﯽ f (y; θ) = θ−١ e−y/θﺑﺎﺷﺪ .درﺳﺘﯽﻧﻤﺎﯾﯽ yرا ﺣﺴﺎب ﮐﻨﯿﺪ .اﯾﻦ ﻣﻘﺪار ﺑﻪ ازای ﭼﻪ ﻣﻘﺪاری از θﺑﯿﺸﯿﻨﻪ ﻣﯽﺷﻮد؟ آﯾﺎ درﺳﺘﯽﻧﻤﺎﯾﯽ ﺷﺎﻣﻞ ﺗﮏ ﺗﮏ دادهﻫﺎﺳﺖ ﯾﺎ ﻓﻘﻂ ﺗﺎﺑﻌﯽ از آنﻫﺎ را در دل ﺧﻮد دارد؟ ﻣﻌﻤﻮﻻ درﺳﺘﯽﻧﻤﺎﯾﯽ را در ﻣﻘﯿﺎس ﻟﮕﺎرﯾﺘﻤﯽ ﻧﻤﺎﯾﺶ ﻣﯽدﻫﻨﺪ و ﺑﻪ آن log-likelihoodﻣﯽﮔﻮﯾﻨﺪ: ∑ ∑ = )ℓ(θ) = log L(θ = )log f (yj ; θ )ℓj (θ ﺑﺨﺶ ٢ﻣﻘﺪار ) ℓ(θرا ﺑﺮای ﺳﻮال ﻗﺒﻞ ﺣﺴﺎب ﮐﻨﯿﺪ. ﺑﺨﺶ ٣اﮔﺮ در ﺣﺎل ﻣﻘﺎﯾﺴﻪی دو ﻣﺪل ﻣﺘﻔﺎوت ﺑﺮای ﯾﮏﺳﺮی داده ﺑﺎﺷﯿﻢ ،آﯾﺎ ﺻﺤﯿﺢ اﺳﺖ ﮐﻪ ﻣﻘﺪار درﺳﺘﯽﻧﻤﺎﯾﯽ ﻫﺮ ﯾﮏ را ﺣﺴﺎب ﮐﻨﯿﻢ و ﺑﺮ اﺳﺎس آن ﻗﻀﺎوت ﮐﻨﯿﻢ ﮐﻪ ﮐﺪام ﻣﺪل ﺑﺮ دادهﻫﺎ ﺑﯿﺸﺘﺮ ﻣﻨﻄﺒﻖ اﺳﺖ؟ ﻣﯽﺗﻮان ﺑﻪ ﺟﺎی ﻣﻘﺪار اﺻﻠﯽ درﺳﺘﯽ ﻧﻤﺎﯾﯽ ،درﺳﺘﯽﻧﻤﺎﯾﯽ ﻧﺴﺒﯽ ) (Relative Likelihoodرا ﺗﻌﺮﯾﻒ ﮐﺮد .ﭼﻮن ﻣﻘﺪار درﺳﺘﯽﻧﻤﺎﯾﯽ ﺗﺤﺖ ﺗﺒﺪﯾﻼت ﯾﮏ ﺑﻪ ﯾﮏ ﻋﻮض ﻣﯽﺷﻮد ،ﺑﻨﺎﺑﺮاﯾﻦ ﻣﻨﻄﻘﯽ اﺳﺖ ﮐﻪ ﻧﺴﺒﺖ را ﻣﻼ ک ﻗﺮار دﻫﯿﻢ: )L(θ ) maxθ′ L(θ′ = )RL(θ اﯾﻦ ﻧﺴﺒﺖ ﻋﺪدی ﺑﯿﻦ ﺻﻔﺮ و ﯾﮏ ﺧﻮاﻫﺪ ﺑﻮد .ﺑﻨﺎﺑﺮاﯾﻦ ﺑﻪ ﻧﻈﺮ ﻣﯽآﯾﺪ ﮐﻪ ﻣﻘﺎدﯾﺮی از θﮐﻪ ﺑﻪ ازای آنﻫﺎ ﻣﻘﺪار RLزﯾﺎد اﺳﺖ ،ﺑﻬﺘﺮ دادهﻫﺎی ﻣﺎ را ﺗﻮﺻﯿﻒ ﮐﻨﻨﺪ .ﻣﺜﻼ ﺑﮕﻮﯾﯿﻢ اﮔﺮ ، ٣١ < RL(θ) ≤ ١ﻣﻘﺪار θﺑﺴﯿﺎر ﻣﻨﺎﺳﺐ اﺳﺖ. وﻗﺘﯽ ﮐﻪ ﺗﻌﺪاد ﭘﺎراﻣﺘﺮﻫﺎ زﯾﺎد ﺑﺎﺷﺪ ،ﻣﻌﻤﻮﻻ از ﺧﻼﺻﻪﺷﺪه )(Summariezedی درﺳﺘﯽﻧﻤﺎﯾﯽ اﺳﺘﻔﺎده ﻣﯽﮐﻨﻨﺪ ،ﺑﻪ اﯾﻦ ﺷﮑﻞ ﮐﻪ ﺣﻮل ﻧﻘﻄﻪای ﮐﻪ ﻣﻘﺪار درﺳﺘﯽﻧﻤﺎﯾﯽ ﺑﯿﺸﯿﻨﻪ ﻣﯽﺷﻮد )̂ (θﺑﺴﻂ ﺗﯿﻠﻮر ﻣﯽﻧﻮﯾﺴﻨﺪ و ﺗﺎﺑﻊ را ﺑﺎ ﺗﺎﺑﻌﯽ درﺟﻪ ٢ﺗﻘﺮﯾﺐ ﻣﯽزﻧﻨﺪ .ﺑﻪ ̂ MLE ،θﯾﺎ ﺑﺮآوردﮔﺮ ﺑﯿﺸﯿﻨﻪ درﺳﺖﻧﻤﺎﯾﯽ ﻣﯽﮔﻮﯾﻨﺪ) .ﺑﺮآوردﮔﺮ از ﺗﻤﺮﯾﻦ ﻗﺒﻞ ﯾﺎدﺗﺎن ﻫﺴﺖ؟( ١ ﺷﮑﻞ :١ﻣﻘﺪار واﻗﻌﯽ ﭘﺎراﻣﺘﺮ ﺗﻮزﯾﻊ ﻧﻤﺎﯾﯽ e−١ ≈ ٠٫٣۶ﺑﻮده اﺳﺖ. ﺑﺨﺶ ۴اﯾﻦ ﮐﺎر را ﺑﺮای ﺳﻮال ١اﻧﺠﺎم دﻫﯿﺪ .ﯾﻌﻨﯽ ﻣﺸﺘﻖ دوم را در ﻧﻘﻄﻪی ̂ θﻣﺤﺎﺳﺒﻪ ﮐﻨﯿﺪ ،و ﺳﻌﯽ ﮐﻨﯿﺪ ﺗﻘﺮﯾﺒﯽ درﺟﻪ ٢از ﻣﻘﺪار )log RL(θ اراﺋﻪ دﻫﯿﺪ. ﻧﻤﻮدار زﯾﺮ ﻟﮕﺎرﯾﺘﻢ ﺗﺎﺑﻊ درﺳﺘﯽﻧﻤﺎﯾﯽ را ﺑﻪ ازای n = ۵, ١٠, ٢٠, ۴٠, ٨٠ﻧﻤﻮﻧﻪ از ﺗﻮزﯾﻊ ﻧﻤﺎﯾﯽ ﮐﺸﯿﺪه اﺳﺖ )ﮐﺪام ﻧﻤﻮدار ﺑﺮای ﮐﺪام n اﺳﺖ؟( .آﯾﺎ اﯾﻦ ﻣﻮﺿﻮع )ﺑﺴﺘﻪﺗﺮ ﺷﺪن دﻫﺎﻧﻪی ﺳﻬﻤﯽ در ﻧﺰدﯾﮑﯽ ̂ (θﺑﺎ ﻧﺘﯿﺠﻪی ﻣﺴﺌﻠﻪی ۴ﮐﻪ ﺷﻤﺎ ﺑﻪ دﺳﺖ آوردﯾﺪ ،ﻣﻄﺎﺑﻘﺖ دارد؟ ﻣﺸﺨﺺ اﺳﺖ ﮐﻪ ﻫﺮﭼﻪ دﻫﺎﻧﻪی ﺳﻬﻤﯽ ﺑﺴﺘﻪﺗﺮ ﺑﺎﺷﺪ ،ﺑﺎ ﺻﺮاﺣﺖ ﺑﯿﺸﺘﺮی ﻣﯽﺗﻮان ﮔﻔﺖ ﮐﻪ ﭘﺎراﻣﺘﺮ اﺻﻠﯽ ،ﻧﺰدﯾﮏ ﺑﻪ ̂ θاﺳﺖ .ﺑﯿﺎﯾﯿﺪ ﺑﺴﻂ ﺗﯿﻠﻮر را ﺑﻨﻮﯾﺴﯿﻢ: ١ ١ ) log RL(θ) = (θ − θ̂)ℓ′ (θ̂) + (θ − θ̂)٢ ℓ′′ (θ١ ) = (θ − θ̂)٢ ℓ′′ (θ١ ٢ ٢ ﮐﻪ در اﯾﻨﺠﺎ θ١ﻣﻘﺪاری ﺑﯿﻦ ̂ θ, θاﺳﺖ و ﺗﺴﺎوی آﺧﺮ ﻫﻢ ﺑﻪ اﯾﻦ دﻟﯿﻞ اﺳﺖ ﮐﻪ ℓدر ̂ θﺑﯿﺸﯿﻨﻪ اﺳﺖ .دﻗﺖ ﮐﻨﯿﺪ ﮐﻪ دﻫﺎﻧﻪی ﺳﻬﻤﯽ را ﻣﻘﺪار ) ℓ′′ (θﺗﻌﯿﯿﻦ ﻣﯽﮐﻨﺪ .اﯾﻦ ﻣﻘﺪار اﯾﻨﻘﺪر ﻣﻬﻢ اﺳﺖ ﮐﻪ ﺑﻪ آن »اﻃﻼﻋﺎت ﻣﺸﺎﻫﺪه ﺷﺪه« )ﯾﺎ (observed informationﻣﯽﮔﻮﯾﻨﺪ: )d ٢ ℓ(θ) ∑ d ٢ log f (yj ; θ J(θ) = − = − d θ٢ d θ٢ n j=١ ﺑﺨﺶ ۵ﺑﻪ ﻃﻮر ﮐﻠﯽ ،اﻧﺘﻈﺎر ﻣﺎ اﯾﻦ اﺳﺖ ﮐﻪ ﻫﺮ ﭼﻪ دادهﻫﺎ ﺑﯿﺸﺘﺮ ﺷﻮﻧﺪ ،n → ∞ ،ﺑﺎ ﻗﻄﻌﯿﺖ ﺑﯿﺸﺘﺮی ﻣﯽﺗﻮان در ﻣﻮرد ﭘﺎراﻣﺘﺮﻫﺎ ﺣﺮف زد .ﺑﯿﺎن اﯾﻦ ﺣﺮف ﺑﺮ اﺳﺎس ﮔﺰارهﻫﺎی ﮔﺬﺷﺘﻪ ﭼﯿﺴﺖ؟ آﯾﺎ اﯾﻦ ﺣﺮف در ﻣﻮرد ﺗﻮزﯾﻊ ﻧﻤﺎﯾﯽ درﺳﺖ اﺳﺖ؟ ﺣﺎل ﯾﮏ ﺳﻮال ﺟﺎﻟﺐ :اﮔﺮ ﻣﺎ دادهﻫﺎ را داﺷﺘﻪ ﺑﺎﺷﯿﻢ ،ﺧﻮاﻫﯿﻢ ﻓﻬﻤﯿﺪ ﮐﻪ اﻃﻼﻋﺎت ﺑﻪ دﺳﺖ آﻣﺪه از ﭘﺎراﻣﺘﺮﻫﺎی ﻣﺎ ﭼﻘﺪر اﺳﺖ )) ،(J(θآﯾﺎ ﻗﺒﻞ از اﻧﺠﺎم آزﻣﺎﯾﺶ ﻧﯿﺰ ﻣﯽﺗﻮان ﺷﻬﻮدی ﻧﺴﺒﺖ ﺑﻪ اﯾﻦ ﻣﻘﺪار داﺷﺖ؟ ﯾﻌﻨﯽ ﺑﻔﻬﻤﯿﻢ ﮐﻪ ﺑﻌﺪ از اﻧﺠﺎم اﯾﻦ آزﻣﺎﯾﺶ ،ﺣﻮل و ﺣﻮش ﭼﻘﺪر اﻃﻼﻋﺎت ﮐﺴﺐ ﺧﻮاﻫﯿﻢ ﮐﺮد! اﯾﻦ ﮐﺎر اﻧﺠﺎم ﭘﺬﯾﺮ اﺳﺖ و ﺑﻪ آن اﻃﻼﻋﺎت ﻓﯿﺸﺮ ) (Fisher Informationﻣﯽﮔﻮﯾﻨﺪ و ﺑﻪ اﯾﻦ ﺻﻮرت ﺗﻌﺮﯾﻒ ﻣﯽﺷﻮد: ( ) )d ٢ ℓ(θ I(θ) = E − d θ٢ اﮔﺮ دادهﻫﺎی ﻣﺎ ﻧﻤﻮﻧﻪﻫﺎﯾﯽ ﺗﺼﺎدﻓﯽ ﺑﺎﺷﻨﺪ ،دارﯾﻢ ( ) )d ٢ log f (Yj ; θ I(θ) = n · i(θ) = n · E − d θ٢ ٢ ﺑﺨﺶ ۶ﺑﺮای ﺗﻮزﯾﻊ دوﺟﻤﻠﻪای ،ﺑﺎ ﻣﺨﺮج mو اﺣﺘﻤﺎل ﻣﻮﻓﻘﯿﺖ ،pﻣﻘﺪار ) I(pرا ﺣﺴﺎب ﮐﻨﯿﺪ .راﺑﻄﻪی اﻃﻼﻋﺎت ﺑﺎ mﭼﮕﻮﻧﻪ اﺳﺖ؟ ﺑﻨﺎﺑﺮاﯾﻦ ﻃﺒﻖ اﯾﻦ ﺗﻌﺮﯾﻒ ،ﻣﯽﺗﻮان آزﻣﺎﯾﺶﻫﺎ را از ﺟﻬﺖ دادهﻫﺎی ﻣﻮرد ﻧﯿﺎز ﺑﺮای ﻗﻄﻌﯿﺖ ﺑﯿﺸﺘﺮ در ﻣﻮرد ﯾﮏ ﭘﺎراﻣﺘﺮ ﺑﺎ ﻫﻢ ﻣﻘﺎﯾﺴﻪ ﮐﺮد .ﻓﺮض ﮐﻨﯿﺪ آزﻣﺎﯾﺶ ،Aاﻃﻼﻋﺎت ) IA (θو آزﻣﺎﯾﺶ IB (θ) ،Bرا ﻣﯽدﻫﺪ .اﮔﺮ اﻃﻼﻋﺎت اﯾﻦ دو ﺑﺨﻮاﻫﺪ ﯾﮑﺴﺎن ﺑﺎﺷﺪ IA (θ) = IB (θ) ،دارﯾﻢ، nB )iA (θ = nA )iB (θ ⇒ )nA iA (θ) = nB iB (θ ﯾﻌﻨﯽ ﺗﻌﺪاد آزﻣﺎﯾﺶﻫﺎی ﻣﻮردﻧﯿﺎز ﺑﻪ ﻧﺴﺒﺖ ﻋﮑﺲ اﻃﻼﻋﺎت ﺑﻪ دﺳﺖ ﻣﯽآﯾﻨﺪ. ﺑﺨﺶ ٧ﻣﯽﺧﻮاﻫﯿﻢ ﺑﺒﯿﻨﯿﻢ اﮔﺮ اﻋﺪاد را رﻧﺪ ﮐﻨﯿﻢ ،ﭼﻘﺪر اﻃﻼﻋﺎت از دﺳﺖ ﻣﯽرود .ﻓﺮض ﮐﻨﯿﺪ Yﻣﺘﻐﯿﺮی ﺑﺎ ﺗﻮزﯾﻊ ) N (٠, σﺑﺎﺷﺪ .در ذﺧﯿﺮهﺳﺎزی دادهﻫﺎ ،ﻣﻘﺪار Yﺑﻪ ﻣﻘﺪار Xرﻧﺪ ﺷﺪه ،ﮐﻪ Xﻧﺰدﯾﮏﺗﺮﯾﻦ ﻣﻀﺮب δﺑﻪ Yاﺳﺖ .ﯾﻌﻨﯽ اﮔﺮ Yدر ﺑﺎزهی )[(k − ١٢ )δ, (k + ١٢ )δ ﺑﺎﺷﺪ X = kδ ،ﺧﻮاﻫﺪ ﺑﻮد. ﻧﺴﺒﺖ ﻣﻘﺪار اﻃﻼﻋﺎت را ﺑﺮای Xو Yدر ﻣﻮرد σﺑﻪ دﺳﺖ آورﯾﺪ. ﻣﺴﺎﻟﻪ دوم ﻓﺮض ﮐﻨﯿﺪ Y١ , . . . , Ynﻧﻤﻮﻧﻪای ﺗﺼﺎدﻓﯽ و ﻧﺮﻣﺎل ﺑﺎﺷﻨﺪ Ȳ .را ﻣﯿﺎﻧﮕﯿﻦ ﻧﻤﻮﻧﻪای و S ٢را وارﯾﺎﻧﺲ ﻧﻤﻮﻧﻪای ﻣﯽﮔﻮﯾﯿﻢ و ﺑﺮاﺑﺮ ﻣﻘﺎدﯾﺮ زﯾﺮ ﻗﺮار ﻣﯽدﻫﯿﻢ: n ∑ ١ Y١ + · · · + Yn = , S٢ (Yj − Ȳ )٢ = ̄Y n n−١ j=١ ﻫﻤﺎﻧﻄﻮر ﮐﻪ ﻣﯽداﻧﯿﺪ اﯾﻦﻫﺎ ﺑﺮآوردﮔﺮﻫﺎﯾﯽ از ﻣﻘﺎدﯾﺮ µو σ ٢ﻫﺴﺘﻨﺪ .ﺳﻌﯽ ﮐﻨﯿﺪ ﮔﺰارهﻫﺎی زﯾﺮ را ﺛﺎﺑﺖ ﮐﻨﯿﺪ: ) Ȳ ∼ N (µ, n−١ σ ٢ (n − ١)S ٢ ∼ σ ٢ χ٢n−١ ﻣﺴﺎﻟﻪ ﺳﻮم ﻓﺮض ﮐﻨﯿﺪ دادهﻫﺎﯾﯽ در اﺧﺘﯿﺎر دارﯾﺪ و ﻣﯽداﻧﯿﺪ ﮐﻪ دادهﻫﺎی ﺷﻤﺎ از kدﺳﺘﻪی ﻣﺘﻔﺎوت ١, . . . , kآﻣﺪه اﺳﺖ .ﺑﺮای ﻫﺮ ﻣﺸﺎﻫﺪهی xاﺣﺘﻤﺎل اﯾﻨﮑﻪ xاز دﺳﺘﻪی ‐iام آﻣﺪه ﺑﺎﺷﺪ را πiﻓﺮض ﮐﺮدهاﯾﺪ .ﺑﻪ ﮐﻤﮏ آﻣﺎرهی ﭘﯿﺮﺳﻮن ﻣﯽﺗﻮاﻧﯿﺪ درﺳﺘﯽ ﻓﺮض ﭼﻨﯿﻦ اﺣﺘﻤﺎلﻫﺎﯾﯽ ﺑﺮای دﺳﺘﻪﻫﺎﯾﺘﺎن را آزﻣﻮن ﮐﻨﯿﺪ .ﺛﺎﺑﺖ ﮐﻨﯿﺪ اﮔﺮ ﺗﻌﺪاد nﻣﺸﺎﻫﺪه داﺷﺘﻪ ﺑﺎﺷﯿﻢ و Oiرا ﺗﻌﺪاد ﻣﺸﺎﻫﺪات دﺳﺘﻬﯽ ‐iام ﺑﮕﯿﺮﯾﻢ ﺧﻮاﻫﯿﻢ داﺷﺖ، → χ٢k−١ k ∑ (Oi − nπi )٢ nπi ٣ i=١ ﺷﺒﯿﻪ ﺳﺎزی ﺳﻮال اول ﺑﻪ داﻧﺸﺠﻮﯾﺎن ﯾﮏ ﮐﻼس ۵٠ﻧﻔﺮه ﯾﮏ ﺗﻤﺮﯾﻦ داده ﺷﺪه اﺳﺖ .در اﯾﻦ ﺗﻤﺮﯾﻦ اﻓﺮاد ﺑﺎﯾﺪ از زﻣﺎن ﺻﻔﺮ ﺷﺮوع ﺑﻪ روﺷﻦ ﮐﺮدن ﻻﻣﭗ ﮐﻨﻨﺪ و ﭘﺲ از ﺳﻮﺧﺘﻦ ﻫﺮ ﻻﻣﭗ ،ﺑﻼﻓﺎﺻﻠﻪ ﻻﻣﭗ ﺑﻌﺪی را روﺷﻦ ﮐﻨﻨﺪ و در آﺧﺮ زﻣﺎن ﺳﻮﺧﺘﻦ ﻻﻣﭗ ١٠٠را ﮔﺰارش ﮐﻨﻨﺪ .اﻋﺪاد ﮔﺰارش ﺷﺪهی اﯾﻦ اﻓﺮاد در ﻓﺎﯾﻞ ” ”d1.txtﺑﻪ ﺷﻤﺎ داده ﺷﺪه اﺳﺖ .اﮔﺮ ﺑﺪاﻧﯿﻢ ﮐﻪ ﻋﻤﺮ ﻻﻣﭗﻫﺎ ﯾﮏ ﻣﺘﻐﯿﺮ ﺗﺼﺎدﻓﯽ ﺗﻮاﻧﯽ ﺑﺎ ﭘﺎراﻣﺘﺮ ١ﻣﯽﺑﺎﺷﺪ ،ﺑﺎ اﺳﺘﻔﺎده از ﻗﻀﯿﻪ ﺣﺪ ﻣﺮﮐﺰی ﺑﻪ ﺳﻮاﻻت زﯾﺮ ﭘﺎﺳﺦ دﻫﯿﺪ: .١ﻓﺮض ﮐﻨﯿﺪ ﮐﻪ ﺷﻤﺎ ﺑﺮای ﺗﺼﺤﯿﺢ ﺗﻤﺮﯾﻦ اﯾﻦ اﻓﺮاد ﺑﺎﯾﺪ ﻓﯿﻠﻢ ﻋﻤﻠﮑﺮد آﻧﻬﺎ را ﺗﻤﺎﺷﺎ ﮐﻨﯿﺪ اﻣﺎ ﭼﻮن اﯾﻦ ﮐﺎر وﻗﺖ ﮔﯿﺮ اﺳﺖ ﺗﺼﻤﯿﻢ ﻣﯽﮔﯿﺮﯾﺪ ﮐﻪ از داﻧﺶ آﻣﺎری ﺧﻮد ﺑﻬﺮه ﺑﮕﯿﺮﯾﺪ .روﺷﯽ اراﻳﻪ ﮐﻨﯿﺪ ﮐﻪ ﺑﺘﻮان ﮔﻔﺖ اﮔﺮ ﮐﺴﯽ آزﻣﺎﯾﺶ را ﺑﻪ درﺳﺘﯽ اﻧﺠﺎم داده ﺑﺎﺷﺪ ،ﺑﺎ اﺣﺘﻤﺎل ٩۵ درﺻﺪ ﻧﻤﺮهی ﻗﺒﻮﻟﯽ ﻣﯽﮔﯿﺮد و ﺑﺮ اﯾﻦ اﺳﺎس ﺑﻪ ﻫﺮ ﮐﺪام از اﻓﺮاد ﯾﮏ ﻧﻤﺮه اﺧﺘﺼﺎص دﻫﯿﺪ .اﮔﺮ ﭘﺎﺳﺦ درﺳﺖ اﺳﺖ ١و اﮔﺮ ﻧﺎدرﺳﺖ اﺳﺖ ٠را ﺑﻪ ﻋﻨﻮان ﻧﻤﺮه ،در ﺳﻄﺮﻫﺎی ﻓﺎﯾﻞ ” ”p11.txtﯾﺎدداﺷﺖ ﻓﺮﻣﺎﯾﯿﺪ. .٢ﺣﺎل ﺷﻤﺎ دوﺳﺖ دارﯾﺪ ﮐﻪ ﺑﻪ ﻃﻮر ﻣﯿﺎﻧﮕﯿﻦ ﺗﻨﻬﺎ ﯾﮑﯽ از اﻓﺮاد ﮐﻼس ﺑﻪ ﺷﻤﺎ در ﻣﻮرد ﻧﻤﺮهی ﺧﻮد اﻋﺘﺮاض ﮐﻨﺪ )ﻓﺮض ﮐﻨﯿﺪ ﻓﻘﻂ اﻓﺮادی ﮐﻪ آزﻣﺎﯾﺶ را ﺑﻪ درﺳﺘﯽ اﻧﺠﺎم دادهاﻧﺪ و ﻧﻤﺮهی ١ﻧﮕﺮﻓﺘﻪاﻧﺪ اﻋﺘﺮاض ﻣﯽﮐﻨﻨﺪ( .ﺑﺮای اﯾﻦ ﮐﺎر ﯾﮏ روش اراﺋﻪ ﮐﻨﯿﺪ و ﺑﺮ اﺳﺎس آن ﻧﻤﺮهﻫﺎی اﻓﺮاد را در ﻓﺎﯾﻞ ” ”p12.txtﯾﺎدداﺷﺖ ﮐﻨﯿﺪ .ﯾﺎدداﺷﺖ ﮐﻨﯿﺪ .آﯾﺎ اﺳﺘﻔﺎده از اﯾﻦ روشﻫﺎ ﺑﻪ ﻧﻔﻊ داﻧﺶ آﻣﻮزان ﺗﻨﺒﻞ اﺳﺖ ﯾﺎ ﺑﻪ ﺿﺮر آنﻫﺎ؟ .٣اﮔﺮ ﺑﺮای ﺗﻤﺎم اﻓﺮاد ﻓﯿﻠﻢﻫﺎ ﻧﮕﺎه ﺷﻮد ،ﺧﻄﺎی ﺗﺼﺤﯿﺢ ٠ﺧﻮاﻫﺪ ﺑﻮد ،اﻣﺎ زﻣﺎن زﯾﺎدی ﺻﺮف ﺧﻮاﻫﺪ ﺷﺪ .ﯾﮏ روش ﻣﻨﺎﺳﺐ ﻣﯽﺗﻮاﻧﺪ آن ﺑﺎﺷﺪ ﮐﻪ ﺟﻮابﻫﺎﯾﯽ ﮐﻪ ﺧﯿﻠﯽ ﺧﻮب ﻫﺴﺘﻨﺪ را از ﺑﺮرﺳﯽ ﺧﺎرج ﮐﻨﯿﻢ و ﺟﻮابﻫﺎﯾﯽ ﮐﻪ ﻣﺸﮑﻮک ﻫﺴﺘﻨﺪ را ﺑﺮرﺳﯽ ﮐﻨﯿﻢ .ﺑﺮای اﯾﻦ ﮐﺎر ﯾﮏ روش ﻣﻨﺎﺳﺐ اراﺋﻪ ﮐﻨﯿﺪ و ﻧﻤﺮاﺗﯽ را ﮐﻪ از ﺑﺮرﺳﯽ ﺧﺎرج ﻣﯽﮐﻨﯿﺪ را ﺑﺎ ﻋﺪد ١در ﻓﺎﯾﻞ ” ”p13.txtﻣﺸﺨﺺ ﮐﻨﯿﺪ و ﺑﻪ ﺟﺎی دﯾﮕﺮ اﻋﺪاد ﮔﺰارش ﺷﺪه ٠ﺑﮕﺬارﯾﺪ .اﺗﺨﺎذ اﯾﻦ روش ﺑﻪ ﻧﻔﻊ اﻓﺮاد ﺗﻨﺒﻞ ﮐﻼس اﺳﺖ ﯾﺎ ﺑﻪ ﺿﺮر آنﻫﺎ؟ در اﯾﻦ ﺗﻤﺮﯾﻦ ﻓﺮض ﺷﺪه اﺳﺖ ﮐﻪ اﻓﺮاد ﺗﻘﻠﺐ ﻧﻤﯽﮐﻨﻨﺪ و اﻋﺪاد ﮔﺰارش ﺷﺪهی آنﻫﺎ ﺗﻨﻬﺎ ﻧﺸﺎن دﻫﻨﺪهی ﻣﻬﺎرت آنﻫﺎ در روﺷﻦ ﮐﺮدن ﻻﻣﭗﻫﺎ و اﻧﺪازهﮔﯿﺰی زﻣﺎن و ﻧﯿﺰ ﺳﺮﻋﺖ ﻋﻤﻞ آنﻫﺎ اﺳﺖ! ﻣﺜﻼ اﮔﺮ ﺷﺨﺼﯽ ﻻﻣﭗ را ﺧﻮب ﻧﺒﻨﺪد ﻋﻤﺮ آن ﮐﻤﺘﺮ ﻣﯽﺷﻮد و اﮔﺮ ﺳﺮﻋﺖ ﻋﻤﻞ ﺧﻮﺑﯽ ﻧﺪاﺷﺘﻪ ﺑﺎﺷﺪ زﻣﺎن ﺑﯿﺸﺘﺮ از ﻣﻘﺪار واﻗﻌﯽ را ﮔﺰارش ﺧﻮاﻫﺪ ﮐﺮد و اﮔﺮ در اﻧﺪازهﮔﯿﺮی زﻣﺎن ﻣﺸﮑﻞ داﺷﺘﻪ ﺑﺎﺷﺪ ﻣﻤﮑﻦ اﺳﺖ زﻣﺎن را ﺑﯿﺸﺘﺮ ﯾﺎ ﮐﻤﺘﺮ از ﻣﻘﺪار واﻗﻌﯽ ﮔﺰارش ﮐﻨﺪ .ﻫﻤﭽﻨﯿﻦ ﻧﻔﻊ ﯾﺎ ﺿﺮر روشﻫﺎ را ﺑﻪ ﻧﺴﺒﺖ ﺗﺼﺤﯿﺢ ﻣﻮرد ﺑﻪ ﻣﻮرد ﺗﻤﺮﯾﻦﻫﺎ ﺑﺎ ﻣﺸﺎﻫﺪهی ﻓﯿﻠﻢ ﺗﻤﺮﯾﻦﻫﺎ ﺑﺴﻨﺠﯿﺪ. ﺳﻮال دوم اﻋﺪاد داده ﺷﺪه در ﻓﺎﯾﻞ ” ”d2.txtﻫﺮ ﮐﺪام ﻣﯿﺎﻧﮕﯿﻦ ٢٠٠ﻧﻤﻮﻧﻪی ﺗﺼﺎدﻓﯽ از ﯾﮑﯽ از ﺗﻮزﯾﻊﻫﺎی زﯾﺮ ﻫﺴﺘﻨﺪ. Exponential(λ = ٠٫١١) , [mean = ١/λ] .١ N ormal(µ = ١٠٫۵, sigma = ٣) , [variance = σ ٢ ] .٢ P oisson(λ = ١٠) , [mean = λ] .٣ در ﻓﺎﯾﻞ ” ”p2.txtﻣﺸﺨﺺ ﮐﻨﯿﺪ ﮐﻪ ﻣﺤﺘﻤﻞﺗﺮﯾﻦ ﺗﻮزﯾﻊ ﻣﺘﻨﺎﻇﺮﺑﺮای ﻋﺪد ﮔﺰارش ﺷﺪه ﮐﺪام اﺳﺖ .اﯾﻦ ﻣﺸﺨﺺ ﮐﺮدن ﺑﺎ ﯾﮑﯽ از اﻋﺪاد ٢ ،١و ﯾﺎ ٣ﺻﻮرت ﻣﯽﭘﺬﯾﺮد .واﺿﺢ اﺳﺖ ﮐﻪ ﻧﻤﯽﺗﻮان اﻧﺘﻈﺎر داﺷﺖ ﮐﻪ ﺗﻤﺎم ﺣﺪسﻫﺎی ﻣﺎ در اﯾﻦ ﺑﺨﺶ درﺳﺖ ﺑﺎﺷﺪ .اﻧﺘﻈﺎر دارﯾﺪ ﮐﻪ ﺗﻮزﯾﻊ ﺣﺪود ﭼﻨﺪ ﺗﺎ از اﻋﺪاد ﺑﺎ آﻧﭽﻪ ﺑﻪ ﻋﻨﻮان ﻣﺤﺘﻤﻞ ﺗﺮﯾﻦ ﺗﻮزﯾﻊ ﺑﻪ دﺳﺖ آورده اﯾﺪ ﯾﮑﯽ ﺑﺎﺷﺪ؟ ﺳﻮال ﺳﻮم در اﯾﻦ ﺳﻮال از ﮐﺘﺎﺑﺨﺎﻧﻪی ” ”MASSو ﻣﺠﻤﻮﻋﻪ دادهی ” ”Bostonﮐﻪ در ﻫﻤﺎن ﮐﺘﺎﺑﺨﺎﻧﻪ وﺟﻮد دارد ،اﺳﺘﻔﺎده ﮐﻨﯿﺪ .ﭘﺲ از ﺑﺎرﮔﺬاری ﮐﺘﺎﺑﺨﺎﻧﻪ، اﯾﻦ ﻣﺠﻤﻮﻋﻪ داده ﺑﻪ راﺣﺘﯽ و ﺑﺎ ﻧﻮﺷﺘﻦ اﺳﻢ آن ﻗﺎﺑﻞ دﺳﺘﺮﺳﯽ اﺳﺖ .ﺑﺎ ﻧﻮﺷﺘﻦ ?Bostonﻣﯽ ﺗﻮاﻧﯿﺪ ﺑﻪ ﺗﻮﺿﯿﺤﺎﺗﯽ در ﻣﻮرد اﯾﻦ دادﮔﺎن دﺳﺖ ﭘﯿﺪا ﮐﻨﯿﺪ. در اﯾﻦ ﺗﻤﺮﯾﻦ ﻫﺪف آن اﺳﺖ ﮐﻪ ﺑﺎ اﺳﺘﻔﺎده از ﯾﺎﻓﺘﻦ ﯾﮏ ﺧﻂ ﮐﻪ ﻣﺠﺬور ﺧﻄﺎ را ﮐﻤﯿﻨﻪ ﮐﻨﺪ ،ﺑﻪ ﭘﯿﺶ ﺑﯿﻨﯽ ﻣﻘﺎدﯾﺮ ﺳﺘﻮن آﺧﺮ اﯾﻦ دادﮔﺎن ) (medvﺑﭙﺮدازﯾﻢ .ﻣﯽﺧﻮاﻫﯿﻢ ﻣﻘﺎدﯾﺮ ﺳﺘﻮن آﺧﺮ را ﺑﻪ ﻋﻨﻮان ﺗﺎﺑﻌﯽ از دﯾﮕﺮ ﺳﺘﻮنﻫﺎ در ﻧﻈﺮ ﺑﮕﯿﺮﯾﻢ و از ﺑﯿﻦ ﺳﺘﻮنﻫﺎی دﯾﮕﺮ آن را اﻧﺘﺨﺎب ﮐﻨﯿﻢ ۴ ﮐﻪ ﺑﻬﺘﺮﯾﻦ ﻗﺪرت ﭘﯿﺶ ﺑﯿﻨﯽ در ﻣﻮرد ﻣﻘﺎدﯾﺮ ﺳﺘﻮن آﺧﺮ را ﺑﻪ ﻣﺎ ﻣﯽدﻫﺪ .ﭘﺲ ﭼﻮن در ﮐﻞ ١۴ﺳﺘﻮن دارﯾﻢ ﺷﻤﺎ ﺑﺎﯾﺪ ١٣ﺧﻂ ﭘﯿﺪا ﮐﻨﯿﺪ و ﺑﺮرﺳﯽ ﮐﻨﯿﺪ ﮐﻪ ﮐﺪام ﯾﮑﯽ از اﯾﻦ ﺧﻂﻫﺎ ،ﺧﻄﺎی ﮐﻤﺘﺮی در ﺗﺨﻤﯿﻦ ﻣﻘﺎدﯾﺮ ﺳﺘﻮن آﺧﺮ دارد .ﻣﻘﺎدﯾﺮ ﺧﻄﺎی ﻫﺮ ﮐﺪام از ﻣﻮارد را ﺑﻪ ﺗﺮﺗﯿﺐ در ﯾﮏ ﺧﻂ از ﻓﺎﯾﻞ ” ”p3.txtﺑﻨﻮﯾﺴﯿﺪ .ﻫﻤﭽﻨﯿﻦ ﻧﻤﻮدار ﺑﻬﺘﺮﯾﻦ ﺧﻂ را در ﮔﺰارش ﺧﻮد رﺳﻢ ﮐﻨﯿﺪ. ﺳﻮال ﭼﻬﺎرم ﻓﺮض ﮐﻨﯿﺪ ﺟﺪول زﯾﺮ ﺑﯿﺎﻧﮕﺮ ﺗﻌﺪاد ﮐﻼسﻫﺎی ﯾﮏ داﻧﺸﮕﺎه ﺑﺎ ﺗﻌﺪاد ﻣﺸﺨﺼﯽ از داﻧﺸﺠﻮﯾﺎن ﺑﺎﺷﺪ .اﺑﺘﺪا ﺗﻌﺪاد ﻣﻨﺎﺳﺒﯽ داﻧﺸﺠﻮ در ﻧﻈﺮ ﺑﮕﯿﺮﯾﺪ و ﺑﻪ ﻫﺮ داﻧﺸﺠﻮ ۵ﯾﺎ ۶ﮐﻼس اﺧﺘﺼﺎص دﻫﯿﺪ ﺑﻪ ﮔﻮﻧﻪای ﮐﻪ ﻣﻄﺎﺑﻖ ﺟﺪول زﯾﺮ ﺑﺎﺷﺪ .ﺣﺎل ﻣﯿﺎﻧﮕﯿﻦ اﻧﺪازهی ﮐﻼسﻫﺎ را ﺑﺎ اﺳﺘﻔﺎده از ﺟﺪول ﺑﻪ دﺳﺖ ﺑﯿﺎورﯾﺪ .ﯾﮏ روش ﺑﺮای ﺗﺨﻤﯿﻦ زدن اﻧﺪازهی ﮐﻼسﻫﺎی اﯾﻦ داﻧﺸﮕﺎه آن اﺳﺖ ﮐﻪ ﺗﻌﺪادی داﻧﺸﺠﻮ را ﺑﻪ ﺻﻮرت ﺗﺼﺎدﻓﯽ اﻧﺘﺨﺎب ﮐﻨﯿﻢ و از آن ﻫﺎ ﻣﯿﺎﻧﮕﯿﻦ اﻧﺪازهی ﮐﻼسﻫﺎﯾﯽ را ﮐﻪ در آن ﺣﻀﻮر دارﻧﺪ را ﺑﭙﺮﺳﯿﻢ و ﺑﯿﻦ اﯾﻦ اﻋﺪاد ﺑﻪ دﺳﺖ آﻣﺪه ﻣﯿﺎﻧﮕﯿﻦ ﺑﮕﯿﺮﯾﻢ .اﯾﻦ ﻋﺪد را ﺑﺎ ﻣﯿﺎﻧﮕﯿﻦ واﻗﻌﯽ ﻣﻘﺎﯾﺴﻪ ﮐﻨﯿﺪ و ﻧﺘﯿﺠﻪ ﮔﯿﺮی )اﺧﻼﻗﯽ!( ﮐﻨﯿﺪ .ﻫﻤﭽﻨﯿﻦ ﻧﻤﻮدار ﺗﺨﻤﯿﻦ ﺑﻪ دﺳﺖ آﻣﺪه را ﺑﺮ ﺣﺴﺐ اﻧﺪازهی ﻧﻤﻮﻧﻪ رﺳﻢ ﮐﻨﯿﺪ. ﺗﻌﺪاد داﻧﺸﺠﻮﯾﺎن در ﮐﻼس ۵-٩ ١٠-١۴ ١۵-١٩ ٢٠-٢۴ ٢۵-٢٩ ٣٠-٣۴ ٣۵-٣٩ ۴٠-۴۴ ۴۵-۴٩ ۵٠-۵۴ ۵ ﺗﻌﺪاد ﮐﻼسﻫﺎ ٨ ٨ ١۴ ۴ ۶ ١٢ ٨ ٣ ٢ ١
© Copyright 2025 Paperzz