close

海莉 (Hayley Westenra) 今年中秋夜來台灣演唱. 她總共獻唱了14首她的經典歌曲. 筆者有幸參予其中, 詳實的把這14首歌曲及一些週邊花絮用我的DV詳實紀錄下來. 最後放置於 YouTube 上, 算是給所有粉絲一個詳實的影像紀錄.

海莉中秋夜 純淨美聲 演唱會

有趣的是, 我發現 YouTube 有個很強的功能, 叫做 YouTube Insight. 真的讓人讚嘆, 美國不愧還是執世界"資訊技術"(I.T.)的牛耳. 原來自從你一進入YouTube網站之後, YouTube其實比你想像的還做更多的事情. 它會詳實紀錄你在YouTube網站的行為活動, 這些資訊乍看之下似乎沒啥意義. 但經過適當的處理分析, 就可以轉成有意義的資料. YouTube Insight 就是這樣, 它會提供關於這個影片, 觀賞者的一些行為資料, 給影片提供者參考.

工程師就是這樣, 看到數字就會興奮起來. 心裡就會有股莫名奇妙的聲音不斷響起, 來吧!! 來吧!! 讓我們試看看, 能不能從這些毫無頭緒的數字中看出些什麼. 讓我們把它料理成一碟碟可口的小菜吧! 

既然要處理數據, 免不了還是得用點數學統計理論啦. 讓我們先把一些統計的假設搞清楚. 免得到最後, 垃圾進去還是垃圾出來. 或是不小心把垃圾看成黃金. 這就搞笑囉.

數學統計的定律, 例如有名的統計基礎--中央極限定理, 基於一個很重要的條件. 樣本是必須以隨機的方式被抽樣的. 以比較容易了解的方式來說明, 例如現在教室裡面有一群學生在那裡, 老師上課進行點名來量他們的體重好囉. 統計理論告訴我們, 執行的關鍵在老師點名的方式! 假如老師真的是拿個骰子, 根據骰子的指示沒有偏倚的來點名抽取樣本. 意即這個點名的程序, 確實夠隨機的話, 那抽出來的樣本就會完全遵守中央極限定理 -- 不管教室裡面學生原來體重的分布為何, 抽樣出來的樣本, 它們的平均值分布會遵守常態分布. 而這個樣本平均值所組成的常態分佈, 其標準差跟母體標準差則會遵守中央極限定理所宣稱的公式.

假如老師點名沒遵守這個隨機性呢? 例如, 老師隨著自己的印象來點名. 而他的印象其實是不太隨機的, 而是偏重某些人而不自知. 那中央極限定理就完全失效囉. 而根據這個統計基石所建構出來的統計理論跟預測出來的所有統計數據或是報告於是完全變成工程師跟工程師老闆們用來看了自己爽用的廢物! (常常都是這樣啦...)

我們等一會兒要看的資料, 也會面臨同樣的問題. 這裡必須討論兩個假設:


假設1. 假設會點擊而進來我的 YouTube 網站觀賞海莉影片的觀眾們, 他們滿足隨機抽樣所需要具備的隨機性.

意即世界上所有的網民發現我的網站的機會都是均等的, 不管他是否在美國, 日本, 台灣... 不會因為地域不同而造成不同. 這點就很明顯, 在中國大陸, 因為政府網路管制的關係. 所以應該只有少數的網民有能力或是機會突破政府的封鎖而看到我的網站. 自然會因為這樣而造成抽樣的不平均.


假設2. 假設每個地方的的每個人上網率是幾乎相等而沒有差異的.

如果上網率不相等, 例如假如在台灣的任何一個人使用網路的比例是60%, 假如在美國使用網路的比例卻是40%. 這樣我的抽樣就會失真囉. 抽到台灣人的機會會變成比較大. 自然這就不符合隨機抽樣的條件.


乍看之下, 這兩個條件要完全符合, 這真的是難上加難. 不過沒關係, 工程師也是很嘴砲的. 第一個假設, 我可以換個說法, 硬是排除掉這些有問題的地區. 問題便迎刃而解. 而第二個假設, 我可以用在最後解釋數據的時候. 當那些統計數據極低的區域, 我可以說可能是因為上網率極低的關係而強制忽略掉. 合併這兩個假設, 最後的最終假設如下:

忽略掉那些網路管制或不發達的國家, 如中國, 非洲, ... 且假設被統計的國家上網率是大概相等的, 同時搜尋引擎不會因不同國家不同語言而造成太大的發現我網站的差異性. (真是太嘴砲囉... 哈! )


趕快來看數據吧, 同時讓我們先來解答下面兩個有趣的問題:

1. 海莉的粉絲男生跟女生的比例為何? 在不同地方的差異性呢? 為什麼??

2. 海莉的粉絲的年齡層為何? 在不同地方的差異性呢? 為什麼??



先來看全世界中, 海莉的粉絲性別分布資料


All gender


先來看分佈吧.

如果把18-24歲歸類為"年輕人", 25-34歲把他們歸類為"社會中堅", 35-44歲把他們歸類為"中年老頭子", 55-65歲把他們歸類為"退休老人"

分布真的很讓人驚訝. 海莉的粉絲以"中年老頭子"為最多. 其次為"退休老人", 再來才是"社會中堅", 跟"年輕人".  這... 

以性別來分的話, 89%的海莉粉絲是男性, 女性只佔了11%. 而且這些女性大部分是35-44歲的中年女性.

哈哈哈...  真是太令人驚訝囉!


再來, 分區域來看吧


Taiwan

TW gender


台灣主要粉絲為"中年老頭子", 女性占 6%, 男性佔了 94% 之多!



Japan, Europe, Australia

Japan gender


日本跟歐洲跟澳洲, 很可惜的資料不足無法統計出切確的數據. 


USA

USA gender


美國的情況呢? 呵呵!! 非常的有趣呢!

15% 的女性粉絲都是"年輕人", 而主要的海莉粉絲是"退休老人". 其次才是"中年老頭子"


New Zealand

NZ gender


紐西蘭的情況呢? 呵呵!! 主要的海莉粉絲是"退休老人". 女性粉絲, 一個也沒有!!



如何看待女性比例遠小於男性的事實??

根據異性相吸的理論, 本來男性就會受到異性外貌跟聲音的吸引! 所以男大於女本來就是非常自然跟可以預期的. 但是因為這比例相差實在是太懸殊囉. 假設我們現在討論的不是海莉小姐, 而是周蕙還是潘越雲這類外貌較為平庸的但跟海莉一樣歌藝相當的唱匠級歌手, 會有這樣懸殊的比例嗎?  很明顯的, 不可能!

以此推論, 這些男人很大的因素當然是因為海莉小姐外貌漂亮, 因此深受吸引而來的囉!!


整個結論如下:

1. 全世界海莉小姐的粉絲主要是貪圖海莉姿色, 色色的中年老色男, 其次是退休老人. 年輕人對海莉不感興趣

2. 這些中年老色男中, 以台灣貢獻最大的一部份. 美國跟紐西蘭的粉絲主要是退休老人.

3. 美國的年輕女性, 似乎比較可以接受海莉小姐.


在這裡, 第三個假設浮出來囉!  讓我們來看看第三個假設吧.


假設3.  YouTube 上的影片必須是非常均質, 不偏倚的, 也就是說不同年齡層的所有聽眾都對這些影片有相同的興趣.

檢視一下這次海莉的曲目看看. 天哪, Ave Maria - Caccini, Scarborough Fair, A Thousand Winds... 這種曲目, 這應該不是年輕人會感興趣的吧! 難怪年輕粉絲一個也沒有!


哈哈哈哈哈!!  這個假設怎麼看也避不掉! 這三個假設只要有一個無法成立的話, 這些樣本充其量只能代表它們自己的行為(海莉個別粉絲), 而無法充分代表母群體的(海莉全體粉絲)

而且這只能說明了, 這類跨界美聲歌曲所吸引的年齡層較高. 跟是不是海莉所造成的, 一點關係也沒有.

所以這篇注定變成嘴炮文!


各位看官, 真對不起讓你花了這麼多時間看了一篇沒營養的嘴炮文!!!

 

海莉(Hayley Westenra)的粉絲分佈分析(下)

arrow
arrow
    全站熱搜

    ohiyooo 發表在 痞客邦 留言(0) 人氣()