最近和小伙伴一起探索了一下雙十一后鬧得沸沸揚揚的一篇文章:“淘寶2009-2018年歷年雙十一銷售額數(shù)據(jù)造假”。原文作者使用初中階段學過的拋物線,就將每年的銷售額增長趨勢擬合得非常完美。
(如果大家想學習如何畫出上述的圖像,可參見前面一篇博客:用 ggplot 重繪天貓雙十一銷售額圖)
同時在知乎上,這個問題也成功上了當時的熱搜榜,各路大神云集,也發(fā)表了很多很有意思的觀點:
如何看待有人質(zhì)疑淘寶雙十一數(shù)據(jù)造假,并在4月份成功預(yù)測今年銷售額為2680億?
看了很多大神的文章后,自己對這個數(shù)據(jù)也進行了一些探索,嘗試看看能否發(fā)現(xiàn)一些不一樣的有趣的事情。
我們先看看原文中提到的問題,這條直線擬合得過于完美了,在我們通常的認知中,如果某個指標隨著年份發(fā)生變化,例如:銷售額,增長率等,我們用一條非常規(guī)律的曲線去回歸,是基本上不可能呈現(xiàn)這種沒有波動的情況,一般會呈現(xiàn)下圖這樣的結(jié)果。
但從原文的圖中我們可以看到,紅色的散點近乎完美地點綴在擬合出來的曲線上。在現(xiàn)實生活中出現(xiàn)這種情況非常罕見,且極其神奇!
乍一看原文的內(nèi)容和如此精妙的擬合,我也差點相信了。但仔細一想,就邏輯而言,原文這種斷言是非常不嚴謹?shù)摹T髡哂幸粋€問題,那就是過于武斷和過于依靠經(jīng)驗。舉個栗子,有人沒見過灰天鵝,就說所有的天鵝一定都不是灰色的,但只要有一只灰天鵝出現(xiàn),就能推翻“天鵝一定不是灰色的”這個結(jié)論,這就是證偽。
同樣,我們也不能因為某件事情出現(xiàn)的情況非常少,就直接說明這件事是有問題的。例如,每一期彩票中頭獎的幸運兒,我們難道能說他們都是開了掛才中獎的嗎?
事實上,在現(xiàn)實生活中,許多經(jīng)濟學原理都與發(fā)展階段或增長率掛鉤。那么,像原文那樣完美擬合的情況會不會是一些經(jīng)濟學現(xiàn)象所引起的呢?如果我們能夠通過理論驗證它符合某些經(jīng)濟學規(guī)律,我們就有證據(jù)說明這樣擬合的非常好的銷售額曲線是因為服從這樣的規(guī)律,才出現(xiàn)了這么巧合的現(xiàn)象,而不是因為數(shù)據(jù)造假。另一方面,如果我們通過驗證發(fā)現(xiàn)它不符合經(jīng)濟學規(guī)律,那么也能從理論的角度說明原數(shù)據(jù)存在造假的嫌疑。
那么,增長率是如何變化的呢?我們來看看!
年份 銷售額 增長率20090.5―20109.361772.00201152455.562012191267.31201335083.25201457163.14201591259.722016120732.352017168239.352018213526.932019268425.71
我們繪制了銷售額增長率在這十年間的下降曲線:
其實從銷售額增長率的角度而言,其是符合一些經(jīng)濟學規(guī)律的。具體的量化分析我們后面再進行更加深入 ,嚴謹?shù)姆治鰚
最后,本篇博文涉及的繪圖,后面都會一個一個寫個教程,手把手教大家進行繪制~
ggplot 添加左右兩邊的y軸(以天貓雙十一銷量與增長率為例)
以上就是R語言數(shù)據(jù)可視化分析天貓雙十一銷售額增長率的詳細內(nèi)容,更多關(guān)于R語言分析雙十一銷售額增長率的資料請關(guān)注服務(wù)器之家其它相關(guān)文章!
原文鏈接:https://blog.csdn.net/weixin_41929524/article/details/103300679