目錄/提綱:……
一、研究背景與起源
二、四個主要研究領域
(一)宏觀經濟領域
(二)大宗商品領域
(三)股市領域
(四)旅游領域
三、課題組相關研究成果
四、研究展望
……
干部學習講稿:網絡搜索與社會經濟行為相關性研究
呂本富 教授
中國科學院研究生院管理學院常務副院長
我們這個研究也談不上有多么新的進展,我就是想把國內外做的關于網絡搜索方面的研究以及我們自己的課題組做的研究向大家報告一下。那么,這個應該說是一個新的研究領域。它在未來會有什么樣的意義跟大家說一下。
我們說四個方面的內容,研究的背景與起源;現在研究的四個主要領域;我們第三個是我們自己做的一些相關的成果;第四是說一下未來的展望。
一、研究背景與起源
傳統(tǒng)預測研究的數據來源主要是相關部門的統(tǒng)計數據,這些數據收集和公布具有滯后性。舉一個例子來說,比如說CDC公布的疾病統(tǒng)計數據,它怎么也得有一個、三個星期到一個月的滯后性,所以當這個數據公布出來的時候再采取措施,某種意義上就晚了。因為它的滯后性就導致了你在采取的措施的不可能很現實地來采取。
那么,網絡技術的發(fā)展為行為預測研究開辟了新的領域。因為,搜索引擎記錄了數以億計用戶的關注及需求,所以我們有的時候把搜索引擎還有把一些網站上對數據的記錄稱為全樣本研究,因為像統(tǒng)計局做的,由社調隊、城調隊做的樣本,再大也就1萬多個電話調查,可是網絡搜索是以“億”計的關注及需求,所以給社會經濟預測提供了客觀、及時的數據基礎。
網絡搜索與社會經濟行為相關性研究已成為一個新的研究熱點。
好,我們報告一下最近對國內外文獻的梳理。第一個,搜索數據在國外用的最早的就是對流感
疫情的檢測,Johnson和Heather研究網站日志發(fā)現醫(yī)學網站訪問次數以及流感文章搜索次數與流感發(fā)病人數之間
……(新文秘網http://m.jey722.cn省略1075字,正式會員可完整閱讀)……
了很長時間,才有這樣的一個結果。所以在我們后面在做這個研究預測的時候,選擇關健詞,就像給上證指數選擇成份股一樣,就成為一個研究的熱點,因為不是每個研究機構都可以搞大量的服務器群來運算的,你想它是5000萬個關健詞,每個詞都和流感算一個相關性,這是一個很大的計算量。后來,我們可以通過經濟學或者社會的原理來選詞了,這不是像這種海量計算的方法來選詞,總之這是他的一個貢獻。
第二個,他找到了搜索的合成指數和流行病發(fā)病率的半對數關系,就是函數的解析式,后來我們改進了做了一個全對數,可能比他還好一點,就是我們改進了對他的預測模型,比Jeremy Ginsberg預測效果還好一些。
那么,第三個貢獻就是通過這個預測的結果,說明確實比傳統(tǒng)CDC公布的數據可以提前2周,你當天搜索,就再計算我就可以出來趨勢,然而CDC的統(tǒng)計怎么也得兩三周才出來,這對于流感來說已經太晚了,控制不住了。所以,這就是Jeremy Ginsberg工作的最大價值。
到了2009年,Joshua Ritterma發(fā)現通過搜索引擎的關健詞預測也不一定太好,所以他自己做了一個蜘蛛程序專門從媒體方面方面抓取關健詞,也是一個辦法。通過UGC,就是在用戶的日志、微博、博客中間抓取,因為很多人感冒會發(fā)一條微博:“我今天感冒了”。他就是從UGC中抓關健詞,發(fā)現也還可以預測,UGC在有的時候結合流感的歷史數據和關鍵指標預測效果可能還好一些,因為這個搜索引擎的數據,可能比微博的數據時至要長,因為搜索引擎抓的是網頁,在形成網頁搜索的時候,如果現在是用手機的情況下,可能感冒,他有時候會瞬時就會發(fā)一條“我今天感冒”的消息,因此這種UGC的內容,時間就更段,所以 Ritterma對蜘蛛程序,對用戶產生的內容,UGC內容的抓取,因此效果就更好。這是我們講的這么一個起源。
二、四個主要研究領域
(一)宏觀經濟領域
除了剛才我們說的公共衛(wèi)生的預測以外,現在搜索的數據在四個領域現在用得比較多。
第一個是宏觀經濟領域。關于失業(yè)率的預測,Askitas(2009)對網絡搜索與德國失業(yè)率之間的關系做出了實證研究,結果表明就業(yè)類詞匯搜索量與當月失業(yè)率有著較強的相關性;我們國家現在也不怎么公布失業(yè)率,但是這個玩意很準,為什么呢?因為失業(yè)的人總要搜索就業(yè)網站,根據就業(yè)網站搜索詞的搜索量基本上可以搜索判斷出失業(yè)率大體上是多少,所以這個東西你隱瞞也隱瞞不了,除非他不找工作,一般人失業(yè)了還是去找。
第二個,Francesco以意大利、美國的失業(yè)率為研究對象,用搜索數據與經濟數據(工業(yè)生產指數、就業(yè)預期指數)的預測相比較,發(fā)現搜索數據預測失業(yè)率效果優(yōu)于傳統(tǒng)經濟數據。就是說通過搜索數據來預測失業(yè)率是比傳統(tǒng)的經濟數據要優(yōu),或者說預測效果更好。
關于居民消費的預測,Torsten和Simeon認為基于統(tǒng)計調查的消費者信心指數是宏觀因素的反映,就是不是有消費者信息指數,這類的調查,而并未體現出預期與決策之間的關系;而網絡搜索數據可以彌補該不足;對比發(fā)現,搜索指數對消費的預測精度好于消費者信息指數,那么這個搜索指數能夠預測,比如說他曾經說搜索搜索指數能夠預測2008年12月的消費拐點。什么意思呢?2008年不是金融危機么,他一下子就預測到這時候的消費的拐點在急速地下降,就是他這個數據對經濟拐點的預測也強于傳統(tǒng)的調查數據,因為他是大批量的。
關于居民消費預測,Nicolás(2009)認為搜索指數由6部分關鍵詞構成,Google 搜索分成若干大類,他就直接用Google Insights的分類,根據分類的詞數,然后和宏觀經濟作了對比,他認為Google Insights分類的前三類反映了消費者意向的改變,因為Google搜索他本身就有一個Google Insights,他對里邊關健詞有一些分類,這樣省得我們自己在分,直接采用Google的數據,那比如說這前3類是和家庭債務負擔有關系,第二個是和能源與公共事務的花費有關系,就是和水電煤氣的花費有關,第三顯示了商業(yè)景氣。后3類關健詞主要是指奢侈品的消費,信貸類商品消費和保險類的商品消費。Nicolás是美國紐約大學研究網絡經濟比較資深的專家,我們跟著他的時間還是比較久,那么他得出搜索指數預測力高于兩類消費信息指數,就是他根據消費者信心指數要高一些。
那么Marta(2009)從消費行為理論出發(fā),研究消費與信息的關系,基礎有一個叫持久收入假說,預防性儲存藜蘆緩沖庫存模型等等。這個他從消費行為理論出發(fā)。那么他把搜索數據作為信息的一個度量指標,結論發(fā)現信息對消費支出有顯著的影響,但是這種應該作用在很短時間內就會衰減,這一現象不能充分地被上述消費理論解釋,更加符合信號提取模型?傊甅arta不僅僅是是研究兩個量之間的預測關系,他力圖用搜索數據作為一種信號模型,來修改傳統(tǒng)的理論,他認為傳統(tǒng)的持久收入假說,庫存模型通過這樣的一個修正就更加符合實際,換一句話說,對搜索行為的研究已經不僅僅是在技術面的探索,有人認為可能通過信號的改變會改變一些傳統(tǒng)的經濟的理論。
那么,宏觀經濟也有人研究經濟周期與經濟衰退的問題。第一個是Tanya Suhoy在2009年等人研究了經濟衰退。最重要的數據的來源是以色列的一個科學家做的,他研究的對象就是2008年的經濟衰退。
那么他回答的問題,以色列搜索數據是否能夠用于經濟的預測,哪些搜索數據對經濟的預測有顯著作用?其實,跟我們剛剛說的一樣,哪些數據呢?搜集哪些數據就是哪些關健詞是有預測能力的?所以我們的課題組現在最重要的研究工作就是選擇在搜索詞里邊,每天成千上萬,把那些 ……(未完,全文共12690字,當前僅顯示3019字,請閱讀下面提示信息。
收藏《干部學習講稿:網絡搜索與社會經濟行為相關性研究》)