在19日上午召开的第五届中国统计开放日上,国家统计局首次对外展示了其正在研究的基于百度搜索数据来预测房地产价格的新工具,并演示了这项工具对北京房价的惊人预测力。在开放日上,国家统计局也展示了新研发的网购数据统计,而其数据来源之一就是刚赴纽约上市的阿里巴巴。
腾讯也没有缺席这场建立大数据统计的国家战役。甫一开年,国家统计局局长马建堂就马不停蹄地走访了中国最具代表性的互联网企业。马建堂的身影出现在京东商城和阿里巴巴,以及1号店、CBI易贸集团、百度等企业。今年6月末,马建堂来到了腾讯,并从马化腾手中接过了一个企鹅公仔。
百度如何统计房价
更为精确的房地产价格统计一直是政府希图攻克的难题。因为个人隐私、阴阳合同等问题存在可能影响源头数据的真实性,而现有房地产领域“数出多门”的情况也增加了“数据打架”的概率。
相对而言,海量的搜索数据不经意透露了真实的房地产走势信息。
利用基于百度搜索数据,国家统计局筛选出同房地产价格有关的一系列关键词,然后通过这些关键词出现的时间频次同以往实际发布的新房数据和二手房数据价格的走势实施拟合并建立模型,最后根据所建模型预测未来房地产价格的走势。这就是国家统计局新工具的基本原理。除了国家统计局之外,美国的谷歌也是在用这种原理来预测流行病的暴发趋势。
利用这一工具,国家统计局在开放日现场演示了一把对北京房价的模拟和预测。
《第一财经日报》记者注意到,通过百度数据所得出的价格曲线预测值同实际价格曲线之间的拟合程度较高,其中百度搜索数据对二手房价格拟合效果比新房更好。这或许是因为刚需人群在寻找二手房交易时更能提供准确而真实的信息。
如果这项工具投入应用,官方内部有望提前多天就了解到下月房价的大致走势。统计部门也希望,在房价实际数据出来后能使用这一工具检验官方数据的有效性,从而提升统计数据的有效性。
国家统计局同阿里巴巴的合作则由来已久。在向社会“找数据”的进程中,淘宝网是统计部门最先关注的大数据来源。因为淘宝网上的交易数据既是实时成交数,又真实有效,这正是统计部门以往驱动庞大的调查队伍所希望寻找的绝佳数据。
早在2012年,国家统计局上海调查总队就开始了网络采价试点。上海调查总队发现,淘宝网上有大量销量较大但不在CPI统计内的产品,比如进口糖果、进口巧克力、进口饼干、进口奶粉、进口美容用品和鲜花快递等,通过一定的方式这些产品都可以被整合进CPI。另外,原有CPI规格品中有的数据比统计部门抽样调查得到的数据更为及时,比如书籍销售价格就可以从亚马逊、当当网、京东网上选取。上海的试点发现,2012年含网络采价的CPI和不含网络采价的CPI衔接性非常好。 |