GFT真的能实现大数据预测吗?
2009年,谷歌通过大数据运算准确预测到甲型H1NI流感爆发,比官方数据提前几周。大数据预测开始进入人们视野,并开始广泛应用于疫情预测中,但它真的能实现大数据预测流行病发展吗?
一、谷歌流感模型概述:
Google流感趋势(Google Flu Trends,GFT)是Google于2008年推出的一款预测流感的产品。Google认为,某些搜索字词有助于了解流感疫情。Google流感趋势会根据汇总的Google搜索数据,近乎实时地对全球当前的流感疫情进行估测。
谷歌设计人员认为,人们输入的搜索关键词代表了他们的即时需求,反映出用户情况。为便于建立关联,设计人员编入“一揽子”流感关键词,包括温度计、流感症状、肌肉疼痛、胸闷等。只要用户输入这些关键词,系统就会展开跟踪分析,创建地区流感图表和流感地图。为验证“谷歌流感趋势”预警系统的正确性,谷歌多次把测试结果与美国疾病控制和预防中心的报告做比对,证实两者结论存在很大相关性。
二、GFT与传统医学手段的区别:
GFT和传统医疗手段都采用了大数据统计与分析的方式对流感患病人数进行了统计,两者的方法本质并没有什么不同。但它们的不同点在于GFT是以网络为媒介,通过对网络搜索数据进行关键词抓取,统计分析其出现频率,并通过对用户的地理位置、气温等相关数据的分析,综合判断该地出现流感的概率;而传统医学手段是以传统手段为媒介,通过门诊、就医等数据进行分析,并对就诊人员相关信息和历史数据的分析,得出流感爆发期和预估未来发展情况。
三、谷歌流感模型所存在的问题:
虽然GFT对于预测未来传染病发展趋势发挥了重大作用,但其中仍然存在一定问题。
在2014年Lazer等学者在《Science》上发表的论文总结了GFT近年的表现:2009年,GFT没能预测到非季节性流感A-H1N1;在2011到2013年里GFT的预测量明显高于CDC(美国疾控中心)报告的预测量,说明GFT不能实现完全准确预测,只能用作参考数据。
四、大数据预测的前景:
在我看来,大数据预测仍有很长的一段路要走。虽然前景广阔,但大数据预测在世界范围内处于刚起步的阶段,存在大量的问题需要克服。我相信在未来,大数据预测会成为传染病防控的重要手段,并帮助人们在商业等方面完成目标。