
公司新闻:
大数据类新闻:
大数据预测的世界杯冠军是这支球队! 你信么?
世界杯来啦!相信不少球迷最近都没少熬夜看球,就连小探这种伪球迷,都被世界杯的气氛感染到了。今天咱们就来聊聊本届世界杯里的新玩意儿、新科技。小探把这些世界杯上的新科技归为两类:视觉辅助一类,数据驱动一类。我们先聊视觉辅助、再聊数据驱动,最后再看看在大数据喂养下的机器学习“神算子”,算出的本次世界杯冠军到底是谁?
视觉助理裁判
视频助理裁判(Video Assisted Referees,简称 VAR)可能是今年世界杯最令人兴奋的部分了!VAR 将在今年的比赛中首次作为裁判的附加助手使用。VAR 技术由一组位于远程视频室的助理人员组成,他们将利用视频技术帮主裁判做决定。说起这些视频助理裁判,还真是挺 “大牌”,他们只用在可能会决定一场球赛胜负的关键时刻,比如进没进球、要不要红牌罚下之类的。首先由裁判决定需不需要用 VAR,如果裁判觉得有用 VAR 的必要,VAR 远程协助小组会在场外幕后播放录像,然后会把结果通过裁判戴的耳麦传给裁判。此时裁判有两种选择:如果选择全盘相信 VAR,裁判就直接做决定;如果裁判仍然存疑,则可以自己在球场边再看一遍录像,然后再做决定。
在场边看 VAR 裁判发来的录像
本届世界杯上 VAR 出尽风头、屡屡发威,尤其 6月 22 号巴西对哥斯达黎加的那场比赛,VAR 更是对比赛得分造成了决定性的影响:在主裁判判罚点球后,根据观看 VAR 回放,主裁判又将点球取消—— 这在世界杯可是史无前例!巴西名将内马尔当时正在尝试踩球过人,遇到哥斯达黎加中卫冈萨雷斯的防守后,两人发生身体接触,内马尔惨叫一声,四脚朝天倒在禁区内动不了了,主裁判因此第一时间判罚点球。没想到哥斯达黎加球员强烈抗议,主裁判只好走到场边看视频回放。然后没想到的一幕发生了:回到场内后,裁判宣布取消此前的点球判罚!这可真是人在做,VAR 在看。如果早几十年有 VAR,不知道 1986 年阿根廷对阵英格兰的 “上帝之手”、2002 年韩国世界杯韩国对阵西班牙等比赛的历史,是否会被改写。
那么,VAR 是怎么得到这些图像的呢?这要得益于分布全场的33个摄像头:VAR 的鹰眼系统由英国 Roke Manor Research Limited 研发。33 台广播摄像机里,有 8 台是慢动作摄像机,还有 4 台是超慢动作摄像机。但其实我们看的球赛直播只是 33 台摄像机里的 31 台播的画面,剩下 2 台是 VAR 的专属摄像机,只有 VAR 能看到里面的内容。在淘汰赛阶段,每个球门的后面会再安装两个超慢动作摄像机,这也是只有 VAR 团队才能看的。
有意思的是,根据国际足联规定,慢动作摄像机主要用于关于客观的事实情况的纠纷,比如到底手打到哪儿了;而主观判断—— 比如一个动作到底有多犯规、或者一个手球是不是故意的 ——则只能用正常速度的摄像机。
说完了视觉助理,我们现在来说说本届世界杯的另一个新趋势:数据驱动。
电子体能跟踪器:电子体能跟踪器,又叫 EPTS(Electronic Performance and Tracking Systems)。它能跟踪每名球员的位置、足球的位置,还能和加速度计、心跳监控器等微机电设备一起,尽可能全方位地收集每位球员的体能信息。收集到的信息通过专门的渠道和设备,发给每支球队的技术人员和队医,用以做决策。这个跟踪器放在什么位置比较好呢?有三种选择,各有利弊:装在球场高处| 好处是能纵观全局、不会影响球员,而且收集的数据很全面;坏处是有时容易被遮挡物挡住视线,而且组装时间略长;装在紧邻球场的周围| 比如装在球门附近、球场边沿的白线附近。这种方法收集的数据更全面、更精确,但缺陷是它位置固定,比较死板。装在球员身上| 或者也可以把 GPS 芯片装附着在球衣上。这么做的好处是安装时间短、而且不像前两种需要专人操作,很方便,GPS 芯片把收集到的数据发到卫星上即可。坏处是比赛时其可能对球员产生干扰。收集这些数据,主要是为了分析球员的表现和体能。有了这两个数据,教练和队医在做 “要不要改变阵型” 或 “要不要把谁换下来、让替补队员上” 之类的重要决定时就不用靠猜的了。不仅如此,电子体能追踪器还能提高效率、减少球员因体力不支而可能产生的伤病。虽然美国国家队今年没有资格参加本次比赛,但美国足球联合会已经着手为 2022 年卡塔尔世界杯做准备了(巧了!我们中国男足也在为 2022 年卡塔尔世界杯做准备)。美国足球最近与 GPS 跟踪设备公司 STATSports 签署了价值 15 亿美元的协议,以监测其 400 万注册足球运动员。从青年联赛到国家队,这些球员将用 APEX 运动监控设备,这个设备能追踪一名球员的各种数据:跑步距离、速度、加速度、减速度、负荷和心率等等。
梅西身穿 STATSports 设备
美国能在训练时用这些设备,但不知道这对那些在贫困地区尘土飞扬的小路上踢着矿泉水瓶、怀着足球梦的小孩来说,却未必是个好消息。先进设备固然能大大提升一支球队的表现,但它有可能也让那些来自经济欠发达地区的球队更不容易出头。毕竟不论更先进的 VR 技术、还是强大的数据分析,都需要经济和技术实力做支撑。通过收集、分析某位球员的数据,我们能对其体能、技巧等有更细节的了解。但要说起对数据的应用,比起只有教练、专业人士才关心的技术分析,更能挑动人神经的恐怕是预测比赛结果。机器学习预测的比赛结果,能比章鱼准吗?一直以来为了预测比赛结果,我们可没少费心思。从 14 场比赛正确预测 12 场的章鱼保罗:但说到底,这些所谓 “预测” 几乎就是猜。在机器学习技术迅速发展的今天,用机器学习预测世界杯结果会不会更准确些呢?
《麻省理工科技评论》报道,如果我们用最近几年研发的机器学习技术预测世界杯结果,就很有可能比主要靠猜的传统预测更准确!科学家们用来预测本届世界杯比赛结果的方法叫 “随机森林方法”(Random Forest approach)。就像树从主干到最末端的小树枝一遍一遍地一分二一样,如果说最终的比赛结果是树最顶端的一颗小树枝,那么树木的每次分叉就对应着一个关键节点(比赛谁输谁赢),而通过参考一组训练数据,机器学习能估计每个分支的潜在发生概率,以 “预测” 出本届世界杯最终获胜的球队。大多数 “决策树” 在后期都会因为不可靠因素过多而影响决策模拟结果的准确性,这些决策由于不一致和分散的训练数据(training data)而失真,这种现象叫做 “过度拟合”(overfitting)。而 “随机森林方法” 则通过多次计算随机分支的结果来尽量让结果准确。“随机森林方法” 取多次随机决策树的平均值,以此绕过 “过度拟合”。在这个研究 “到底谁能获胜” 的模型里,有些考量的因素是我们能想到的,比如该球队在国际足联排名、球员平均年龄、球队里有多少名球员在冠军联赛踢球等因素。除了这些明显对预测结果有帮助的因素,这个模型还包含了一些看似无关紧要的因素,比如国家人口、国内生产总值、甚至包括执教教练的国籍。该团队模拟了足足 10 万次足球比赛,并根据 2002 年到 2014 年之前所有比赛的成绩(数据可以说是很充分了),使用了三种不同的建模方法。
用这种方式预测出来的本届世界杯冠军是...
西班牙!
根据预测结果,西班牙夺冠的概率是 17.8%。如果说这个概率还不是很 “自信” 的话,这个预测说西班牙能冲进四强的概率则高出不少,足足有 73%!可以说是相当有信心了。而这个研究对卫冕冠军德国队的预测是:“能不能闯出小组赛难说,但如果小组赛没被淘汰,德国队进四强的几率高达 58%。”这让小探想起一周前墨西哥 1-0 击败德国时,不论中外媒体几乎都用了 “爆冷” 这个词,这个结果倒是在一定程度上证明了这项研究有一定的准确性。好在今天凌晨在德国队 - 瑞典的比赛中,德国战车终于发威 2-1 击败瑞典!这才是德国战车的精神!!!德国球迷的心情终于也阴转晴。
不过按照这种方法计算,中国男足来自一个人口众多的国家(加分)、中国 GDP 也全球第二(加分),但连世界杯的门儿都摸不到... 难道这种模型不适用于中国男足?话说回来,如果机器学习的预测方法在此次世界杯上被证明很准确的话,恐怕会对赌球行业产生重大影响。小探奉劝大家一句:享受比赛、爱惜钱包、谨慎赌球...

当社交大数据遇到心理学,靠朋友圈就能知道你的心态了?
社交媒体数据不仅仅有阴暗面,现在已经有不少神经学、心理学方面的研究开始利用上AI和社交媒体数据,用机器应对人性。
在人工智能的发展过程中,AI+一切大数据似乎都能提升效率,得到喜闻乐见的结果。可唯独有一样,结合了AI之后会造成大量负面影响,这就是社交媒体数据。
平时我们习惯了在社交媒体中表达情绪、表达兴趣爱好,甚至会在不经意间透露自己的个人信息。作为普通人而言,即使知道这是一个开放的空间,也不太会有数据泄露观感,毕竟大多数社交媒体的信息展示权重,是按照信息热度来的,普通用户的个人发言很难被陌生人刻意看到。
但有了AI带来的超强算力和数据分析能力,一切就变得不一样了。在爬取数据之后,AI+社交媒体数据能看到的不仅仅是一个人对于事物的反应、情绪和表达,而是可以看到一整个群体甚至整个族裔的相关信息。前一阵差点搞垮Facebook的信息泄露门,多少就体现出了大量散乱个人信息面对AI可能产生的恶果。
不过社交媒体数据不仅仅有阴暗面,现在已经有不少神经学、心理学方面的研究开始利用上AI和社交媒体数据,用机器应对人性。
推特大数据告诉你,半夜矫情这件事全世界人民都一样
最近布里斯托大学就利用机器学习分析了英国57个城市四年内的8亿条推文,得出了一个让我们思考已久的结论——人类普遍在早晨情绪高涨、在深夜情绪低落。
整个分析过程是这样的,研究团队通过Twitter搜索API进行采样,收集到了8亿条推文。再从其中清洗掉所有#话题、表情符号、节日祝福语等等,并根据心理测量方式为单词设立了标签。
有了这一严格根据心理学研究维度设立的机器学习模型,对于社交媒体数据的研究会更加专业化,而不是单纯靠NLP对语言文字中的情绪进行分析。
最终研究得出的结论是:在一天的24小时中,人类的情绪不仅仅会发生变化,思维模式也会随之改变。
从一天的5-6点开始,人们开始进入社交媒体的表达高峰期,并且这时人们的情绪表达更为积极,关注点也比较集中在个人状态上。随着时间推移到7-9点,人们的情绪开始偏向于愤怒,但如果是在非工作日,这种积极而愉悦的状态就会一直持续下去。
这时人们的思维模式偏向于类别思维,想法更为清晰直接,逻辑性强,同时也会有刻板印象的倾向出现。
而到了深夜,人们的情绪表达就会转变为消极,同时关注点也会从个人转移到社会方面。随着时间推移,越接近第二天的凌晨3-4点,人们的关注点就越集中在宗教之上。这一时间段人们的思维模式偏向为存在主义,即体现出困惑、焦虑、非理性、更愿意参与和分享的状态。
用直白点的话说,一个人的大致状态是早上起来兴致勃勃充满自信,打了鸡血一样规划自己的人生,等到了晚上就开始心情低落胡言乱语,关注世界每个角落又发生了让人悲伤或感动的事情,如果深夜还睡不着,就开始寻求宗教的救赎了。看,这个过程是不是中国人外国人都一样?
当社交媒体成为心理学研究助手,从一张自拍就能确诊?
其实关于人类情绪的时间周期变化,在之间早就经过证实了。因为神经的疲劳、褪黑素分泌等等生理原因,我们的情绪会在一天之中呈现出不同的状态。
虽然这次对社交媒体大数据的研究,只是再次印证了这一变化,并没有挖掘出情绪变化的更多原因,但关于情绪周期和思维模式变化的关联,到是第一次发现。实际上对于社交媒体数据和心理方面的研究还有很多,从中挖掘到了很多有趣的的信息。
例如:在去年,美国匹兹堡大学曾经进行过一项调查,调查内容是抑郁症患者的社交媒体使用状况。结果发现:抑郁症患者的社交媒体平均使用时长,要比普通人高出不少。
而哈佛大学的研究则表明:抑郁症患者在社交媒体发布照片时,更倾向于应用冷色调、褪色或黑白滤镜。
突破不了的伦理关卡
目前来看,社交媒体数据对于心理学的作用似乎还停留在学术研究上,在我们的有生之年,可以看到社交媒体数据的心理学应用吗?
目前来看,社交媒体数据对心理学至少有以下几种应用途径:
1. 作为心理状态测量的辅助工具
除了那些直接导致幻听、失眠等等直接表现的心理疾病之外,还有很多类型或程度的心理疾病是很难客观感受到的。大多时候要靠面诊或填写心理状态测量表来确认,可患者自主填写时可能无法直接表现出自己的真实状态。这时社交媒体中无疑透露出来的信息就可以作为支撑。
2. 群体心理状态的评测
相比个体出现心理问题,更复杂的情况是一整个群体在经历。例如:灾难、意外时会产生的心理状态变化。
比如:在一个公司或学校中出现员工/学生自杀,或者一整个地区遭遇了地震台风等严重的自然灾害。这时我们往往是没有精力去为每一个人做心理咨询的,也没有办法整体评估群体的心理状况,顶多以集体课的形式对人群进行心理疏导。
这时利用机器学习对社交媒体数据进行研究,就可以清楚的看到群体对于事件的心理状态反应。甚至对人群进行长期的心理状态追踪,并进行选择性、针对性的心理辅导。
哈工大就曾经提出过一种方法,通过建立分类器对于高校学生的社交媒体数据进行研究,从而识别抑郁症患病几率。
实际上以上提到的应用方式,光从技术上来讲几乎没有实现难度。虽然得出的结果不一定绝对准确,但对于心理学这项劳动密集型产业来说,所能提供的价值非同小可。
但这其中最大的问题还是在伦理方面,公开发布的社交媒体数据究竟应不应该算个人隐私?从中提炼出的信息又算不算个人隐私?即使是心理疾病患者,公民应该拥有不披露自己患病状况的权力,通过社交媒体数据发掘公民的心理健康状况,是否严重侵犯了这一权力?尤其像在高校群体中应用这一技术,会不会有人因为周围老师、同学因为这种方式,得知了自己的心理状态,而使心理状况变得更差?
其实在某种程度上来讲,我们有时候会刻意选择一些低效的问题解决途径,但可以换来心灵上的安全与自由。
| 留言与评论(共有 0 条评论) |