疫情数据智能分析平台
作者:曾奥涵 计算机科学与技术系
指导老师:唐杰 计算机科学与技术系
关键词:疫情,数据挖掘,可视化
摘要
本项目针对现有疫情数据平台存在的各类问题,搭建了一个疫情数据智能分析平台。该平台能整合疫情相关的各类数据,在可视化多个维度的疫情数据的基础之上,进一步对疫情数据进行分析,从而让用户能够直观全面的了解疫情,进一步为个人、企业、政府的复工复产提供参考。
平台动机
随着新型冠状肺炎病毒在全世界蔓延,与疫情相关的信息数量也在高速增长,不少机构推出了疫情可视化平台。然而,与疫情数据有关的权威数据源非常分散,缺乏统一的整合平台。其次,现有平台大多只展示疫情数据,数据种类非常单一,而且缺乏对疫情数据的分析,这就导致用户无法直观,全面的了解疫情。
因此,本作品希望构建一个疫情数据智能分析平台,在可视化多个维度的疫情数据的基础之上,进一步对疫情数据进行分析,从而让用户能够直观全面的了解疫情,进一步为个人、企业、政府的复工复产提供参考。
平台功能
平台的主体界面是一个可以交互的世界地图,平台主要包括四个功能:
1.疫情数据展示:我们使用语义相似度+人工匹配的方法,对爬取的多个数据源的疫情数据进行了整合,并在地图上加以显示。
2.疫情事件展示:我们收集疫情相关的的政府政策、新闻报道、学术研究,开发匹配算法将事件与地区坐标匹配,最终以气泡的形式显示在地图上。
3.疫情数据预测:我们根据国家/地区历史疫情数据,在SEIR 模型内的基础上引入大众防疫指数,并结合机器学习方法预测未来疫情趋势。
4.风险指数评估:地区的风险指数反映了该地区内疫情的严重程度,我们利用机器学习方法,综合考虑多维度数据评估地区风险指数。
此外,平台会实时更新所有数据,并且支持按照时间轴进行历史数据的查看,并可以按照时间自动播放。
平台成果
本平台自疫情期间上线以来,截止2020年9月10日,已经收集了200个国家/地区的细粒度疫情数据,包括疫情相关的事件 51588 条,吸引了 37,9538 次的访问总量。平台上线后,我们还将平台的所有代码以及收集到的所有数据在网上公开,希望能通过疫情数据的开放共享,助力疫情相关的学术研究。
该平台在五月份的校庆云科展上进行了展示,得到了在场的医学院张林琦教授的认可,借此机会我们与医学院的张琳琦教授、清华公共健康研究中心的程峰教授、社会学系的景军教授进行了合作与交流,期望完善平台功能,提升平台的专业性,充分发挥平台作用。