疫情词云:基于大数据和自然语言处理的舆情热点分析

2020-01-29 08:01:40

作者:肖天意,来自:空间人文与场所计算

新年伊始,新型冠状病毒(2019—nCoV)肆虐中华,让人倍感心痛。在持续关注疫情的同时,我也不禁思考,怎样才能利用自己的专业知识为疫情贡献一点力量。在浏览有关新型冠状病毒的新闻时,一些关键词不断涌现:口罩、疑似病例、小汤山、驰援武汉、消毒等等,辟谣与反辟谣的新闻屡见不鲜。持续关注疫情资讯的我不禁对舆情的关注热点产生了好奇,在疫情大规模爆发的当下,主流媒体的报道究竟关注哪些热点信息?报道的重点是否有变化?出现最多的关键词是哪些?作为吃瓜群众的我们究竟怎样才能明辨是非,尽到不信谣不传谣的责任?

带着这些疑问,我通过python的网络爬虫和自然语言处理技术,对CCTV央视网的2020年1月27号的新闻进行提取分析,得到了下面的“疫情词云”图。希望通过这种方式窥探舆情热点的重心和变化趋势,从数据维度理解新闻。我们对数据进行一些简单的分析。本次提取的新闻共计76条,56967个字。去停用词、分词后,共获得4405个词语。根据词云图,我们可以得到各词的词频排名和占比情况。其中,词频排名前10的词为:武汉市237次、疫情202次、医院195次、防控130次、新型冠状病毒122次、感染108次、工作106次、记者101次、肺炎95次、物资80次。其中,武汉市、疫情、医院三者词频远高于其他词,基本为其他词的一倍以上,这说明大量的新闻关注武汉市的疫情和医院相关情况。典型的新闻包括“必胜!武汉协和医院西院31名护士剪发抗‘疫’”、“解放军医疗队开始收治病人,救治工作全面展开”、“战疫情一线报告”等鼓舞人心和描述救治细节的相关报道,让人第一时间了解疫情最新进展。

点击查看原文全文《疫情词云:基于大数据和自然语言处理的舆情热点分析》