新闻中心
金庚星(上海理工大学网络与新媒体系讲师);尤莼洁(通讯作者)(解放日报·上观数据新闻中心总监、主任记者,上海理工大学新闻与传播学专业硕士生导师)
导 读: 受福柯的“构置”概念启发,本文认为数据新闻可被视为由新闻业的计算探索实践、数据新闻学术与教育话语,以及数据新闻项目、课程和产品等元素间相互作用所组构成的知识/权力综合体。引 言
一名即将从普林斯顿大学毕业的华裔学生Edward Tian,利用新年假期在咖啡馆里写出了一款名为GPTZero的App,这个AI软件可快速有效地识别自然语言文本是否由ChatGPT生成。[1] Edward Tian在普林斯顿大学修读的是电机工程和新闻学双学位,并对计算机与新闻业的交叉,以及如何利用技术来扩展与增强新闻业中的多媒体叙事充满了兴趣。在众多的媒体报道中,Edward Tian对新闻业充满感情,这种感情部分源自《纽约客》作家约翰·麦克菲(John McPhee)在新闻写作课上的激发。媒体报道对于GPTZero这款明星AI产品背后的开发者拥有一个新闻学辅修学位的挖掘和渲染,或多或少也为困顿于技术与新闻业如何结合的新闻教育界带来了一丝慰藉。
不过,Edward Tian在芝加哥的演讲题目“新闻机器人的崛起——人工智能对新闻业的威胁及其防御”的出发点的确是新闻业,而非计算技术本身。只是Edward Tian所从事的这类暂且称为新闻创新的活动,又涉及自然语言语料库的数据标注与建模、机器学习算法的设计,以及基于云计算的应用程序软件开发。如此一来,新闻学术与教育话语又准备用何种术语来描述诸如GPTZero这样的新闻创新实践呢?实际上,过去十年间,已经涌现出了一大批以“X Journalism”的形式组合而成的新术语。[2]新闻学术界以这些新术语作为观察工具,得以将不断涌现的新兴新闻形态纳入现有的阐释框架之中,从而至少在概念上“驯服”新闻业日益增长的复杂性和多样性。其中,“数据新闻”已成为这些“X Journalism”组合中最引人注目的术语之一。
面对新闻实践的整体数据化转型,以及数据新闻话语激增的刺激,相应地,世界各地的教育机构已经在努力将数据新闻纳入各自的课程方案中,以满足行业不断更新的需求。一份由都柏林大学的巴哈雷-赫拉维(Bahareh Heravi)分享在Google Sheets上的《全球数据新闻课程数据集》[3]显示,截至2019年,至少219份不同的数据新闻课程方案已出现在全球各地。受福柯的“构置”(Dispositif)概念启发,我们将这些数据新闻项目与课程设置视为数据新闻话语实践的显化和物质客体[4],它们诞生于数据新闻(教育)创新实践与数据新闻话语的持续互动中,其中的数据新闻(教育)实践,涉及数据行动者,他们不断从话语中获得启迪,通过数字调查、事实核查、写作、可视化呈现、建立客观性透明性等层出不穷的实践形式,重新定义了什么是数据新闻业。数据新闻话语则通过持续地借鉴或驯服新闻(教育)实践,在客体化的新闻实践创新中得以更新或强化,并最终划定了数据新闻业与其他数据实践的边界。而那些遍布全球的数据新闻项目与课程设置,携带着数据新闻实践与学术话语所创造出的意义,同时还不断地将这些意义持续反馈到实践和话语中,在一定程度上影响着当前全球的数据新闻实践与学术话语。在此理论框架中,数据新闻教育可以成为新闻业整体数据化转型的一个发生场域和观察基点。
由此出发,本文首先回顾了与数据新闻实践创新有关的两种话语类型,然后从新闻实践中的数据科学工作流出发,结合对赫拉维所做的全球数据新闻教育调查数据集的观察,提议一种由批判性话语和反思性(外部)参与引领的数据新闻教学法,这种教学法的核心理念是把教室视为一股介于新闻实践与批判新闻话语之间的调解力量:既能像在新闻室一样做数据新闻,又可在无新闻室截止时间压力的情况下进行知识与价值观的反思,以此方式来弥合新闻话语与新闻实践之间的冲突,其最终目标是在新闻业的数据行动者、数据新闻研究者和教育者之中培养一个足以应对数字新闻业变革的意义阐释共同体。
当前的数据新闻话语,首先可以通过关于数据化新闻业的混乱的术语类型来观察。不同的术语类型反映了学术和教育话语中对数据化新闻实践的不同理解和解释,但这些新兴“X Journalism”术语所要驯服的新闻创新形式的复杂性,总体上都源自新闻业在更深层次上的整体数据化转型。
吉尼尔德(Astrid Gynnild)就将在新闻实践发生的环境中使用算法和社会科学方法来检索、分析和可视化数据的工作统称为“在新闻业中进行计算探索”[5],这种计算探索可以有三种路径。第一种是基于新闻业传统的新闻编辑室路径,涵盖了计算机辅助报道和数据新闻,通过将传统新闻工作方法与数据分析、编程和可视化技术相结合进行故事讲述的形式[6],它基于越来越多可访问的公共开放数据集,提供了一种观察世界的新方式;第二种是创业路径,涉及为Web或移动应用创建数据库,同时将编程和算法融入新闻业,其高级阶段即所谓的自动化新闻,很大程度上描述了在尽可能少的人工干预下新闻的自主采集、生成、发布及个性化;[7]第三种是以计算新闻为主的学术路径,是在报道、分析、分发或消费等新闻周期的各个阶段中,以结构化数据的形式计算/算法表征新闻知识的一种实践,是对新闻知识及其表征的性质的一种阐释。[8]
Loosen提出了另外一种分类法[9],他将数字新闻实践所涉及的文本叙事、生产、分发与流通、消费这四个阶段连接成了一个阐释环,然后用数据新闻、自动化新闻、计算与算法新闻、测量新闻这四个术语,分别来描述新闻业在观察世界的方式,内容生产、分发与流通方式,以及受众数字足迹监测方法方面的数据化转型。如此一来,这四个术语不过就是各自强调了新闻业整体数据化转型的某个特定面向。而新闻业的这种整体数据化转型,既是更一般意义上的社会数据化转型的产物,也是对社会数据化的一种回应。
这些不同的分类术语实际上共享着同一种假设,即新闻业的数据化和计算探索提供了一种线性进步式的解决方案,数据新闻就是对原始数据进行展示。故事不是由新闻工作者来构建,而是埋藏在数据中,等待着被无中介地发现。由于数据是纯粹的、自然的,因此数据工作者无中介地在其中“发现”的故事,就是现实世界中立、线]。这种观念与兰克史学拥有一脉相承的假设,即数据本身会说话。在这种技术进步话语的主导下,数据新闻教育则体现为围绕一套数据科学工作流进行技能更新[11],其背后实则是一种数据主义的意识形态。
然而,新闻业中的计算探索实践不只是工具或实践的集合,其认识论挑战了对采访和观察的依赖,这不仅质疑了传统的新闻方法,还质疑了其中隐含的新闻价值观。[12]一些针对数据化新闻业进行批判性反思的话语已经出现。这些批判性反思首先可见于新闻专业话语中,这种话语试图告诉我们,数据新闻不是数据科学家的发明,而是一直都存在于新闻业中。于是就有了将数据新闻实践的历史回溯到众所周知的那几个经典案例的做法:曼彻斯特卫报于1821年就是用数据表来发掘曼彻斯特各学校学生人数和所付的学杂费用间的关系;英国医生John Snow于1854年通过绘制伦敦的霍乱病例分布图来判断传染源;英国护士南丁格尔在1858年发表的关于克里米亚战争期间英国陆军死亡情况的报告中使用玫瑰图分析士兵伤亡原因。也就是说,数据新闻术语中的数据只是过渡性的修饰词,终将溶解于制度新闻业的既定规范中。
在数据化自身相关的话语中,还有一种是诠释学的。2015年3月,一张关于不同音乐流派的音乐家平均死亡年龄的数据图在社交媒体上病毒式地传播,这张数据图源自学术新闻网站 The Conversation上的一篇题为《音乐至死:流派如何影响流行音乐家的预期寿命》[13]的文章。就数据图来看,说唱和嘻哈歌手的寿命约为30岁。暂且不论作者使用线形图来展示分类数据,危险的是该数据图的Y轴不是从零开始,而是从25岁开始,这是一种人为夸大视觉效果的错误表达。当然这还属于数据技术层面的操弄,如果回到原始数据就会发现更严重的问题——数据调查发生时,大多数说唱和嘻哈歌手仍然健在,数据收集者压根儿不知道他们还能活多久。此外,说唱新流派的出现也还不到40年的时间。换句话说,不是说唱歌手很可能英年早逝,而是已经去世的说唱歌手肯定英年早逝。这些分析技术提醒我们注意,我们赖以习惯的技术和工具是如何引导我们以某种方式完成任务,同时又掩盖了其他选择。如果把数据和技术说成是中性的人工制品,那么还需要考虑哪些元数据在数据集中被隐藏了。
此外,为了“避免伪实证主义和技术决定论的狂妄自大”而出现的数据批判研究,相信数据并非科学经验的、客观透明的实体,因而也就不存在真正原始的数据。数据更无法自己说话,而是经由原始数据的收集、数据工具的选择、可视化和分发方式等一系列非中立的数据行动,被社会化地建构成了一种权力形式[14]。比如在数据工作的选择上,尽管“无代码”的数据工作,通常被贴上技术民主化和赋权的标签,但“无代码”同时也意味着学生将手上的编程权拱手让给大科技公司。“转码”对文科生来说是一种负担,但也有可能将学生从对大科技公司的依赖中解放出来,使他们有能力通过学习编程来寻求探索、分享和解释数据的新方法。[15]
如果说,纯粹的数据科学工作流旨在传达的是一种数据主义的意识形态,而这种数据至上的思维方式在日常的数据操弄中被广泛而微妙地再生产,那么数据的诠释与批判话语则引领他们跳出这种数据至上的潜意识,来进行社会价值与公共责任的反思。数据新闻教育则需要在以上两种话语——数据主义和数据诠释及批判之间展开协商,并找到某种平衡。
一旦我们相信数据新闻不是一套独立于世界之外的中性技能,而是由话语塑造的知识类型,那么数据新闻教育就不仅仅是将一套数据科学工作流嵌入现有的教学设计中,而是要从当前的数据新闻话语中汲取批判性的反思来检视数据工作常规,以此来挑战数据新闻制作中已然存在的一些理所当然的观念与想法。由此出发,我们主张一种以反思性参与引领的数据科学工作流为核心的数据新闻教学设计(见图1),来适应数据新闻实践的变革,以及回应数据新闻话语的激荡。
这种主张的核心理念是“以教室为新闻室”:既像在新闻室一样在教室做数据新闻,又可在无新闻室截止时间压力的情况下在教室进行知识与价值观的反思星空xk体育官网。具体来说,就是在外部参与式项目的驱动下倡导“从实践中来、在实践中教、到实践中做”;同时,鼓励从数据新闻话语中汲取批判性的理论反思来强化价值观与责任感。这种教学法旨在将“实践-话语-教学”三个环节连贯成一个持续反馈的循环,以确保处在这个反馈循环中的新闻学院学生,以教室为中介,“入乎其内写之,出乎其外观之”,既能在技术层面熟练地参与,也能在价值观层面进行批判性地反思。
通过对赫拉维所收集的《全球数据新闻课程数据集》中的部分可在线获取的教学大纲进行观察与预先评估,我们再从新闻实践中的数据科学工作流出发[16],结合批判性数据新闻话语,对这套工作流进行检视与反思,最终形成了一套批判性反思引领的、围绕数据科学工作流展开的数据新闻课程设计方案(见表1),这套方案自2015年以来已在上海理工大学的数据新闻教学中进行实验和持续修订。
(一)这个工作流的第一步是确定一个数据新闻选题。在教室做选题是一种有效的外部公共参与方式,米尔斯所主张的“社会学的想象力”有助于帮助新闻选题在个体与公共之间建立联结[17]。一个数据新闻选题的诞生可能有数据驱动和假设驱动两种路径[18],需要反思的是,在线上数字调查中,两种路径之间往往存在认识论的紧张。选题一旦确立,就需要针对其所涉及的报道对象建立观察数据集。有关数据新闻兴起的话语已经将其与全球开放数据运动关联起来,实际上,在涉及财经、时政、公共卫生、环境等议题的报道时,开放数据确实已经扮演了至关重要的角色,但批判性反思引领的数据新闻教学设计还主张对开放数据进行元数据层面的审查。此外,开放数据往往以统计数字的形式出现,当这些统计数字无法为数据叙事提供更丰富的属性时,通过访谈获取人类学意义上的厚数据就成为一种替代方案。实际上,在数据收集及对数据集的模式进行阐释方面,新闻室正在越来越多地从人类学家那里获得启发。[19]
(二)接下来即是数据科学工作流的核心环节。这包括对数据集的清洗、整理、分类与测量尺度的判断,以及在此基础上的探索式数据分析、计算文本分析、网络关系分析、空间分析或机器学习,以此来发掘其中的模式,并将分析的结果进行可视化表征,以便受众感知。通过批判式地借鉴一些知名数据新闻机构如BBC、FiveThirtyEight、等的做法,我们在上海理工大学使用数据科学语言R作为贯穿整个工作流的编程工具[20]。这门脱胎于生物学术界的数据科学编程语言,2020年在编程社区受欢迎程度达到了历史峰值,且最近五年在数据新闻领域变得日益流行[21]。R/Rstudio将从Web数据爬取、输入、清洗、转换、可视化、建模到发布的工作任务整合进了一个名为Tidyverse的库中[22],这对于数据工作尤其是人文社科语境中的数据工作展示出极大的友好性。除此之外,批判性反思引领的数据新闻教学设计还会对构成新闻证据的数据和模型进行批判性地思考,旨在警惕数据分析工作中暗藏的统计陷阱、识别数据可视化修辞中的坐标轴误导以及基于比例油墨原则[23]的视觉审查。
(三)批判性反思引领的数据新闻教学设计把数据新闻视为一种发明而非发现,亦即数据新闻是叙事角度的产物。我们从金融时报的《数据新闻视觉指南》提供的九种叙事角度[24],以及BBC数据记者保罗·布拉德肖(Paul Bradshaw)基于对100篇数据新闻作品的观察而归纳的《数据故事的七种角度》[25]中获得启发,将数据新闻的视觉叙事目的概括为关系、分布、比较、构成四种基础类型,以及时间序列、网络流和地理空间三种拓展类型。再根据数据类型和变量数目,将不同类型的视觉叙事任务通过R语言进行代码实现,这个过程中我们使用了数据科学家罗伯特·卡巴科弗(Rob Kabacoff)在《R语言实战》[26]中的建议方案。此外,与封闭的GUI视觉生成工具不同的是,R语言的可编程性,使得数据图的坐标轴、形状、颜色、字体、注释和格式等属性都可通过在代码中修改参数来生成替代方案,这意味着每一种数据图都并非唯一理所当然的结果,而只是在当前情况下的可能最优方案之一。比如在表示层级关系较为流行的圆形嵌套图(Circular Packing)中,父一级的数值等于各子一级的数值之和,但由于圆形嵌套图以圆圈为视觉叙事单元,这就导致各子一级的面积之和从视觉上并不等于父一级的面积,而当我们把视觉叙事单元从圆圈替换成方块后,这种视觉误差就消失了。遗憾的是,圆形嵌套图往往是GUI工具首选的叙事方案,比如在Flourish中,这种封装好的格式就是无法更改的;而在R语言环境中,我们则可通过改变代码中参数的值来控制图形形状,从而弱化这种从数值到图形的映射所导致的负面视觉后果。通过这种比较,学生可以在经验上感知视觉修辞背后的话语,并在反思中实现工程、艺术和批判性思维的交融。
(四)当数据新闻产品在线出版时,批判性反思引领的数据新闻教学设计鼓励将数据新闻项目托管在开源存储库中[27]。在解放日报·上观新闻主办的2018新概念融媒体作品大赛中,西华师范大学的团队就将其获奖数据新闻作品《城市记忆——数读北京市政务信息公开》[28]部署在了github上,这样一来内容创作团队可随时根据数据集的更新,来对作品进行版本控制,以实现数据新闻的可迭代性。这种开源发布方式也是数据新闻的一种透明性话语实践,而透明性某种程度上正在履行客观性长期以来在新闻业中扮演的角色[29]。但批判性反思引领的数据新闻教学设计同样对透明性保持反思,因为追求透明性同时可能会威胁到数据隐私。比如当涉及个人数据的发布时,姓名、地址、联系方式、经纬度坐标等地理数据、身份证号、车牌或各种证件号码,以及其他可追溯到个人的数据点等信息,不只是数据库中的一行代码,而是人[30]。比如ProPublica发布的《芝加哥市汽车停放与罚单数据集(1996-2018)》[31]就通过使用单向哈希函数将车牌转换成匿名的哈希标识符输出,这样数据访问者仍可根据需要对数据集进行个性化操作,却无法将随机显示的标识符还原为实际车牌号。所以在开源发布数据集时,批判性反思引领的数据新闻教学设计还主张通过匿名化,但同时不影响其潜在可用性的方式来保护数据库中的人。
以上批判性反思引领的围绕数据科学工作流展开的数据新闻课程设计,藉由学生以教室为中介的数据行动,转化成可显化的数据内容产品,来实现学术话语的再生产。在此过程中的数据行动始终以外部参与为导向,这些外部参与的方式包括外部新闻机构委托的项目、在线协作项目或参与行业竞赛等。
在教室做数据新闻,首先意味着学生“以教室为新闻室”,将教室里的数据行动与外部公共参与结合起来。一般情况下,外部参与式项目驱动的“选题”可以帮助学生打破教室与新闻室的边界,在新闻实践与教育实践之间建立起连接。也正是在外部公共参与这一点上,批判性反思引领的数据新闻教学设计,将其自身与其他场景,如商学院或生命科学院的数据教育工作区分开来。其次,学生可在无新闻室截止时间压力的情况下,在教室进行批判性的理论反思来强化价值观与责任感。这样一来,教室就成为打破学术话语、人才培养及社会参与三者边界的连接与转化机制。
按照这种理念,下文分析两项“在教室做数据新闻”的案例,来说明批判性反思引领的数据新闻教学设计如何藉由学生在教室的参与式数据行动,转化为可显化的数据内容产品。
案例之一是由“数氧实验室”团队在上海理工大学2020年秋季“数据新闻原理与应用”课堂上所制作的数据新闻作品《不再沉默的线],该选题以“张玉环案”“案”的司法纠错所引发的有关司法公正的在线讨论为语境,以中国裁判文书网公开的法律裁判文本语料为数据源,收集了自1969年至2020年间的1117篇法律文书,再对这些语料进行信息抽取、结构化和计算文本分析,最终呈现出了50多年来“冤假错案”司法纠错的整体面貌。这则数据作品因其对司法公正的关注,获得了2021年上海国际大学生“卓越杯”智能媒体作品大赛二等奖。而批判性反思引领的教学,还鼓励一种“出乎其外”的自我观察:亦即这则作品诞生的前提条件在于中国裁判文书网自2013年7月1日以来一直践行的司法信息公开制度。在此意义上,司法数据新闻不过是法律沟通系统在社会沟通语境中的再生产。
另一则案例是由“数氧实验室”团队在2022年春季上海疫情期间所发起的在线数据核查项目“#疫查到底2022”,这个项目以公共参与为导向,首先在上海理工大学启动,然后通过线上共享文档的协作式参与扩展到其他高校或社群。项目对疫情期间社交媒体或机构媒体上涉及公共卫生议题的统计陷阱或数据可视化修辞陷阱进行了审查,生产了一系列旨在帮助市民提升数据素养的数据内容产品。其中一则名为《R0=9.5=1传10?》[33]的数据内容报道,通过审查各信息源如何将统计学指标Re误用成了R0,揭开了R0的平均值假象,提醒市民R0仅仅代表着某种数学期望值,而这种期望值与我们现实生活中的感知存在很大的差距,以此方式来削弱信息疫情的负面影响。这则数据内容作品获得第七届中国数据新闻大赛二等奖的理由之一,正是其对科学数据的公共传播所持的批判性反思立场。
在新闻业整体数据化转型时,新闻教育却习惯于新闻业的稳定性和同质性,从而导致其狭隘地专注于让学生适应新闻室模式的常规实践[34],而不是以更具批判性的方式探讨新闻业的规范性理念如何被引入大学教育,以及在此过程中哪些声音被放大,哪些声音被边缘化。受福柯的“构置”(Dispositif)概念启发,本文主张数据新闻不是一套独立于世界之外的中性技能,而是由数据主义、诠释、批判等话语塑造并合理化的偶然知识类型。数据新闻业将自身包裹在这些流行的话语所蕴含的权力关系之中。话语总是物质性地附着于它所生产的数据新闻实践中,而话语附着的日常数据新闻实践反过来又扩大了这些话语的影响范围,强化了特定话语的权力效应,但同时也在微妙地再生产着这些话语背后的权力关系,以致新闻业中的日常数据行动几乎不可能跳出话语进行思考。
所以,新闻教育者有必要审视附着于日常数据新闻实践上的这些话语背后的权力关系,在此基础上,以教室为中介,通过设计课程大纲、外部参与机构媒体的项目开发、参与在线协作新闻项目、参与数据新闻大赛、举办数据新闻实务交流会等,来回答数据新闻教育的核心问题——教什么?如何教?以此方式培养出既能“入乎其内写之”,又能“出乎其外观之”的新型数据新闻行动者。
实际上,今天新闻学院的学生正在成为数据新闻生产实践的主要力量之一,这一现象意味着,新闻业中的数据行动者不是一个有着明确边界的封闭职业群体,沿用芭比·泽利泽(Barbie Zelizer)的概念,数据新闻从业者实际上是一个阐释共同体,他们通过对开放数据集的意义阐释与批判实践而联结在一起,来重塑自身的专业可信度和知识权威[35]。实际上,阐释共同体不仅适用于数据新闻从业者,也同样适用于数据新闻研究者与教育者。批判性反思引领的数据新闻课程设计,旨在以教室为中介,在新闻业中的数据行动者、数据新闻研究者、教育者之间,编织起阐释共同体的意义之网。这一从新闻教育场域出发的行动方案,为新闻业在更深层次上适应社会的整体数据化转型提供了一种可能的方案。
【本文为国家社科基金“技术现象学视域下智能手机与城乡中国居民的日常生活变迁研究”(批准号:19CXW030)阶段性成果】
[17] 赖特·米尔斯.社会学的想象力[M].李康,译.李钧鹏,校. 北京:北京师范大学出版集团,2017:10-41.
[26] 罗伯特·卡巴科弗. R语言实战[M].高涛,等,译. 北京:人民邮电出版社,2013:333.
金庚星,尤莼洁.在教室做数据新闻:一种反思性参与引领的教学设计[J].青年记者,2024(03):102-108.xk星空体育
扫一扫关注我们