装在小框框里的世界:聋人观众想要什么样的手语新闻?******
装在小框框里的世界
电视屏幕左下角的手语框,是聋人观众看世界的渠道之一。
自1984年,手语框第一次出现在新闻节目,截至2020年年底,有34个省级电视台、209个地市级电视台播放手语节目,一些重要的会议和比赛也配有手语翻译。2012年国务院出台的《无障碍环境建设条例》如此阐述手语新闻节目的意义:保障聋人平等参与社会生活。
手语框的出现,被很多人认为是一种进步。但要在这个小方框里装下更多内容,还需要很多努力。2021年,国家手语和盲文研究中心一项面向585位聋人的调研发现,“完全能看懂”电视手语新闻的聋人只有7.69%,大多数聋人能看懂的不到一半,甚至完全看不懂。
有聋人看不清手语框,只好叫老婆陪在旁边,让老婆一边听新闻,一边打手语告诉他,电视里在讲什么。还有聋人表示,长时间盯着屏幕左下角的小方框,容易感觉疲倦。
而对于全国2053万位聋人来说,这还不是他们唯一的遗憾。一个聋人描述,除夕夜,一家人聚在一起看春节联欢晚会,当家人被小品、相声节目逗得同时大笑时,只有他一个人看不懂,因为实时直播没有字幕,也没有手语翻译。
第二天的重播配上了字幕——这位聋人有机会能看懂那些“包袱”了,但家人已经看过节目了。他感觉,那种欢聚一堂的氛围没有了。
为什么看不懂手语新闻?
北京师范大学教授郑璇是一位聋人,长期研究手语语言学。她认为,手语画面太小,会严重影响受众的可懂度。比如,用手语表达春夏秋冬,是要握起拳头,凸出的四指根部关节各自代表了不同的季节,如果手语框太小,聋人很容易看不清指的是哪个关节,只能靠猜。
“有的手语框只占到整个电视机屏幕的十分之一,这是不够的。”郑璇说,许多电视节目的手语翻译画面保留至手语传译员的胸线以上,但有些手语手势或低至腰部,或高过头顶。
比如,广州市最通用的手语打法是双手掌心向上,在腰部两侧碰几下,超出了手语框画面。为了让观众能够看到完整的手势,手语传译员不得不缩小动作,造成变形。
学会手语不仅是只会几个单词,要把手形、位置、方向、运动、表情、体态和口型整合起来,才能精准表达。
广东一位聋人陈钢举例,用手语表达“开心”,也有不同的表现形式:要表现一点点开心,可以用脸部浅浅的微笑,加上手部表达的“好”;要表示超开心,可以夸张一些——睁大眼睛,张大嘴巴,脸部变化丰富,双手晃动,身体姿势摆动,像唱歌和跳舞一样。
但看电视时,陈钢很难从手语传译员的面部表情上获取信息,也有聋人说,手语传译员的手势动作幅度太小,使得“咬字”不足够清晰。
在电视台当新闻手语传译员的刘可研坦言,在电视屏幕前和私下聊天时打手语,人的状态肯定是不同的。在新闻节目,手语传译员应该与主持人风格相一致,需要端庄大方,表情不能过于夸张。但这会对手语表达有所限制。
有聋人观众拿着国外新闻的视频给刘可研看——国外手语传译员的表情生动,肢体动作丰富。“观众希望我们的翻译能够和国际接轨。可中国人本身性格更内敛一些,不太容易像外国人那样外放。”刘可研说。
郑璇说,在媒体、学校等公共场合,按有关规定要求使用通用手语,国家通用手语方案目前只有8000多个词语,仅能覆盖部分核心手势;而聋人之间的交流,习惯用的是社群里自发形成的手语。
而且,几乎所有电视台都用听人(指听力健全的人——记者注)做手语传译员,但听人学习手语,习惯性地用“主谓宾”的汉语语序,而聋人打手语的语法是话题优先原则。“手语能力较差的听人翻译时会下意识用汉语语序打手语,逐词逐句打出来,这让聋人更看不懂了。”
一位聋人举例,要表达“你会不会修电脑?”,聋人往往会打“电脑,修,会”,再带上疑问的表情。
陈钢观察到,当新闻里的词汇还没出现通用打法时,手语传译员的翻译很容易出问题,比如,把“萌萌哒”打成“MMD”“神马”则会变成“神仙加马”。
一些经常出现在新闻里的词也会给刘可研提出挑战,比如:供给侧、同比增长……如果想短时间翻译出来,还能跟上主持人的语速,她只能直译。
过去3年,刘可研参与过70多场北京疫情发布会的手语翻译工作。有一次,她听到“以快制快”,这是生活中很少出现的词汇,如果直接翻译聋人肯定看不懂,她想了一下,把这句话的意思表达为“用最快的方式控制疫情的发展”。
这对手语传译员的翻译水平要求很高。陈钢回忆,早年出现“雾霾”天气时,新闻主播提醒市民出门要戴口罩防雾霾,但手语传译员只用了“雾”替代,在他看来就是仙气飘飘的普通白雾,起不了警示作用。
好的手语新闻节目,要真正做到平视
刘可研经常和聋人朋友交流,究竟想要什么样的手语新闻?
回答集中在两点,手语框变大,手语传译员的翻译能看得懂。“聋人观众其实是很宽容的,他们这两点要求并不高。”刘可研说。
她曾和电视台的栏目组沟通手语框变大的问题,对方也知道聋人对手语新闻的意见,但在具体操作上,电视台的台标位置、滚动字幕的位置等都有明确的要求,将手语框调大,会影响画面中其他要素的构成和位置。
江苏师范大学的手语教师刘承承是一名聋人,长期研究电视节目手语播音员的语言使用和翻译技巧。他认为,栏目组应该对聋人语言和文化有一定认识,才能做聋人受众认可的节目。
他举例,中国台湾有一档手语节目,手语主播、片头片尾由聋人或是手语熟练的听人出镜,节目的主要镜头对准聋人,不会“喧宾夺主”。
有一次,这个节目的采访在海边进行,画面上出现文字提示“海浪声”,刘承承马上意识到,现场采访的人听到了海浪声,“节目充分考虑聋人精神世界和无障碍的需求。”
韩国、日本等国家还建立了聋人视频网站,专门同步新闻翻译,创办接地气的手语娱乐节目。还有聋人说,希望由聋人直接出镜担任手语新闻的播报,而不是局限在小方框里。
中国也有受到好评的手语新闻节目,南京栖霞电视台的《小芮说新闻》是其中之一。
南京栖霞区融媒体中心主任方玲是这档节目的创办人。她回忆,2014年,她听从栖霞区残联的推荐,选用两位手语优秀的聋校教师作为手语传译员,这两位聋校老师都是聋人,打的手语更贴近聋人观众的习惯。
这一度加大了主创人员的制作难度:听人翻译手语时,可以一边听主持人的话,一边打,也可以看提词器的字幕打;但聋人只能看字幕打手语。
主持人芮钟科回忆,最初磨合时,他和手语传译员都朝着对方的速度靠拢,他降低语速,手语传译员提高手速,经常要录制多遍,才能保证节奏卡点,后期剪辑师也会做相应的调整。
“没人愿意看一档声画不同步的节目。”编导王珍珍说,“要把手语当成配音、字幕一样对待。”她回忆,有时节奏对不上,手语传译员要尝试不同的手语表达来配合主持人;有时第一遍打错了,传译员要重新再打一遍,就像字幕里不能有错别字、语句不通。
这也让《小芮说新闻》的制作时间要比其他节目更长。以往两天能制作完成的节目,在这里要花4天,有时主创人员还得配合手语传译员的时间。
节目播出后,主创人员感受到聋人观众的热情,公众号后台还涌入居住在外国的聋人。《小芮说新闻》的主创人员还和20多个聋人一起踏青,参与国际聋人节的系列活动,还建了一个微信群。
《小芮说新闻》在电视台播出的画面中,手语框大小不好调整,但在节目的网络版本里,手语框可以调为屏幕的四分之一。
这个做法如今被部分媒体采纳:有的电视台把手语框调成正方形,约占屏幕六分之一,甚至一些发布会的网络版,会把手语框调大到屏幕的四分之一。一个聋人说,这些进步尊重聋人和听人有平等接受信息的权利,真正做到了平视。
优秀的手语翻译太少了
对电视台来说,要找到合适的手语传译员,并不是一件容易的事。
南京栖霞区融媒体中心主任方玲说,选择手语传译员时,她更倾向于选择残联推荐的人,不用担心对方会在翻译时出现纰漏,误导公众。
郑璇说,绝大多数电视台会从听力正常的聋校老师里挑选兼职的手语传译员,但近几年,聋校生源不断萎缩,缺乏专业的学习资源和培训机会,这影响了聋校老师的手语水平——学习手语翻译的人有一个共识,只有长期浸润在聋人环境里,与聋人保持接触,才能精进手语水平。
郑璇研究发现,各级电视台的手语新闻质量参差不齐,一些区县级电视台甚至有手语传译员还会穿米黄色、白色的衣服上镜,和双手的肤色混淆。
但刘可研介绍,出镜正确的着装是,穿深色的衬衣,不能佩戴饰物和手表,不能化浓妆。郑璇说:“手语框里最重要的是那双手,从视觉上一定要把手凸显出来。”
郑璇分析,这和当地特教学校的规模和办学质量有关。越小的地方聋人学生越少,县级电视台要找到合适的手语传译员更困难。
找到手语翻译就够难了,要从中选优就更费工夫。
不少受访者说,电视台里几乎没有懂手语的人,很难评价和监管手语传译员的翻译水平。
刘可研说,电视台里很多人一般不太懂手语,“聋人朋友选的翻译又不一定满足电视台的要求。”她介绍,一般手语传译员的薪酬相对固定,且与翻译质量没有直接关系。
陈钢曾去英国交流,当地电视台的大多栏目都配备手语传译员,且经常换人。“在手语翻译服务上,中国和欧美国家相比至少落后几年。”
曾任郑州工程技术学院特殊教育学院院长的孟繁玲说,目前,我国手语翻译专业的学生少,但电视台、高校、医院、法院等单位又需要手语翻译,这个专业的人才往往供不应求。
与之相比,美国的手语教育体系完整,从学前到高中开设有选修课,开办手语教育或手语翻译专业的高校有几百所。澳大利亚中小学也开设手语选修课。
“手语翻译人才的问题不解决,聋人其他的问题也很难解决。”孟繁玲说。
懂得手语的律师唐帅多年处理与聋人有关的官司,此前接受采访时说,有司法机关询问聋哑的嫌疑人时,要通过外聘的手语翻译沟通,有几次,他在案件的同步录像上,发现手语翻译人员直接在摄像头底下向聋哑人敲诈勒索。
而且,陈钢说,目前许多懂得手语的人会另外找本职工作,把手语翻译作为兼职——单纯当手语翻译不能保障生活来源,也没有相关政策扶持手语翻译人才的发展。因此,越到更边远的地方,手语翻译就更难找。
新闻之于聋人的意义
电视机里的手语框,曾被视为保障聋人权益的象征。生活在北京的聋人冯刚回忆,他第一次在电视上看到手语框出现时,感觉惊喜、高兴。
慢慢地,手语框出现的频率更多了。1990年,《中华人民共和国残疾人保障法》以法律的形式明确了电视手语新闻的意义:“反映残疾人生活,为残疾人服务,丰富残疾人的精神文化生活。”
2012年出台的《无障碍环境建设条例》规定,市级以上电视台应创造条件,每周至少播放一次配播手语的新闻节目。
在刘承承看来,电视机那个手语框的存在非常重要。“看滚动字幕,眼睛要高度集中,容易累,清晰表达的手语传译员能让聋人的眼睛相对放松,且传达出文字难以表述的感情起伏。”
但大多时候,聋人注视这个手语框的模样是狼狈的。
曾任北京西城区聋协主席的刘丽娜多次向北京市残联、北京市聋协反馈“看不懂手语新闻”这个情况,对方也努力想协调这个问题,但一直没有解决。
北京一位聋人说,2021年,他曾在北京残联的组织下,作为聋人代表,参与手语传译员的考核,从手形、动作、神态、翻译技巧多角度打分,考核的标准就是“聋人观众能看得明白,看得不累”。
近30位特殊教育学校的听人老师参与了那次考核,每人轮流上台15分钟,跟着随机播放的新闻录音,一边听一边打手语。他回忆,最终,有7位手语老师通过了考核,残联推荐给了电视台后,不知道为什么,电视台还是坚持用了老班子。
郑璇建议,可以组成专家委员会,挑选既熟练掌握手语,又懂手语理论的专家,聋听不限,由专家委员会来评价手语传译员的翻译水平。
在接受中青报·中青网记者采访时,一些来自不同地方的聋人也说,他们曾通过各级残疾人联合会、各级聋人协会等多个途径反映过“手语新闻看不懂”的问题,但反映多次后,也没有看到改变。
“我们能不能有能看懂的新闻节目,我们能不能有更好的精神生活?”刘丽娜问。
郑璇说,听障者的最大心理问题是孤立感,而新闻资讯恰恰是聋人和外界连接的桥梁之一,能帮助聋人打破孤立感,寻找到自己存在的意义。
有的聋人长年坚持读书看报,喜欢在聚会上,用手语把报纸上的诈骗新闻分享给其他聋人。一位聋人说,他会在世界杯、奥运会、春节联欢晚会播放时准时打开电视收看——这样会让他感觉,自己真正参与了主流社会的活动。
作为中国第一位语言学专业的聋人博士,郑璇有时在北师大开会时,也会有孤独的感觉:当同事开始七嘴八舌的时候,即便有助听器,她很难识别是谁在开口;当座位距离发言人太远的时候,她也很难通过助听器或读唇了解完整的信息。
她说,许多聋人经历过这样的时刻:当一群人说笑话,哄堂大笑时,聋人问“说什么”,听人说,“没什么,和你没关系。”
陈钢有个好友参加会议,他询问旁边的同事会议内容,同事的回答简洁明了,“部门需要改革,要整顿办公室和人员。”
“一句话就完事了?”聋人疑惑,那个会议明明开了很久。
“其他和你没关系,只知道重点就可以了。”同事回答。
聋人渴望双向的交流,而不是单向的
那种“和你没关系”的感觉,在短视频诞生以后,一定程度上减弱了。
那是当前聋人圈里获取信息最快速、最普遍的方式。还有部分聋人选择用手语自制短视频:教学手语、翻译新闻、诉说生活故事……一个备受欢迎的自媒体每天翻译当天一则重要的新闻,没有配字幕,只有手语,但每篇推文都有数万浏览量。
2021年,国家手语和盲文研究中心在调研电视手语新闻的可懂度时,也调查了聋人对网络自媒体视频的看法。超过六成聋人能“完全看懂”或“看懂大部分”自媒体上由聋人自发录制的手语视频。相比而言,参与调研的聋人更认可网络自媒体视频。
许多聋人观众都说,由聋人自制的新闻小短片,易懂、便利、有贴近性。他们习惯了在好友群里转发、分享这些短视频,还可以和短视频的制作者在评论区互动。
科技增加了聋人双向交流的机会。冯刚有些年纪较大的朋友,眼睛不好、文字也看不懂。当遇到麻烦时,这些朋友会通过视频聊天,打手语请冯刚帮忙。有时候,冯刚在家无聊了,也喜欢找聋人朋友用视频聊天,有时候一聊就是几个小时。
但冯刚也说,通过手机视频打手语,费劲也费时间,一旦信号不好、画面卡顿,就要把刚刚的手语重打一遍。
越来越多科技公司投入无障碍的研究。2022年的卡塔尔世界杯,陈钢有了一种新的收看方式:电视机屏幕下会出现实时的无障碍字幕,为聋人翻译解说。
电视机甚至出现了由AI代替手语传译员,为聋人翻译新闻,名为数字人。
《小芮说新闻》如今改用了数字人的形式。芮钟科说,数字人的出现,大大降低了制作成本,原来4天的制作时间缩短为两天,主创人员只需要把文本录入电脑,就会自动生成数字人打的手语视频。
方玲认为,虽然数字人不如真人有表现力,但是它不会改变意思,保证准确度。她计划可以把数字人推广到更多节目,比如相对轻松的娱乐节目。
“翻译和科技拥抱是迟早的事”刘可研也说,科技的加盟既为手语翻译工作提供了很多的可能性,也让手语翻译员有了新的挑战。
郑璇调研发现,许多苦恼于找不到手语传译员的区县级电视台,如今购买了数字人的服务。她曾应邀指导某大厂的手语数字人研发,投入了许多精力、时间,但要让数字人跟上真人翻译的水平,还距离很远,“目前,数字人的发展还没有到足以成熟落地的程度,一些科技公司夸大宣传,片面推广,很容易造成聋人受众的排斥心理。”
她观察,目前,数字人翻译新闻,有信息丢失、漏翻、动作变形扭曲、节奏怪异等问题。也有聋人比喻,数字人就像中英文翻译机,输入汉语却出来了中式英语。
郑璇担心,电视台等媒体不懂手语,在科技公司蜂拥而上研发数字人的风潮之下,难以判断真实的产品质量,从而损害聋人朋友的利益。
冯刚也说,当前数字人只是单向转达、告知聋人信息,“数字人能带聋人看病吗?”他认为,数字人很难实现双向沟通,能看懂聋人的手语并说出来。
手语是美的、是活的
和汉语、英语、法语一样,手语也是一门语言,它有语法,速度、节奏、韵律、停顿、语气、重音。
孟繁玲看过出色的聋人演讲,台上的聋人利用表情、眼神、体态、面部表情、步伐,浑身都在说话,“如此美,且如此清晰”。
冯刚也说,聋人喜欢用手语讲故事。青少年时,他们喜欢在聋校的讲台上,讲电影故事,成年后去福利单位上班,也喜欢利用午休时聚在一起聊天,用手语“说说”最近发生的社会现象。
郑璇还曾用手语诵唐诗、说汉字、读论语,“手语是非常灵活的。”比如,用头朝下栽倒,那比喻了挫折、碰壁、失败;用拳头敲胳膊借代了疲劳,锤击脑门则借代了困难。
而且,不同地方的手语略有差异,就像是“方言”,但当两个来自不同地方的聋人聊天,他们总能通过更丰富的肢体语言顺畅地沟通。同一个词,可以用不同的手势表达。手语甚至还有语种的差异,比如中国手语、美国手语、日本手语。
但这门语言在中国还处于极其初步的阶段。孟繁玲培养了许多手语翻译专业的学生,发现社会对关于“聋人”和“手语”的知识缺少起码的认识。有学生刚刚入学就闹着要转学,“我有嘴为什么要学着用手说话”“ 看见聋人我害怕”。
“大众关于聋的知识太少了。”她鼓励手语翻译专业学生一定要多和聋人接触,跟着聋人学习手语,不仅要打出聋人看得懂的手语,还要能看懂各地聋人使用的手语。”虽然这个要求对学生来说难度很大,但要成为服务聋人群体的合格的手语翻译员,必须要达到这一目标。”
她曾去美国的学校参观,每个聋生上课时配备了一位手语翻译,且会考核翻译水平,“这样才能让知识传递给聋人,鼓励聋人发展”。
她认为,提高手语地位,还能推动聋人高等教育的发展。
2013年,江苏师范大学成立手语播音硕士点。正在读研究生的胡晓波是少数的聋人学生。他说,学院老师也想招更多聋人学生,但是至今能通过统招考试的聋人只有三位,本质原因是,大多聋人的受教育程度不够高,最容易卡在英语上。
陈钢认识一个英国家庭,五代人都是聋人,却出了10个博士、5个手语翻译,也有人在大学和研究机构工作。这一度让他感觉羡慕、震撼。
刘承承发现,当前,中国大多聋童的家长更愿意让孩子学习口语,而不是手语。但手语和口语之间并不是非此即彼的关系。聋童学口语是为了能在主流社会里生存,但要毫无障碍、没有隔离感、平等的交流,比如多人聚餐,谈情说爱,只能用手语。
刘可研还是北京启喑实验学校的老师。她观察到,有的聋生回到家,只能在房间里一个人待着,因为没有一个家人会手语,无法交流。许多聋生不爱看新闻,她上课时经常会借助一些时事,想丰富课堂内容,但常常没有什么效果——学生并不了解这些时事,甚至完全没有听说过。
“新闻并不是看出来的。”刘可研说,听人要有一定的、综合的知识作为储备,才能看懂新闻;而聋生在各方面的知识储备都很薄弱,要想看懂新闻相对困难。这两年,她有时看新闻也会觉得,即便是她作为听人,要听懂、看懂一些专业性强的新闻,也有些难度。
冯刚如今也开始用手语自制短视频,“想让社会了解聋人的文化和世界。聋人的声音要被听到,可以通过自媒体来做。”
“聋人要发声,相比其他形式的残障更难。”郑璇说,聋人完成日常沟通就很不容易,要去演讲或是向别人诉说自己的意见更难,而且聋人习惯直接简单的沟通,因此很难听出对方话里的潜台词、话中话。这让聋人很难发声呼吁,争取更多社会资源。
“那个隐形的天花板就一直立在那里。”郑璇说,要真正实现无障碍,还需要更多人的支持。
中青报·中青网记者 魏晞 来源:中国青年报
2022年,人工智能带给人类更多惊喜******
视觉中国供图
在世界人工智能大会上,用户输入文字,AI就能根据语意进行绘画创作。视觉中国供图
在国内首个乘用车无人化运营试点北京经济技术开发区,一辆“主驾无人、副驾驶配备安全员”的无人驾驶车在行驶中。新华社记者彭子洋摄
即将过去的2022年,对于人工智能来说是值得铭记的一年。大批人工智能相关应用走出实验室,向着大范围落地实践不断迈进。AI“黑科技”加持下的北京冬奥会异彩纷呈;无人驾驶开启多城试点,未来交通更进一步;AI绘画以假乱真令人着迷,艺术创作或许不再是人类专属……
无论是底层技术不断突破,还是各类应用百花齐放,在过去的一年,人工智能向我们展示了它的无限可能。我们相信这只是人工智能的冰山一角,未来它还有更多潜力等待我们去挖掘。
随着技术的不断成熟,落地应用不断创新,人工智能或将真正改变你我的生活。
AI“黑科技”照亮北京冬奥会
助力天气预报、比赛转播和手语播报等
2月4日,全球瞩目的2022年北京冬奥会正式拉开帷幕。人工智能等技术的应用为本届冬奥会增添了别样的“科技之美”。
在此次冬奥会上,由中国科学院院士、北京大学副校长、北京大学重庆大数据研究院首席科学家张平文领衔研制的人工智能MOML算法赋能天气预报模型,使冬奥会天气预报更加精准。人工智能算法在融合、处理信息中的先天优势,使其在一定程度上可以代替预报员在会商中进行信息整合、分析,通过数据挖掘与学习,将预报员的经验内化在算法中,在提高天气预报效率的同时,也进一步提高了预报的准确率。
在本届冬奥会自由式滑雪女子大跳台决赛中,中国选手谷爱凌以“逆天”的精彩表现获得个人首金。在比赛转播过程中,百度智能云通过“3D+AI”技术打造出的“同场竞技”系统,将单人比赛项目变成“多人比赛”,实现冠、亚军比赛画面的三维恢复和虚拟叠加,方便观众看到不同选手的实时动作;同时,通过技术手段对运动员动作进行量化分析,将滑行速度、腾空高度、落地远度、旋转角度等一系列运动数据与原始画面叠加起来,使观众可以更直观地从流畅性、完成度、难度、多样性和美观度等角度看懂选手之间的技术动作差异。
在北京冬奥会开幕的同一天,央视新闻AI手语主播也正式上岗,她在冬奥会新闻播报、赛事直播和现场采访中,为听障人士送上了实时手语翻译服务。凭借精确的手语翻译引擎,该AI手语主播可懂度达85%以上,可将冰雪赛事的文字及音视频内容,快速精准地转化为手语。
腾讯“混元”AI大模型登顶VCR榜单
展现了其在多模态理解领域的强大实力
5月31日,腾讯“混元”AI大模型在多模态理解领域国际权威榜单VCR(Visual Commonsense Reasoning,视觉常识推理)中登顶,两个单项成绩和总成绩均位列第一。这是继在跨模态检索领域大满贯、CLUE自然语言理解分类榜及CLUE总榜登顶后,“混元”AI大模型的又一重大突破,展现了其在多模态理解领域的强大实力。
与跨模态理解任务不同的是,多模态理解任务要求计算机除了能够做到识别层次的感知(如分类检测等),还需要达到认知层次的感知(如判断意图、逻辑推理等)。
此次登顶VCR榜首的“混元”AI大模型由腾讯广告多媒体AI团队自主研发,同时借助腾讯太极机器学习平台的图形处理器算力和训练加速框架,在预训练任务、训练方式上进行了诸多创新改进和设计,有效提升了模型性能。
截至目前,“混元”AI大模型在MSR-VTT、MSVD、CLUE、VCR等多个领域的AI权威榜单中取得了第一名的成绩,并刷新多项行业历史纪录。这意味着,“混元”在自然语言理解、多模态理解、跨模态理解等领域的技术实力已得到验证。
谷歌工程师闹乌龙,称AI存在意识
人工智能所谓的“人格”更多只是模仿人类罢了
谷歌AI工程师闹乌龙,称LaMDA语言模型有意识,引发业界对“AI是否拥有自主意识”的讨论。
今年6月,谷歌公司AI工程师莱莫因认为对话应用语言模型LaMDA具有了“自主意识”,并对此出具了长达21页的证据。莱莫因认为LaMDA具有意识的原因有三:一是LaMDA以前所未有的方式高效、创造性地使用语言;二是它以与人类相似的方式分享感觉;三是它会表达内省和想象——既会担忧未来,也会追忆过去。
LaMDA是谷歌在2021年开发者大会上公布的大型自然语言对话模型,它可以模拟任何带有知识属性的实体,通过“拟人”的方式,在与人类亲切自然的对话中为用户答疑解惑,传递更多知识。
莱莫因的观点和证据引起了业内的广泛关注。不久后,谷歌发表声明称,莱莫因违反了“就业和数据安全政策”,将其解雇。谷歌表示,经过广泛地审查,他们发现莱莫因关于LaMDA是有生命的说法是完全没有根据的。
专家普遍认为,当下人工智能具有的所谓“人格”,更多只是模仿人类的语言风格,有自我意识、有感知能力的AI应该具备能动性,并具有独特的视角看待人和事,但目前AI还只是人们设计的一个计算机系统,作为工具来做一些特定之事。
全球首个图、文、音三模态大模型诞生
“紫东太初”实现“以图生音”和“以音生图”
9月1日,在上海举办的2022世界人工智能大会上,由武汉人工智能研究院、中国科学院自动化研究所和华为技术有限公司联合研发的“紫东太初”多模态大模型项目获得了此次大会的最高奖项。“紫东太初”是全球首个图、文、音三模态大模型,开创性地实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”,实现了“以图生音”和“以音生图”,理解和生成能力更接近人类,为打造多模态人工智能行业应用提供创新基础,向通用人工智能迈出了重要一步。
“紫东太初”三模态间的相互转换和生成,其核心原理是视觉、文本、语音不同模态通过各自编码器映射到统一语义空间,然后通过多头自注意力机制学习模态之间的语义关联以及特征对齐,形成多模态统一知识表示;之后,再利用编码后的多模态特征,通过解码器分别生成文本、图像和语音。
“紫东太初”凭借四大突破,有效助力以多模态认知为核心的通用人工智能发展。一是首次提出多层次、多任务跨模态自监督学习框架,支持从词条级走向模态级、样本级的三级预训练自监督学习方式;二是首次完成弱关联多模态数据语义统一表示,减少数据收集与清洗代价;三是首次实现多模态理解与生成任务的统一建模,支持跨模态检索、多模态分类、语音识别、图像生成等理解与生成任务;四是首次实现无监督超越有监督方法,基于5%—10%的数据标注,实现100%的有监督学习效果。
AI打破矩阵乘法计算速度纪录
解决了50年来数学领域一个悬而未决的问题
10月,英国《自然》杂志封面以“矩阵游戏”为题,发表了人工智能公司“深度思维”团队的最新发现:AI可以解决矩阵乘法问题。这款名为“AlphaTensor”的AI系统能自行发现新算法,从而解决了50年来数学领域一个悬而未决的问题——找到两个矩阵相乘最快的方法。这是第一个可为矩阵乘法等基本任务发现新颖、高效且正确算法的AI系统。
数学在计算机编程中经常出现,通常作为描述和操纵现实世界现象表示的一种手段。例如,它可用于表示计算机屏幕上的像素、天气状况或人工网络中的节点。在这种情况下,使用数学的主要方式之一,就是对矩阵进行计算。矩阵越大,工作量也越大,计算机科学家开始花费大量时间和精力开发更加有效的算法来完成相关工作。
在此次最新成果中,“深度思维”团队研究人员探究了是否有可能使用基于强化学习的AI系统来创建新算法,从而使计算步骤比现有算法更少。
为了找到答案,他们从游戏系统中寻找灵感。在构建了一些初步系统之后,研究团队将重点转向了树搜索,这是系统在特定情况下查看各种方案的一种方法。
接下来,研究人员将允许系统创建自己的算法,进一步提高效率。他们发现,在许多情况下,系统选择的算法比人类创建的算法更好。“深度思维”团队希望,未来AI能更多地用来帮助攻克数学和科学领域的一些重要的难题。
2022中国人工智能创新发展指数公布
全面反映我国人工智能发展态势
11月18日,第五届世界声博会暨2022科大讯飞全球1024开发者节开幕式上,中国电子信息产业发展研究院(又称赛迪研究院)发布了2022中国人工智能创新发展指数(合肥指数)。
这是国内首个以地区冠名的全国性人工智能专题研究成果,旨在全面系统地反映我国人工智能的发展态势。中国电子信息产业发展研究院从发展环境、创新能力、基础配套、资本投入和产业实力5个维度,构建了中国人工智能创新发展指数,也就是“合肥指数”的评价体系。
近年来,我国人工智能步入与经济深度融合应用新阶段,智能化转型全面推进,人工智能产业在全球的影响力不断增强。2021年,我国人工智能的研发强度为19.4%,从业人数增加到31万人,占全球比重的5.3%。2017年至2021年,我国人工智能产业规模增长了2.6倍,占全球比重提升到16.8%。专利申请量占全球比重持续扩大,从2012年的13%增长到2021年的70.9%。创新能力上,我国人工智能研发投入力度不断加大,从业人数不断增加。
从总体指数来看,北京、广东和上海处于人工智能领域的领跑地位,安徽则紧随其后,排在全国的第6位。合肥已经成为人工智能领域、科技创新与产业发展最活跃的城市之一。
ESMFold预测六亿多种蛋白质结构
预测速度比“阿尔法折叠”快60倍
英国“深度思维”公司8月曾宣布,其开发的人工智能程序“阿尔法折叠”已预测出约100万个物种的超过2亿种蛋白质结构,几乎涵盖了科学界已编录的每一种蛋白质结构。但就在今年11月,元宇宙平台公司(Meta)研究人员利用人工智能模型ESMFold预测了来自细菌、病毒和其他尚未被表征微生物的6亿多种蛋白质结构。
在此次最新研究中,研究团队利用大型语言模型来预测这些蛋白质结构。据悉,语言模型通常需要大量文本进行训练,为将这一模型应用于蛋白质结构预测,研究团队利用已知的蛋白质序列来训练它,这些已知的蛋白质可由20个不同氨基酸组成的链来表达,每个氨基酸由一个字母表示。然后,ESMFold学会了用模糊的氨基酸比例“自动完成”蛋白质结构预测。
该团队负责人亚历山大·里维斯表示,这些训练让ESMFold对包含蛋白质形状信息的蛋白质序列有了直观了解。而且,与“阿尔法折叠”一样,这一模型能将这些了解到的信息与已知蛋白质结构和序列之间的关系信息结合,生成预测结构。
团队指出,ESMFold的预测虽然不像“阿尔法折叠”那么准确,但在预测速度上要快60倍,这意味着它可将结构预测数据库扩展到更大。
首创蛋白质动态结构AI建模方法
对理解生命过程、研发新型药物有着重要意义
12月8日,西湖大学公布了该校人工智能讲席教授李子青团队联合厦门大学、杭州德睿智药科技有限公司首创研发的能够刻画蛋白质构象变化与亲和力预测的AI模型——ProtMD。这是第一个尝试解析蛋白质动态构象的人工智能模型,可辅助药物化学专家更加精准地筛选出高活性小分子,从而加速临床前药物研发。
此前谷歌旗下公司研发的“阿尔法折叠2”能够利用人工智能准确预测蛋白质的三维结构,对结构生物学、药物设计乃至整个科学界都产生了巨大影响。但“阿尔法折叠2”只能预测蛋白质在一个瞬间的静态结构,尚未能解决蛋白质结构动态变化的预测。李子青团队此次开发的AI模型,在给定药物分子和靶点蛋白的情况下,可预测药物分子与生物体内靶点蛋白质结合(柔性对接)后蛋白质结构的变化过程,推断药物与靶标蛋白结合的稳定性,预测药物功能,从而提升AI药物设计的精度和效率。
李子青表示,预测蛋白质结构的动态变化对理解生命过程、研发新型药物都有着十分重要的意义。尤其在AI药物设计中,通过对药物分子与靶点蛋白结合后的动态结构变化进行预测,评估药物—靶点结合亲和力和药物效果,是提高AI药物筛选准确性和效能的重要思路。
多城市推动自动驾驶行业发展
我国自动驾驶行业正式向L3级迈进
2022年是自动驾驶行业具有里程碑意义的一年,有关政策密集出台,相关应用从研发测试走向大规模商业化试点。当前,全国近30个城市已累计为80余家企业发放了超过1000张道路测试牌照,允许高等级智能网联汽车在特定场景、特殊区域内开展规模化载人载物测试示范。越来越多的城市正在推进更高等级的自动驾驶商业化。
今年8月1日,《深圳经济特区智能网联汽车管理条例》开始实行,该条例提出L3级自动驾驶在行政区全域开放道路测试、示范应用,探索开展商业化运营试点,标志着我国自动驾驶行业正式向L3级迈进。
此后,重庆、武汉等地政府部门也先后发布了自动驾驶全无人商业化试点政策,并向百度发放全国首批无人化示范运营资格,允许车内无安全员的自动驾驶车辆在社会道路上开展商业化服务。
此外,为推动智能网联汽车产业健康有序发展,工业和信息化部会同公安部还组织起草了《关于开展智能网联汽车准入和上路通行试点工作的通知(征求意见稿)》,拟遴选符合条件的道路机动车辆生产企业和具备量产条件的搭载自动驾驶功能的智能网联汽车产品,开展准入试点;对通过准入试点的智能网联汽车产品,在试点城市的限定公共道路区域内开展上路通行试点。
AI绘画火了,AIGC元年开启
未来预计能够产生万亿级经济价值
今年8月,在美国科罗拉多州举办的新兴数字艺术家竞赛中,参赛者杰森·艾伦提交的AIGC绘画作品——《太空歌剧院》,获得了此次比赛“数字艺术/数字修饰照片”类别一等奖。没有绘画基础的杰森·艾伦借用了一款名叫Midjourney的AI绘图工具,通过一个类似“文字游戏”的过程,输入题材、光线、场景、角度、氛围等有关画面效果的关键词后,得到了初始作品,并在反复调整和修改后最终完成了这组“太空歌剧院”数字艺术作品。
这一年,AI绘画小程序、网站等开始迅猛增长,而美图秀秀、抖音等软件也加入了AI画图功能。抖音平台数据显示,截至12月6日,已有超2428.4万人使用该特效,迅速飙升至特效潮流榜第一位。AI绘画的百度指数也从日均两三千上升到日均3万,火爆程度可见一斑。
AI绘画的火爆也让AIGC这一概念逐渐进入大众视野。
所谓AIGC(AI Generated Content),即基于人工智能技术自动生成内容的新型生产范式。其技术主要涉及两个方面:自然语言处理(NLP)和AIGC生成算法。其中,自然语言处理是实现人与计算机之间通过自然语言进行交互的手段。
最初,AIGC可生成的内容形式以文字为主,经过2022年指数级的发展,目前AIGC技术可生成的内容形式已经拓展到了包括文字、图像、视频、语音、代码、机器人动作等多种内容形式,2022年也因此被称为“AIGC元年”。生成式AI让机器开始大规模涉足知识类和创造性工作,未来预计能够产生数万亿美元的经济价值。(科技日报实习记者 都芃)