2022年，人工智能带给人类更多惊喜

本信息由中国舆情网大数据平台根据信源规则识别收录,仅供参考。 时间：2023-01-31

原标题：2022年，人工智能带给人类更多惊喜

即将过去的2022年，对于人工智能来说是值得铭记的一年。大批人工智能相关应用走出实验室，向着大范围落地实践不断迈进。AI“黑科技”加持下的北京冬奥会异彩纷呈；无人驾驶开启多城试点，未来交通更进一步；AI绘画以假乱真令人着迷，艺术创作或许不再是人类专属……

无论是底层技术不断突破，还是各类应用百花齐放，在过去的一年，人工智能向我们展示了它的无限可能。我们相信这只是人工智能的冰山一角，未来它还有更多潜力等待我们去挖掘。

随着技术的不断成熟，落地应用不断创新，人工智能或将真正改变你我的生活。

AI“黑科技”照亮北京冬奥会

助力天气预报、比赛转播和手语播报等

2月4日，全球瞩目的2022年北京冬奥会正式拉开帷幕。人工智能等技术的应用为本届冬奥会增添了别样的“科技之美”。

在此次冬奥会上，由中国科学院院士、北京大学副校长、北京大学重庆大数据研究院首席科学家张平文领衔研制的人工智能MOML算法赋能天气预报模型，使冬奥会天气预报更加精准。人工智能算法在融合、处理信息中的先天优势，使其在一定程度上可以代替预报员在会商中进行信息整合、分析，通过数据挖掘与学习，将预报员的经验内化在算法中，在提高天气预报效率的同时，也进一步提高了预报的准确率。

在本届冬奥会自由式滑雪女子大跳台决赛中，中国选手谷爱凌以“逆天”的精彩表现获得个人首金。在比赛转播过程中，百度智能云通过“3D+AI”技术打造出的“同场竞技”系统，将单人比赛项目变成“多人比赛”，实现冠、亚军比赛画面的三维恢复和虚拟叠加，方便观众看到不同选手的实时动作；同时，通过技术手段对运动员动作进行量化分析，将滑行速度、腾空高度、落地远度、旋转角度等一系列运动数据与原始画面叠加起来，使观众可以更直观地从流畅性、完成度、难度、多样性和美观度等角度看懂选手之间的技术动作差异。

在北京冬奥会开幕的同一天，央视新闻AI手语主播也正式上岗，她在冬奥会新闻播报、赛事直播和现场采访中，为听障人士送上了实时手语翻译服务。凭借精确的手语翻译引擎，该AI手语主播可懂度达85%以上，可将冰雪赛事的文字及音视频内容，快速精准地转化为手语。

腾讯“混元”AI大模型登顶VCR榜单

展现了其在多模态理解领域的强大实力

5月31日，腾讯“混元”AI大模型在多模态理解领域国际权威榜单VCR（Visual Commonsense Reasoning，视觉常识推理）中登顶，两个单项成绩和总成绩均位列第一。这是继在跨模态检索领域大满贯、CLUE自然语言理解分类榜及CLUE总榜登顶后，“混元”AI大模型的又一重大突破，展现了其在多模态理解领域的强大实力。

与跨模态理解任务不同的是，多模态理解任务要求计算机除了能够做到识别层次的感知（如分类检测等），还需要达到认知层次的感知（如判断意图、逻辑推理等）。

此次登顶VCR榜首的“混元”AI大模型由腾讯广告多媒体AI团队自主研发，同时借助腾讯太极机器学习平台的图形处理器算力和训练加速框架，在预训练任务、训练方式上进行了诸多创新改进和设计，有效提升了模型性能。

截至目前，“混元”AI大模型在MSR-VTT、MSVD、CLUE、VCR等多个领域的AI权威榜单中取得了第一名的成绩，并刷新多项行业历史纪录。这意味着，“混元”在自然语言理解、多模态理解、跨模态理解等领域的技术实力已得到验证。

谷歌工程师闹乌龙，称AI存在意识

人工智能所谓的“人格”更多只是模仿人类罢了

谷歌AI工程师闹乌龙，称LaMDA语言模型有意识，引发业界对“AI是否拥有自主意识”的讨论。

今年6月，谷歌公司AI工程师莱莫因认为对话应用语言模型LaMDA具有了“自主意识”，并对此出具了长达21页的证据。莱莫因认为LaMDA具有意识的原因有三：一是LaMDA以前所未有的方式高效、创造性地使用语言；二是它以与人类相似的方式分享感觉；三是它会表达内省和想象——既会担忧未来，也会追忆过去。

LaMDA是谷歌在2021年开发者大会上公布的大型自然语言对话模型，它可以模拟任何带有知识属性的实体，通过“拟人”的方式，在与人类亲切自然的对话中为用户答疑解惑，传递更多知识。

莱莫因的观点和证据引起了业内的广泛关注。不久后，谷歌发表声明称，莱莫因违反了“就业和数据安全政策”，将其解雇。谷歌表示，经过广泛地审查，他们发现莱莫因关于LaMDA是有生命的说法是完全没有根据的。

专家普遍认为，当下人工智能具有的所谓“人格”，更多只是模仿人类的语言风格，有自我意识、有感知能力的AI应该具备能动性，并具有独特的视角看待人和事，但目前AI还只是人们设计的一个计算机系统，作为工具来做一些特定之事。

全球首个图、文、音三模态大模型诞生

“紫东太初”实现“以图生音”和“以音生图”

9月1日，在上海举办的2022世界人工智能大会上，由武汉人工智能研究院、中国科学院自动化研究所和华为技术有限公司联合研发的“紫东太初”多模态大模型项目获得了此次大会的最高奖项。“紫东太初”是全球首个图、文、音三模态大模型，开创性地实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”，实现了“以图生音”和“以音生图”，理解和生成能力更接近人类，为打造多模态人工智能行业应用提供创新基础，向通用人工智能迈出了重要一步。

“紫东太初”三模态间的相互转换和生成，其核心原理是视觉、文本、语音不同模态通过各自编码器映射到统一语义空间，然后通过多头自注意力机制学习模态之间的语义关联以及特征对齐，形成多模态统一知识表示；之后，再利用编码后的多模态特征，通过解码器分别生成文本、图像和语音。

“紫东太初”凭借四大突破，有效助力以多模态认知为核心的通用人工智能发展。一是首次提出多层次、多任务跨模态自监督学习框架，支持从词条级走向模态级、样本级的三级预训练自监督学习方式；二是首次完成弱关联多模态数据语义统一表示，减少数据收集与清洗代价；三是首次实现多模态理解与生成任务的统一建模，支持跨模态检索、多模态分类、语音识别、图像生成等理解与生成任务；四是首次实现无监督超越有监督方法，基于5%—10%的数据标注，实现100%的有监督学习效果。

AI打破矩阵乘法计算速度纪录

解决了50年来数学领域一个悬而未决的问题

上一篇：国内首个森林灭火指挥训练与考评系统完成验收
下一篇：喷涂智能皮肤用AI理解手部任务