融资1600万美元 支持100种语言 这家法国AI创企推新语音转录引擎

智东西 编译 杨蕊伃 漠影

智东西10月16日消息,据VentureBeat昨日报道,法国AI转录和音频智能创企Gladia成功融资1600万美元,并推出了一个多语言实时音频转录和分析引擎。该公司计划利用这笔资金推进研发,推出一站式音频AI工具包。

Gladia成立于2022年,一直专注于开发端到端的音频基础设施。该公司推出的最新微调引擎可以提供超过100种语言的高级实时转录功能。

该引擎的独特之处在于能够实时捕捉通话中有价值的信息,包括来电者的情绪、对话中的关键信息和摘要。

该新产品克服了语言理解和实时数据处理等挑战,实时语音转文本引擎的延迟低于300毫秒。

本轮融资由欧洲风投机构XAnge领投,Illuminate Financial、XTX Ventures等多家风投公司参投。

截至目前,Gladia累计融资金额已达到2030万美元,早期种子轮投资者包括New Wave、红杉资本(作为First Sequoia Arc计划的一部分)、Cocoa和GFC。

一、Gladia新引擎:100多种语言实时转录,不到1秒生成内容

语音转文本产品在克服语言理解挑战方面面临着诸多困难。

其中,语言资源的数量和质量不足是一个关键问题。

在Gladia公司看来,目前大多数语音识别系统主要依赖于英语音频数据进行训练,这在一定程度上限制了它们对其他语言的识别能力。

为了解决这个问题,Gladia致力于开发一个真正多语言的实时语音识别产品。

该公司新开发的微调引擎能够提供100多种语言的高级实时转录服务。

Gladia特别增强了新引擎对各种口音的识别能力,使其能够迅速适应不同语言环境,从而为用户提供更加全面和高效的语音转文字体验。

Gladia的首席执行官兼联合创始人Jean-Louis Quéguiner在接受VentureBeat采访时称,他创立Gladia的初衷源于个人经历,现有的音频转录服务无法准确识别他的法语口音。

他说:“考虑到目前大多数语音识别模型主要在英语音频数据上训练,存在固有的偏见,Gladia优先构建了第一个真正多语言的实时产品。”

此外,Gladia引擎的特别之处在于能够即时从对话中提取信息,如来电者的情绪、关键信息和对话摘要。这意味着使用Gladia从通话或会议中生成文字记录和见解只需不到1秒钟的时间。

二、克服语言、数据多个挑战,延迟低于300毫秒不损准确性

由于上下文信息有限,实时模型在迅速生成内容、准确输出内容上可能会遇到难题。

此外,实时模型需要更多的计算资源来支持其运行,这进一步增加了引擎开发的复杂性。

Gladia推出的新产品克服了语言理解和实时处理数据等上述挑战,并且能够对功能进行持续优化,以提供更准确的服务。

Gladia的实时语音转文本引擎在延迟方面达到了行业领先水平,延迟时间低于300毫秒,且无论用户使用的是哪种语言、位于何地或使用何种技术栈,都不会影响转录的准确性。

XAnge合伙人Alexis du Peloux说:“Gladia代表了我们在XAnge所推崇的品质:一支大胆的全球科技团队,处于AI创新的前沿,拥有成熟的商业模式,能够为各个行业带来新机遇。在快节奏的AI环境中,Jean-Louis Quéguiner和他的团队表现非常出色,我们很自豪能够支持Gladia进行A轮融资。”

▲Gladia创始人Jonathan Soto(左)和Jean-Louis Quéguiner(右)。(图源:VentureBeat)

三、整合AI功能,单一API已为7万用户600家企业服务

Gladia试图将多种AI功能整合到其现有平台中。

联合创始人兼首席技术官Jonathan Soto说:“我们的单一API兼容所有现有的技术栈和协议,包括SIP、VoIP、FreeSwitch和Asterisk。这使我们能够轻松将实时转录和分析集成到客户的AI平台中,让他们专注于为终端用户提供最佳服务。”

该公司在2023年6月推出了其第一个异步转录和音频智能API。

自推出以来,Gladia的API在企业应用中受到了广泛关注,尤其在会议记录和笔记辅助工具方面表现突出。

Gladia的首席执行官兼联合创始人Jean-Louis Quéguiner说:“Gladia的技术使垂直市场中需要尖端实时转录(包括销售支持和联络中心平台)的公司能够从人工呼叫后处理无缝转向主动、低延迟的工作流程。无论是自动进行客户关系管理(CRM),还是采用AI为坐席提供实时指导,Gladia都旨在帮助企业更智能、更高效地运营。”

目前,该API已为全球超过7万名用户和600家企业客户提供服务,包括Attention、Circleback、Method Financial、Recall、Sana和VEED。

结语:Gladia放新招!新资本助力研发 一站式音频AI工具包

Gladia将利用新资金推进其研发工作,计划很快将一站式音频AI工具包推向市场,并通过大语言模型和检索增强生成扩展其产品范围。

该公司在联络中心即服务 (CCaaS) 领域拥有多家设计合作伙伴,目前正在试行由Gladia的实时AI引擎提供支持的代理协助解决方案。

Gladia的这些新动作,加上新资本的助力,使得公司在研发一站式音频AI工具包方面有了更多的底气,进一步巩固其在竞争激烈的市场中的地位。

这对Otter.ai和Fireflies.ai等竞争对手以及其他将语音对话转录为文本的基于AI的服务来说将会是一个新的挑战。


人工智能的发展前景趋势?

1、 机器视觉和语音识别是主要市场

技术层是基于基础理论和数据之上,面向细分应用开发的技术。 中游技术类企业具有技术生态圈、资金和人才三重壁垒,是人工智能产业的核心。 相比较绝大多数上游和下游企业聚焦某一细分领域、技术层向产业链上下游扩展较为容易。

该层面包括算法理论(机器学习)、平台框架和应用技术(计算机视觉、语音识别、自然语言处理)。 众多国际科技巨头和独角兽均在该层级开展广泛布局。 近年来,我国技术层围统垂直领城重点研发,在计算机视觉、语音识别等领城技术成熟,国内头部企业脱颗而出,竞争优势明显。

2、计算机视觉发展历经三大理念,规模突破400亿元

1982年马尔(David Marr)《视觉》(Marr,1982)一书的问世,标志着计算机视觉成为了一门独立学科。 计算机视觉的研究内容,大体可以分为物体视觉(object vision)和空间视觉(spatial vision)二大部分。 物体视觉在于对物体进行精细分类和鉴别,而空间视觉在于确定物体的位置和形状,为“动作(action)”服务。 正像著名的认知心理学家所言,视觉的主要功能在于“适应外界环境,控制自身运动”。 适应外界环境和控制自身运动,是生物生存的需求,这些功能的实现需要靠物体视觉和空间视觉协调完成。

计算机视觉近40年的发展中,尽管人们提出了大量的理论和方法,但总体上说,计算机视觉经历了三个主要历程。 即:马尔计算视觉、多视几何与分层三维重建和基于学习的视觉。

国际市场研究机构Research And Markets发布的最新报告显示,2019年全球计算机视觉市场规模为46.433亿美元,预计到2027年将达到950.805亿美元,从2020年到2027年,预计年复合增长率为46.9%。

3、语音识别发展科追溯到1956年

语音识别的研究工作可以追溯到20世纪50年代。 在1952年,AT&T贝尔研究所的Davis,Biddulph和Balashek研究成功了世界上第一个语音识别系统Audry系统,可以识别10个英文数字发音。 这个系统识别的是一个人说出的孤立数字,并且很大程度上依赖于每个数字中的元音的共振峰的测量。 1956年,在RCA实验室,Olson和Belar研制了可以识别一个说话人的10个单音节的系统,它同样依赖于元音带的谱的测量。 到21世纪之后,深度学习技术极大的促进了语音识别技术的进步,识别精度大大提高,应用得到广泛发展。

目前,语音识别技术已逐渐被应用于工业、通信、商务、家电、医疗、汽车电子以及家庭服务等各个领域。 例如,现今流行的手机语音助手,就是将语音识别技术应用到智能手机中,能够实现人与手机的智能对话功能。 其中包括美国苹果公司的Siri语音助手,智能360语音助手,网络语音助手等。

随着语音技术和自然语言理解技术的快速进步,AI语音语义技术已在智能翻译、智能医疗、智能汽车、智能客服、互联网语音审核等多个领域实现场景应用。

疫情之后不仅是工业领域,政务服务领域的语音机器人、传统行业企业的语音机器人也将有较高的市场增长空间。 另外,NLP、AI数字员工、RPA的发展,一定程度上也将重塑AI应用场景。

2018年,全球智能语音市场仍呈现快速增长趋势,市场规模为142.1亿美元,根据预测到2024年全球智能语音市场规模将达到215亿美元,其中智慧医疗健康、智慧金融以及各类智能终端智能语音技术需求将成为主要的驱动因素。

4、美国AI高层次学者数量大幅领先

AI高层次学者是指入选AI 2000榜单的2000位人才,由于存在同一学者入选不同领域的现象,经过去重处理后,AI高层次学者共计1833位。 从国家角度看AI高层次学者分布,美国A1高层次学者的数量最多,有1244人次,占比62.2%,超过总人数的一半以上,且是第二位国家数量的6倍以上。 中国排在美国之后,位列第二,有196人次,占比9.8%。 德国位列第三,是欧洲学者数量最多的国家;其余国家的学者数量均在100人次以下。

—— 以上数据参考前瞻产业研究院《中国人工智能行业市场前瞻与投资战略规划分析报告》

人工智能的发展,主要经历哪几个阶段?

1 孕育阶段这个阶段主要是指1956年以前。 自古以来,人们就一直试图用各种机器来代替人的部分脑力劳动,以提高人们征服自然的能力,其中对人工智能的产生、发展有重大影响的主要研究成果包括:早在公元前384-公元前322年,伟大的哲学家亚里士多德(Aristotle)就在他的名著《工具论》中提出了形式逻辑的一些主要定律,他提出的三段论至今仍是演绎推理的基本依据。 英国哲学家培根(F. Bacon)曾系统地提出了归纳法,还提出了“知识就是力量”的警句。 这对于研究人类的思维过程,以及自20世纪70年代人工智能转向以知识为中心的研究都产生了重要影响。 德国数学家和哲学家莱布尼茨(G. W. Leibniz)提出了万能符号和推理计算的思想,他认为可以建立一种通用的符号语言以及在此符号语言上进行推理的演算。 这一思想不仅为数理逻辑的产生和发展奠定了基础,而且是现代机器思维设计思想的萌芽。 英国逻辑学家布尔(C. Boole)致力于使思维规律形式化和实现机械化,并创立了布尔代数。 他在《思维法则》一书中首次用符号语言描述了思维活动的基本推理法则。 英国数学家图灵(A. M. Turing)在1936年提出了一种理想计算机的数学模型,即图灵机,为后来电子数字计算机的问世奠定了理论基础。 美国神经生理学家麦克洛奇(W. McCulloch)与匹兹(W. Pitts)在1943年建成了第一个神经网络模型(M-P模型),开创了微观人工智能的研究领域,为后来人工神经网络的研究奠定了基础。 美国爱荷华州立大学的阿塔纳索夫(Atanasoff)教授和他的研究生贝瑞(Berry)在1937年至1941年间开发的世界上第一台电子计算机“阿塔纳索夫-贝瑞计算机(Atanasoff-Berry Computer,ABC)”为人工智能的研究奠定了物质基础。 需要说明的是:世界上第一台计算机不是许多书上所说的由美国的莫克利和埃柯特在1946年发明。 这是美国历史上一桩著名的公案。 由上面的发展过程可以看出,人工智能的产生和发展绝不是偶然的,它是科学技术发展的必然产物。 2 形成阶段这个阶段主要是指1956-1969年。 1956年夏季,由当时达特茅斯大学的年轻数学助教、现任斯坦福大学教授麦卡锡(J. MeCarthy)联合哈佛大学年轻数学和神经学家、麻省理工学院教授明斯基(M. L. Minsky),IBM公司信息研究中心负责人洛切斯特(N. Rochester),贝尔实验室信息部数学研究员香农(C. E. Shannon)共同发起,邀请普林斯顿大学的莫尔()和IBM公司的塞缪尔(A. L. Samuel)、麻省理工学院的塞尔夫里奇(O. Selfridge)和索罗莫夫(R. Solomonff)以及兰德(RAND)公司和卡内基梅隆大学的纽厄尔(A. Newell)、西蒙(H. A. Simon)等在美国达特茅斯大学召开了一次为时两个月的学术研讨会,讨论关于机器智能的问题。 会上经麦卡锡提议正式采用了“人工智能”这一术语。 麦卡锡因而被称为人工智能之父。 这是一次具有历史意义的重要会议,它标志着人工智能作为一门新兴学科正式诞生了。 此后,美国形成了多个人工智能研究组织,如纽厄尔和西蒙的Carnegie-RAND协作组,明斯基和麦卡锡的MIT研究组,塞缪尔的IBM工程研究组等。 自这次会议之后的10多年间,人工智能的研究在机器学习、定理证明、模式识别、问题求解、专家系统及人工智能语言等方面都取得了许多引人注目的成就,例如:在机器学习方面,1957年Rosenblatt研制成功了感知机。 这是一种将神经元用于识别的系统,它的学习功能引起了广泛的兴趣,推动了连接机制的研究,但人们很快发现了感知机的局限性。 在定理证明方面,美籍华人数理逻辑学家王浩于1958年在IBM-704机器上用3~5min证明了《数学原理》中有关命题演算的全部定理(220条),并且还证明了谓词演算中150条定理的85%,1965年鲁宾逊(J. A. Robinson)提出了归结原理,为定理的机器证明作出了突破性的贡献。 在模式识别方面,1959年塞尔夫里奇推出了一个模式识别程序,1965年罗伯特(Roberts)编制出了可分辨积木构造的程序。 在问题求解方面,1960年纽厄尔等人通过心理学试验总结出了人们求解问题的思维规律,编制了通用问题求解程序(General Problem Solver,GPS),可以用来求解11种不同类型的问题。 在专家系统方面,美国斯坦福大学的费根鲍姆(E. A. Feigenbaum)领导的研究小组自1965年开始专家系统DENDRAL的研究,1968年完成并投入使用。 该专家系统能根据质谱仪的实验,通过分析推理决定化合物的分子结构,其分析能力已接近甚至超过有关化学专家的水平,在美、英等国得到了实际的应用。 该专家系统的研制成功不仅为人们提供了一个实用的专家系统,而且对知识表示、存储、获取、推理及利用等技术是一次非常有益的探索,为以后专家系统的建造树立了榜样,对人工智能的发展产生了深刻的影响,其意义远远超过了系统本身在实用上所创造的价值。 在人工智能语言方面,1960年麦卡锡研制出了人工智能语言(List Processing,LISP),成为建造专家系统的重要工具。 1969年成立的国际人工智能联合会议(International Joint Conferences On Artificial Intelligence,IJCAI)是人工智能发展史上一个重要的里程碑,它标志着人工智能这门新兴学科已经得到了世界的肯定和认可。 1970年创刊的国际性人工智能杂志《Artificial Intelligence》对推动人工智能的发展,促进研究者们的交流起到了重要的作用。 3 发展阶段这个阶段主要是指1970年以后。 进入20世纪70年代,许多国家都开展了人工智能的研究,涌现了大量的研究成果。 例如,1972年法国马赛大学的科麦瑞尔(A. Comerauer)提出并实现了逻辑程序设计语言PROLOG;斯坦福大学的肖特利夫(E. H. Shorliffe)等人从1972年开始研制用于诊断和治疗感染性疾病的专家系统MYCIN。 但是,和其他新兴学科的发展一样,人工智能的发展道路也不是平坦的。 例如,机器翻译的研究没有像人们最初想象的那么容易。 当时人们总以为只要一部双向词典及一些词法知识就可以实现两种语言文字间的互译。 后来发现机器翻译远非这么简单。 实际上,由机器翻译出来的文字有时会出现十分荒谬的错误。 例如,当把“眼不见,心不烦”的英语句子“Out of sight,out of mind”。 翻译成俄语变成“又瞎又疯”;当把“心有余而力不足”的英语句子“The spirit is willing but the flesh is weak”翻译成俄语,然后再翻译回来时竟变成了“The wine is good but the meat is spoiled”,即“酒是好的,但肉变质了”;当把“光阴似箭”的英语句子“Time flies like an arrow”翻译成日语,然后再翻译回来的时候,竟变成了“苍蝇喜欢箭”。 由于机器翻译出现的这些问题,1960年美国政府顾问委员会的一份报告裁定:“还不存在通用的科学文本机器翻译,也没有很近的实现前景。 ”因此,英国、美国当时中断了对大部分机器翻译项目的资助。 在其他方面,如问题求解、神经网络、机器学习等,也都遇到了困难,使人工智能的研究一时陷入了困境。 人工智能研究的先驱者们认真反思,总结前一段研究的经验和教训。 1977年费根鲍姆在第五届国际人工智能联合会议上提出了“知识工程”的概念,对以知识为基础的智能系统的研究与建造起到了重要的作用。 大多数人接受了费根鲍姆关于以知识为中心展开人工智能研究的观点。 从此,人工智能的研究又迎来了蓬勃发展的以知识为中心的新时期。 这个时期中,专家系统的研究在多种领域中取得了重大突破,各种不同功能、不同类型的专家系统如雨后春笋般地建立起来,产生了巨大的经济效益及社会效益。 例如,地矿勘探专家系统PROSPECTOR拥有15种矿藏知识,能根据岩石标本及地质勘探数据对矿藏资源进行估计和预测,能对矿床分布、储藏量、品位及开采价值进行推断,制定合理的开采方案。 应用该系统成功地找到了超亿美元的钼矿。 专家系统MYCIN能识别51种病菌,正确地处理23种抗菌素,可协助医生诊断、治疗细菌感染性血液病,为患者提供最佳处方。 该系统成功地处理了数百个病例,并通过了严格的测试,显示出了较高的医疗水平。 美国DEC公司的专家系统XCON能根据用户要求确定计算机的配置。 由专家做这项工作一般需要3小时,而该系统只需要0.5分钟,速度提高了360倍。 DEC公司还建立了另外一些专家系统,由此产生的净收益每年超过4000万美元。 信用卡认证辅助决策专家系统American Express能够防止不应有的损失,据说每年可节省2700万美元左右。 专家系统的成功,使人们越来越清楚地认识到知识是智能的基础,对人工智能的研究必须以知识为中心来进行。 对知识的表示、利用及获取等的研究取得了较大的进展,特别是对不确定性知识的表示与推理取得了突破,建立了主观Bayes理论、确定性理论、证据理论等,对人工智能中模式识别、自然语言理解等领域的发展提供了支持,解决了许多理论及技术上的问题。 人工智能在博弈中的成功应用也举世瞩目。 人们对博弈的研究一直抱有极大的兴趣,早在1956年人工智能刚刚作为一门学科问世时,塞缪尔就研制出了跳棋程序。 这个程序能从棋谱中学习,也能从下棋实践中提高棋艺。 1959年它击败了塞缪尔本人,1962年又击败了一个州的冠军。 1991年8月在悉尼举行的第12届国际人工智能联合会议上,IBM公司研制的“深思”(Deep Thought)计算机系统就与澳大利亚象棋冠军约翰森(D. Johansen)举行了一场人机对抗赛,结果以1:1平局告终。 1957年西蒙曾预测10年内计算机可以击败人类的世界冠军。 虽然在10年内没有实现,但40年后深蓝计算机击败国际象棋棋王卡斯帕罗夫(Kasparov),仅仅比预测迟了30年。 1996年2月10日至17日,为了纪念世界上第一台电子计算机诞生50周年,美国IBM公司出巨资邀请国际象棋棋王卡斯帕罗夫与IBM公司的深蓝计算机系统进行了六局的“人机大战”。 这场比赛被人们称为“人脑与电脑的世界决战”。 参赛的双方分别代表了人脑和电脑的世界最高水平。 当时的深蓝是一台运算速度达每秒1亿次的超级计算机。 第一盘,深蓝就给卡斯帕罗夫一个下马威,赢了这位世界冠军,给世界棋坛以极大的震动。 但卡斯帕罗夫总结经验,稳扎稳打,在剩下的五盘中赢三盘,平两盘,最后以总比分4:2获胜。 一年后,即1997年5月3日至11日,深蓝再次挑战卡斯帕罗夫。 这时,深蓝是一台拥有32个处理器和强大并行计算能力的RS/6000SP/2的超级计算机,运算速度达每秒2亿次。 计算机里存储了百余年来世界顶尖棋手的棋局,5月3日棋王卡斯帕罗夫首战击败深蓝,5月4日深蓝扳回一盘,之后双方战平三局。 双方的决胜局于5月11日拉开了帷幕,卡斯帕罗夫在这盘比赛中仅仅走了19步便放弃了抵抗,比赛用时只有1小时多一点。 这样,深蓝最终以3.5:2.5的总比分赢得这场举世瞩目的“人机大战”的胜利。 深蓝的胜利表明了人工智能所达到的成就。 尽管它的棋路还远非真正地对人类思维方式的模拟,但它已经向世人说明,电脑能够以人类远远不能企及的速度和准确性,实现属于人类思维的大量任务。 深蓝精湛的残局战略使观战的国际象棋专家们大为惊讶。 卡斯帕罗夫也表示:“这场比赛中有许多新的发现,其中之一就是计算机有时也可以走出人性化的棋步。 在一定程度上,我不能不赞扬这台机器,因为它对盘势因素有着深刻的理解,我认为这是一项杰出的科学成就。 ”因为这场胜利,IBM的股票升值为180亿美元。 4 人工智能的学派根据前面的论述,我们知道要理解人工智能就要研究如何在一般的意义上定义知识,可惜的是,准确定义知识也是个十分复杂的事情。 严格来说,人们最早使用的知识定义是柏拉图在《泰阿泰德篇》中给出的,即“被证实的、真的和被相信的陈述”(Justified true belief,简称JTB条件)。 然而,这个延续了两千多年的定义在1963年被哲学家盖梯尔否定了。 盖梯尔提出了一个著名的悖论(简称“盖梯尔悖论”)。 该悖论说明柏拉图给出的知识定文存在严重缺陷。 虽然后来人们给出了很多知识的替代定义,但直到现在仍然没有定论。 但关于知识,至少有一点是明确的,那就是知识的基本单位是概念。 精通掌握任何一门知识,必须从这门知识的基本概念开始学习。 而知识自身也是一个概念。 因此,如何定义一个概念,对于人工智能具有非常重要的意义。 给出一个定义看似简单,实际上是非常难的,因为经常会涉及自指的性质(自指:词性的转化——由谓词性转化为体词性,语义则保持不变)。 一旦涉及自指,就会出现非常多的问题,很多的语义悖论都出于概念自指。 自指与转指这一对概念最早出自朱德熙先生的《自指与转指》(《方言》1983年第一期,《朱德熙文集》第三卷)。 陆俭明先生在《八十年代中国语法研究》中(第98页)说:“自指和转指的区别在于,自指单纯是词性的转化-由谓词性转化为体词性,语义则保持不变;转指则不仅词性转化,语义也发生变化,尤指行为动作或性质本身转化为指与行为动作或性质相关的事物。 ”举例:①教书的来了(“教书的”是转指,转指教书的“人”);教书的时候要认真(“教书的”语义没变,是自指)。 ②Unplug一词的原意为“不使用(电源)插座”,是自指;常用来转指为不使用电子乐器的唱歌。 ③colored在表示having colour(着色)时是自指。 colored在表示有色人种时,就是转指。 ④rich,富有的,是自指。 the rich,富人,是转指。 知识本身也是一个概念。 据此,人工智能的问题就变成了如下三个问题:一、如何定义(或者表示)一个概念、如何学习一个概念、如何应用一个概念。 因此对概念进行深人研究就非常必要了。 那么,如何定义一个概念呢?简单起见,这里先讨论最为简单的经典概念。 经典概念的定义由三部分组成:第一部分是概念的符号表示,即概念的名称,说明这个概念叫什么,简称概念名;第二部分是概念的内涵表示,由命题来表示,命题就是能判断真假的陈述句。 第三部分是概念的外延表示,由经典集合来表示,用来说明与概念对应的实际对象是哪些。 举一个常见经典概念的例子——素数(prime number),其内涵表示是一个命题,即只能够被1和自身整除的自然数。 概念有什么作用呢?或者说概念定义的各个组成部分有什么作用呢?经典概念定义的三部分各有作用,且彼此不能互相代替。 具体来说,概念有三个作用或功能,要掌握一个概念,必须清楚其三个功能。 第一个功能是概念的指物功能,即指向客观世界的对象,表示客观世界的对象的可观测性。 对象的可观测性是指对象对于人或者仪器的知觉感知特性,不依赖于人的主观感受。 举一个《阿Q正传》里的例子:那赵家的狗,何以看我两眼呢?句子中“赵家的狗”应该是指现实世界当中的一条真正的狗。 但概念的指物功能有时不一定能够实现,有些概念其设想存在的对象在现实世界并不存在,例如“鬼”。 第二个功能是指心功能,即指向人心智世界里的对象,代表心智世界里的对象表示。 鲁迅有一篇著名的文章《论丧家的资本家的乏走狗》,显然,这个“狗”不是现实世界的狗,只是他心智世界中的狗,即心里的狗(在客观世界,梁实秋先生显然无论如何不是狗)。 概念的指心功能一定存在。 如果对于某一个人,一个概念的指心功能没有实现,则该词对于该人不可见,简单地说,该人不理解该概念。 最后一个功能是指名功能,即指向认知世界或者符号世界表示对象的符号名称,这些符号名称组成各种语言。 最著名的例子是乔姆斯基的“colorless green ideas sleep furiously”,这句话翻译过来是“无色的绿色思想在狂怒地休息”。 这句话没有什么意思,但是完全符合语法,纯粹是在语义符号世界里,即仅仅指向符号世界而已。 当然也有另外,“鸳鸯两字怎生书”指的就是“鸳鸯”这两个字组成的名字。 一般情形下,概念的指名功能依赖于不同的语言系统或者符号系统,由人类所创造,属于认知世界。 同一个概念在不同的符号系统里,概念名不一定相同,如汉语称“雨”,英语称“rain”。 根据波普尔的三个世界理论,认知世界、物理世界与心理世界虽然相关,但各不相同。 因此,一个概念的三个功能虽然彼此相关,也各不相同。 更重要的是,人类文明发展至今,这三个功能不断发展,彼此都越来越复杂,但概念的三个功能并没有改变。 在现实生活中,如果你要了解一个概念,就需要知道这个概念的三个功能:要知道概念的名字,也要知道概念所指的对象(可能是物理世界)。 更要在自己的心智世界里具有该概念的形象(或者图像)。 如果只有一个,那是不行的。 知道了概念的三个功能之后,就可以理解人工智能的三个学派以及各学派之间的关系。 人工智能也是一个概念,而要使一个概念成为现实,自然要实现概念的三个功能。 人工智能的三个学派关注于如何才能让机器具有人工智能,并根据概念的不同功能给出了不同的研究路线。 专注于实现AI指名功能的人工智能学派成为符号主义,专注于实现AI指心功能的人工智能学派称为连接主义,专注于实现AI指物功能的人工智能学派成为行为主义。 1. 符号主义符号主义的代表人物是Simon与Newell,他们提出了物理符号系统假设,即只要在符号计算上实现了相应的功能,那么在现实世界就实现了对应的功能,这是智能的充分必要条件。 因此,符号主义认为,只要在机器上是正确的,现实世界就是正确的。 说得更通俗一点,指名对了,指物自然正确。 在哲学上,关于物理符号系统假设也有一个著名的思想实验——本章1.1.3节中提到的图灵测试。 图灵测试要解决的问题就是如何判断一台机器是否具有智能。 图灵测试将智能的表现完全限定在指名功能里。 但马少平教授的故事已经说明,只在指名功能里实现了概念的功能,并不能说明一定实现了概念的指物功能。 实际上,根据指名与指物的不同,哲学家约翰·塞尔勒专门设计了一个思想实验用来批判图灵测试,这就是著名的中文屋实验。 中文屋实验明确说明,即使符号主义成功了,这全是符号的计算跟现实世界也不一定搭界,即完全实现指名功能也不见得具有智能。 这是哲学上对符号主义的一个正式批评,明确指出了按照符号主义实现的人工智能不等同于人的智能。 虽然如此,符号主义在人工智能研究中依然扮演了重要角色,其早期工作的主要成就体现在机器证明和知识表示上。 在机器证明方面,早期Simon与Newell做出了重要的贡献,王浩、吴文俊等华人也得出了很重要的结果。 机器证明以后,符号主义最重要的成就是专家系统和知识工程,最著名的学者就是Feigenbaum。 如果认为沿着这条路就可以实现全部智能,显然存在问题。 日本第五代智能机就是沿着知识工程这条路走的,其后来的失败在现在看来是完全合乎逻辑的。 实现符号主义面临的观实挑成主要有三个。 第一个是概念的组合爆炸问题。 每个人掌握的基本概念大约有5万个,其形成的组合概念却是无穷的。 因为常识难以穷尽,推理步骤可以无穷。 第二个是命题的组合悖论问题。 两个都是合理的命题,合起来就变成了没法判断真假的句子了,比如著名的柯里悖论(Curry’s Paradox)(1942)。 第三个也是最难的问题,即经典概念在实际生活当中是很难得到的,知识也难以提取。 上述三个问题成了符号主义发展的瓶颈。 2. 连接主义连接主义认为大脑是一切智能的基础,主要关注于大脑神经元及其连接机制,试图发现大脑的结构及其处理信息的机制、揭示人类智能的本质机理,进而在机器上实现相应的模拟。 前面已经指出知识是智能的基础,而概念是知识的基本单元,因此连接主义实际上主要关注于概念的心智表示以及如何在计算机上实现其心智表示,这对应着概念的指心功能。 2016年发表在Nature上的一篇学术论文揭示了大脑语义地图的存在性,文章指出概念都可以在每个脑区找到对应的表示区,确确实实概念的心智表示是存在的。 因此,连接主义也有其坚实的物理基础。 连接主义学派的早期代表人物有麦克洛克、皮茨、霍普菲尔德等。 按照这条路,连接主义认为可以实现完全的人工智能。 对此,哲学家普特南设计了著名的“缸中之脑实验”,可以看作是对连接主义的一个哲学批判。 缸中之脑实验描述如下:一个人(可以假设是你自己)被邪恶科学家进行了手术,脑被切下来并放在存有营养液的缸中。 脑的神经末梢被连接在计算机上,同时计算机按照程序向脑传递信息。 对于这个人来说,人、物体、天空都存在,神经感觉等都可以输入,这个大脑还可以被输入、截取记忆,比如截取掉大脑手术的记忆,然后输入他可能经历的各种环境、日常生活,甚至可以被输入代码,“感觉”到自己正在阅读这一段有趣而荒唐的文字。 缸中之脑实验说明即使连接主义实现了,指心没有问题,但指物依然存在严重问题。 因此,连接主义实现的人工智能也不等同于人的智能。 尽管如此,连接主义仍是目前最为大众所知的一条AI实现路线。 在围棋上,采用了深度学习技术的AlphaGo战胜了李世石,之后又战胜了柯洁。 在机器翻译上,深度学习技术已经超过了人的翻译水平。 在语音识别和图像识别上,深度学习也已经达到了实用水准。 客观地说,深度学习的研究成就已经取得了工业级的进展。 但是,这并不意味着连接主义就可以实现人的智能。 更重要的是,即使要实现完全的连接主义,也面临极大的挑战。 到现在为止,人们并不清楚人脑表示概念的机制,也不清楚人脑中概念的具体表示形式表示方式和组合方式等。 现在的神经网络与深度学习实际上与人脑的真正机制距离尚远。 3. 行为主义行为主义假设智能取决于感知和行动,不需要知识、表示和推理,只需要将智能行为表现出来就好,即只要能实现指物功能就可以认为具有智能了。 这一学派的早期代表作是Brooks的六足爬行机器人。 对此,哲学家普特南也设计了一个思想实验,可以看作是对行为主义的哲学批判,这就是“完美伪装者和斯巴达人”。 完美伪装者可以根据外在的需求进行完美的表演,需要哭的时候可以哭得让人撕心裂肺,需要笑的时候可以笑得让人兴高采烈,但是其内心可能始终冷静如常。 斯巴达人则相反,无论其内心是激动万分还是心冷似铁,其外在总是一副泰山崩于前而色不变的表情。 完美伪装者和斯巴达人的外在表现都与内心没有联系,这样的智能如何从外在行为进行测试?因此,行为主义路线实现的人工智能也不等同于人的智能。 对于行为主义路线,其面临的最大实现困难可以用莫拉维克悖论来说明。 所谓莫拉维克悖论,是指对计算机来说困难的问题是简单的、简单的问题是困难的,最难以复制的反而是人类技能中那些无意识的技能。 目前,模拟人类的行动技能面临很大挑战。 比如,在网上看到波士顿动力公司人形机器人可以做高难度的后空翻动作,大狗机器人可以在任何地形负重前行,其行动能力似乎非常强。 但是这些机器人都有一个大的缺点一能耗过高、噪音过大。 大狗机器人原是美国军方订购的产品,但因为大狗机器人开动时的声音在十里之外都能听到,大大提高了其成为一个活靶子的可能性,使其在战场上几乎没有实用价值,美国军方最终放弃了采购。

GPU发展和现状是什么样的?

全球GPU芯片行业发展历程

在1984年之前,GPU原本只是用于图形和图像的相关运算,受CPU的调配,但随着云计算、AI等技术的发展,GPU并行计算的优势被发掘,在高性能计算领域逐渐取代CPU成为主角。 1999年,NVIDIA公司在发布其标志性产品GeForce256时,首次提出了GPU的概念。 2006年,NVIDIA发布了第一款采用统一渲染架构的桌面GPU和CUDA通用计算平台,使开发者能够使用NVIDIAGPU的运算能力进行并行计算,拓展了GPU的应用领域。 2011年,NVIDIA发布TESLAGPU计算卡,正式将用于计算的GPU产品线独立出来,标志着GPU芯片正式进入高性能计算时代。

全球GPU芯片出货量超过4.6亿片/年

近些年,全球GPU技术快速发展,已经大大超出了其传统功能的范畴,除了满足目前大多数图形应用需求,在科学计算、人工智能及新型的图形渲染技术方面的技术应用日益成熟,进而推动全球GPU芯片市场的持续高速发展。

从全球GPU芯片出货量来看,根据全球知名调研机构JPR数据,从2021年各个季度来看,全球GPU芯片的季度出货量维持在1-1.3万片之间,2021年全年出货总量超过4.6亿片。

全球集成GPU芯片出货量占比超八成

GPU芯片主要可分为独立GPU(封装在独立的显卡电路板上,使用专用的显示存储器,一般来讲,其性能更高)和集成GPU(集成GPU常和CPU共用一个Die,共享系统内存)。

目前,全球集成GPU出货量占比超过八成,占据绝大部分市场份额;但从占比变化趋势来看,独立GPU的市场份额有所增长,反映出市场对高性能GPU芯片需求有所增长。

注:内环2020年q4,外环2021年q4数据。

预计2027年全球市场规模超过320亿美元

根据IC Insights数据,2015-2021年全球GPU芯片市场规模增速超过20%,2021年,全球GPU芯片市场规模超过220亿美元。

根据JPR资料,预计2022-2026年,全球GUP出货量将实现6.3%复合年增长,以此增长率测算2027年全球GPU芯片行业市场规模将超过320亿美元。

—— 更多本行业研究分析详见前瞻产业研究院《中国GPU芯片行业市场前瞻与投资战略规划分析报告》

奢侈品行业担忧中欧贸易争端升级 西媒
原因曝光令人唏嘘 被停职 发飙 女老师被家长掌掴后 在班级群