【湾区物道】AI之眼，智造未来新视界—专访英特灵达朱才志_新闻中心

【湾区物道】AI之眼，智造未来新视界—专访英特灵达朱才志

2023-05-23 14:56 深圳市物联网产业协会

导读：这是『湾区物道』的第39期，本期访谈我们对话了深圳市物联网产业协会理事单位英特灵达信息技术（深圳）有限公司CEO朱才志先生，他早在2000年开始从事计算机视觉相关的研究，是3次NIST视觉算法年度世界冠军获得者。本次采访，他分享了对AI视觉技术所面临的挑战和发展趋势的思考，希望给企业带来更多启发和价值。

湾区物道

深圳市物联网产业协会的精品栏目《湾区物道》系列访谈，对话专家学者、政府官员、湾区商会协会及企业家，解读和宣传扶持政策；分析市场产业技术发展情况；助力物联网生态体系建设。

AI视觉技术是将人工智能和视觉技术相结合，通过计算机视觉和深度学习等技术，对图像和视频数据进行处理、分析和识别。工业图像处理（机器视觉技术）帮助生产企业实现其过程链的网络化、自动化和数字化。这项技术通过图像采集设备（如摄像头和传感器）监控生产过程，并借助集成的机器视觉技术软件处理图像数据。

工业4.0时代，我国各行各业对采用图像和机器视觉技术的工业自动化、智能化需求开始广泛出现，国内机器视觉行业将迎来规模化快速发展黄金期。

英特灵达拥有业内领先的视觉AI技术和多硬件平台适配能力,是华为机器视觉和昇腾认证合作伙伴，专注社区、园区、工地、加油站等全场景AI算法。公司坚持走自主创新之路,团队算法能力雄厚,研发了多款边、端系列智能硬件和行业解决方案并提供视觉相关多层次个性化的算法定制服务,为客户提升业务运营效率,实现创新应用场景。

在数字化浪潮下，AI视觉技术具有怎样的发展前景？在工业自动化领域发挥怎样的价值？

这是『湾区物道』的第39期，本期访谈我们对话了深圳市物联网产业协会理事单位英特灵达信息技术（深圳）有限公司CEO朱才志先生，他早在2000年开始从事计算机视觉相关的研究，是3次NIST视觉算法年度世界冠军获得者。本次采访，他分享了对AI视觉技术所面临的挑战和发展趋势的思考，希望给企业带来更多启发和价值。

朱才志英特灵达 CEO

? 英特灵达CEO，2015归国的深圳市海外高层次人才，回国前任职日本名古屋大学副教授。

? 中科大博士毕业后，朱博士先有在微软亚洲研究院，日本理光等知名企业的工业界经历，之后又有海外博士后、助理教授到副教授的完整科研经历，中科院深圳先进院客座教授。

? 早在2000年开始从事计算机视觉相关的研究，是3次NIST视觉算法年度世界冠军获得者。

? 上海市浦江人才,深圳市孔雀人才B类,宝安区政协委员, 深圳市人工智能专家委员会9位创始委员之一

? 中国视觉AI的首批创业者，曾于2014年联合创立AI公司图麟科技并任职CTO，英特灵达是他的第二次创业。

1、计算机视觉，得益于深度学习技术的快速发展，可以承接海量下游需求，目前都有哪些应用场景？

计算机视觉（CV）是个很有年头的学科，国际上有个IEEE举办的国际计算机视觉学术会议（ICCV），首届于1987年在伦敦举办，每两年举办一次，是CV领域的顶级会议，我10多年前参加过这个会议，当时学术界可谓百花齐放、百家争鸣，各种流派都有，但实际上成熟的、能商业化落地的技术其实不多。今天，得益于深度学习技术的快速发展，特别是最近SAM、stable diffusion等大模型的加持，视觉AI的能力得到了极大的延展，很多经典问题都有突破，反而学术界有点无所适从了。在商业应用层面，我国其实走在了世界的前列，在这一波AI浪潮中，对比NLP（自然语言处理）、语音等方向，CV方向更受国内资本与创业者追捧，早期的格灵深瞳、CV四小龙、云天励飞，包括我个人回国的首次创业，大家都在积极探索视觉AI的商业落地新思路。安防是大家不约而同选择的应用场景，早期确实是少数体量大的落地方向，但很快大家意识到，相比之下，传统安防厂商如海康、大华等巨头更有优势。之后，工业缺陷检测（AOI）、医疗辅助诊断、机器人、辅助驾驶等行业也吸引了一波视觉AI公司的加入。同时，传统安防也在物联网化，出现了非常多的泛安防细分场景，包括智慧商业、智慧农业、智慧餐饮、智慧园区、智慧小区、智慧校园、智慧油田、智慧矿山、智慧电力等。在消费类产品上，视觉AI广泛与智能硬件、智能家居类产品相结合，产品包括智能门铃、智能门锁、婴儿看护、打猎相机、看鸟器等，在海外很有市场。国内运营商在大力推动视觉AI的落地，明厨亮灶、防溺水、高空抛物、烟火识别，以点带面。盈利模式方面也有创新，例如参考萤石，以4G、云存储、AI算法订阅收费，取代早期的一次性销售硬件的模式，成为包括运营商在内的平台公司的新玩法。

2、从市场规模、场景泛用、带动作用来看，AI视觉领域已成为人工智能产业规模的主战场，您认为AI 视觉算法有哪些独特的技术优势？

确实，视觉在这波AI浪潮中，具有其它感知所无法比拟的作用，原因在于，视觉作为80%以上的信息入口，基本能覆盖各行业的典型应用场景，是听觉、触觉等其它感官所不能比拟的。我们今天各行各业有各种不同门类的工种，大部分的工作，是无需动嘴动耳，仅靠眼睛观察并做出判断后采取不同动作，就完全可以胜任了，很多工作场所甚至要求保持安静。视觉AI本质上是来取代人眼+人脑的部分功能的，例如今天非常成熟的人脸识别门禁系统，就是取代保安的人员身份核查的程序化工作，诸如此类的场景很多，例如工业生产流水线上，产品或配件的缺陷检测，之前是人工眼睛来检查的，容易出错且长期劳作很伤眼睛，今天，很多这样的工作，都完全可以用AI来取代了，且效果更好、效率更高。类似的还有银行、保险公司票据的自动识别录入，辅助驾驶中也用到了很多视觉处理技术，例如驾驶员疲劳检测、车道线偏离检测等等。最近，随着技术的发展，一些特定场景的异常检测，例如烟火的识别、高空抛物不良行为的检测，都已经逐渐开始商业化应用了，保障人民的生命财产安全。

正因为视觉如此重要，早在上世纪80年代，视觉问题的研究就独立出来成为一门学科。而这一波AI浪潮，可以说也是起源于卷积神经网络（CNN）在2012年的ImageNet视觉竞赛中大放异彩，在图像分类问题上，取得了比经典的特征工程+支持向量机（SVM）方法压倒性的性能优势。今天，我们耳熟能详的CNN、GAN，最近很火的stable diffusion等，都是在视觉AI领域发展起来的技术。展望未来，我有两点预测，一是在技术突破方面，融合多模态的大模型应该会有一波蓬勃发展，当下，自然语言处理（NLP）领域在AI领域出现了新的突破，ChatGPT展示了非常强的文本知识萃取、智能涌现能力，似乎距离AGI（通用人工智能）更近了，这很大程度上，因为语言是人类知识的结构化表述形式，对比视觉这种非结构化数据，有天然的优势。“一图胜千言”，视觉的信息量远比文字丰富，且很多是难以用语言来概括抽象的，这意味着要训练出视觉的ChatGPT，需要更大规模的网络、数据和计算资源。这很可能以当下的技术现状是无法做到的，需要从理论上所有突破。我认为，把视觉信息投影到语言空间，忽略其它难以（或无需）用语言描述的信息，以这种方式融合视觉、语言的多模态大模型，应该有机会训练出视觉的GPT：能以我们人类擅长的语言组织形式，来正确理解视觉数据。另一点是，在工业界，将会涌现出基于视觉大模型的各种行业应用，在包括自动驾驶、工业质检、内容制作、机器人等各个行业都讲带来历史性突破。对我们珠三角企业来说，硬件供应链是我们的强项，基于视觉大模型，结合某个垂直行业，做迁移学习、知识蒸馏，得到可在端侧部署的模型，将有机会进一步做出killer级别的智能硬件来。

3、随着我国配套基础建设的完善，以及技术与资金的不断积累，各行各业对采用图像和机器视觉技术的工业自动化、智能化需求开始广泛出现，您认为AI视觉如何在其中发挥重要价值？

改革开放以来，我国积极融入世界贸易体系，逐渐形成了覆盖全行业的完备产业链条，因而被誉为“世界工厂”。同时，我们也面临摆脱低端产业内卷、提升核心高端技术贡献率的紧迫压力。发展机器视觉技术是促进工业自动化、数字化和智能化的关键途径。目前大家熟知的AI视觉技术主要针对一般场景的RGB图像，核心难点在于如何提升算法在不同环境条件下的鲁棒性和泛化能力。然而，工业场景与一般场景相比，具有更高的稳定性和可控性。在工业场景中，通过联合运用主动照明、机械协作等技术手段，AI视觉技术的可靠性和敏捷度可以得到极大提升。此外，工业生产环境的传感手段并不局限于RGB传感。例如，红外、偏光、激光雷达等传感器在工业领域具有广泛的应用。这意味着，基于RGB图像开发的AI视觉技术有望在超越RGB的泛图像理解方面大显身手。

在上述领域做到持续创新并不容易，需要对相机系统、多传感器融合有深入了解，同时，能快速基于当下视觉大模型的发展，做到在垂直行业的应用创新，包括在大模型的应用层创新、硬件（乃至FPGA、芯片级）的创新等。

4、AI视觉技术的发展前景如何？面临哪些难点与挑战？

在大模型加持的通用智能时代，AI视觉技术必将迎来爆发。鉴于大模型的特性，在短期内，AI视觉技术会呈现出集中化趋势，甚至有寡头化的危险。我们注意到，ChatGPT这样的语言大模型的规模已经极其庞大，囊括图像和视频在内的跨模态大模型必将更加复杂，只有少数头部公司拥有超大模型训练和维护更新的能力。在中短期研究层面，大模型的压缩加速技术，视频大模型，三维视觉大模型等会得到极大发展。而在中长期研究层面，包括量子计算、脉冲计算在内的新型计算硬件上实现通用AI值得关注。

在应用层面，将来的跨模态大模型及其生态体系可以满足绝大部分to C需求。但是，上面提及的工业自动化等领域，生产环境的数据较难获取，且具有较强的封闭属性，基于互联网数据的大模型难以直接运用。因此，面向具体应用领域的垂直模型是在to B方面取得成功的关键。目前，大模型的势力格局本身完全没有固定，而全链路垂直模型的开发是未被涉足的蓝海，包括创业企业在内的大中小玩家都有机会。不管技术浪潮如何演进，合理运用技术打造对客户有价值的产品这一商业成功的本质却不会变化。

5、英特灵达以AI视觉算法为核心提供软硬件一体行业解决方案，公司的核心优势体现在哪些方面？未来有哪些规划？

英特灵达将视觉传感和智能处理融会贯通，形成了面向任务的光学设计、数据生成、AI算法开发和ASIC化的全链路自动化工具，具有极高的技术壁垒和极快的市场响应能力。目前，公司发挥在光学原理、相机系统和数据生成方面的独特优势，致力于开发面向图像增强和理解的垂直大模型及其知识蒸馏工具链，快速部署与传感硬件高度适配的AI视觉模型，从而提升产品价值，满足客服需求。英特灵达本质上是一家有视觉人工智能核心应用技术的公司，在当下的产业链分工中，其实是非常偏上游的，我们的发展离不开生态。未来，我们期望能找到在产品、销售渠道上能高度互补的合作伙伴，英特灵达可以提供核心技术（算法、芯片、硬件设计方案等），硬件产品与销售渠道都依赖伙伴来提供，我们的目标是一起做出差异化的智能产品，定位中高端增量市场，包括B端和C端，例如，B端我们主要是与华为行业感知部门合作，我们在华为好望商城上，提供优质的算法，适配华为的硬件，借助华为的销售渠道触达用户；C端我个人也非常看好，特别是海外市场，目前主要与珠三角方案公司合作，最大化发挥制造业优势，为生态合作伙伴提高毛利率与市场占有率，破除珠三角无序的内卷。