文|利荣
新智驾按:本文由新智驾编译自semiengineering,原文标题为FindingFaultyAutoChips。由于本文涉及诸多技术细节与专业术语,有不妥之处敬请专业读者指摘。
作为辅助驾驶和自动驾驶的关键组成部分,新一代汽车芯片正在快速推动异常检测技术的发展。
据新智驾了解,半导体设备供应商 KLA-Tencor、半导体数据分析服务商Optimal+和EDA巨头 Mentor (2016年被西门子收购)正在扩大异常检测领域的相关工作。
异常检测技术在各行业已经使用多年,是保证芯片生产质量零缺陷的主要技术之一,而零缺陷对汽车行业至关重要。
通常来说,异常检测是采用硬件和统计筛选算法来定位的。一些芯片可能会通过各种标准测试,但是有时会表现出功能异常。这种芯片可能会影响系统性能或导致系统失效。
异常或缺陷芯片的出现有诸多原因,一些潜在可靠性缺陷在设备发货时不会出现,但它们在不同环境中会以某种方式激活,最终影响整个系统的运行。
为了发现芯片出现的各种问题,业界多种使用异常检测的方法,如零件平均测试法(PAT)。
PAT的测试流程如下:
- 首先,对晶圆进行电气测试; 其次,把硬件和PAT算法组合,检测出违反特定测试规范的异常或故障芯片; 最后,将异常芯片去除。
*PAT中极限和异常值的图形表示 来源:Automotive Electronics Council
但是,PAT方法很难满足汽车行业的苛刻要求。
Optimal+ CTO Michael Schuldenfrei表示:“汽车行业的半导体产品使用量正在呈指数级增长,这对芯片质量和可靠性提出了更高要求。PAT等技术作为保证质量和可靠性的主要手段,已经存在了几十年。但在很多情况下,它们并不是非常有效,在防止漏检方面测试成本过高。”
漏检是指故障芯片通过了晶圆厂测试。为了避免这种情况的发生,异常检测专家们开发出了更先进的技术来防止芯片漏检及其它问题。
比如,异常检测通常是在芯片封装测试阶段进行,但KLA-Tencor采取了新的解决方案,开发了一种在晶圆厂中测试的技术。
尽管如此,这个行业仍面临一系列重大挑战,包括:
- 随着跟多高端芯片用于汽车,迫切需要高级的异常检测算法; 异常检测技术必须符合辅助驾驶和自动驾驶技术的发展趋势; 英伟达和其它没有异常检测经验的IC制造商正在蜂拥进入汽车市场,这意味着他们需要提高芯片面临的一系列问题。
根据西门子的子公司Mentor的说法,商业性的异常检测软件业务的市场规模每年在2500万美元到5000万美元之间。
Mentor Quantix事业部总经理Bertrand Renaud表示:“这个数字可能仅代表实际软件的三分之一,因为许多大型厂商已经构建了自己的专有工具,他们的软件没有统计在内。”
目前,KLA-Tencor、Mentor、Optimal+和yieldWerx等公司也在竞争之列。
汽车芯片的发展趋势
2018年,汽车市场可能会放缓增速。
据IHS Markit的数据,2018年轻型汽车的全球总销量预计将达到9590万辆,同比2017年增长1.5%。作为对比,2017年同比2016年增长了2.4%。因此,汽车销量的增长如何对应汽车半导体市场增速目前尚不完全清楚。
根据IHS Markit的数据,每辆汽车电子元件的价值将从2013年的312美元增长到2022年的460美元,年复合增长率为7.1%。
“10年前的汽车,只有几百个控制器和其他类型电子元件,现在的汽车可能包含超过3500个半导体产品,这些半导体器件的总成本正在持续上升。”KLA-Tencor高级营销总监Rob Cappel表示。
通常来说,一辆高端汽车配备超过7000颗芯片。而芯片厂商正在向高端车型中引入14nm和10nm芯片,同时也正在研发7nm芯片。
在汽车领域,有两个恒定的因素——可靠性和质量。
对于消费级芯片而言,消费者对缺陷尚有一定的容忍度。但是,汽车芯片对缺陷和故障则属于零容忍。比如ABS系统,由于事关人身安全,汽车的可靠性要求总是更高。
因此,汽车芯片制造商和代工厂必须遵守各种质量标准,如AEC-Q100,这项标准主要涉及芯片的失效机理压力测试。
ADAS(高级驾驶辅助系统)和自动驾驶汽车对可靠性的要求更加严苛。ADAS涉及汽车中的各种安全功能,如自动紧急制动、车道检测和后方物体警告。
例如,全球最大的汽车芯片制造商NXP(恩智浦)最近推出了一款用于汽车应用的高分辨率雷达芯片。这款芯片被称为MR3003雷达收发器,是一款77GHz雷达器件。该器件基于硅锗(SiGe)工艺,适用于需要高分辨率和远距离功能的自动驾驶系统的前端或转角雷达应用。
此雷达技术能够同时跟踪数千个目标,能够实时感测周围环境,这正是高级别自动驾驶所必需的。
“这些类型的应用对我们和芯片本身都提出了较高的要求。我们非常谨慎地设计了系统内部的安全协议,以便传感器和汽车能够在某些情况下进行自我诊断,”恩智浦ADAS调制解调器产品线副总裁兼总经理Patrick Morgan表示。
毋庸置疑,汽车安全非常关键。
例如,根据Optimal+提供的数据,奥迪的高档汽车中拥有7000个芯片。假设每个芯片的故障率达到百万分之一,那么奥迪每生产1000辆汽车就会有7辆故障车。如果奥迪每天生产4000辆汽车,这意味着,它每个小时都会生产一辆故障车。
所以,汽车行业正在努力实现零缺陷,但随着系统、芯片甚至软件变得越来越复杂,这一目标很难实现。
在最新的车辆可靠性研究工作中, 市场研究机构J.D. Power对过去一年2015年款车型和2017年款车型每100辆车遇到的问题进行了统计调查,结果发现,2017年款汽车整体可靠性提高了9%,但是各种电子系统依然存在问题。据调查,内置语音识别和蓝牙连接是最大的问题。
出现的问题可能与采用最新的半导体器件有关。异常检测中,在晶圆厂处理完晶圆后,首先进行电气测试,然后送到测试部门进行评估。但评估方法只能解决一部分潜在问题。
“你不可能测试器件的每一条执行路径,也不能覆盖完整的场景。有时候,测试结果也不是很明确。我们只是知道,目前的方法还不够好。”KLA-Tencor战略合作高级主管Jay Rathert说。
此外,测试可能会发现潜在可靠性缺陷。“潜在的可靠性缺陷是指离开了晶圆厂才暴露出来的缺陷,它们在某种程度上是通过环境激活的,包括振动、湿度、电流、电迁移或热量。随着时间的推移,它们可能暴露出来。”Rathert说。
*随机缺陷 来源: KLA-Tencor
既然如此,为什么不在这些芯片离开晶圆厂之前就检测出这些缺陷呢?
晶圆厂测试
根据加州大学伯克利分校的统计,月产5万片晶圆的晶圆厂需要以下设备:
- 50台扫描仪/步进器和晶圆轨道; 10个高电流离子注入器和8个中等电流离子注入器; 40台蚀刻机; 30个CVD工具。
晶圆厂一般采用自动化技术分步处理晶圆。一个先进工艺的晶圆制造过程可能有多达600-1000个步骤,甚至更多,相比之下,成熟工艺的步骤更少。
先进工艺中,半导体设备必须处理更小且更加精确的特征,随着工艺尺寸的缩减,缺陷也变得越来越难查找。
在汽车领域,芯片制造商必须在其器件的制造工艺中实施更加严苛的控制措施,并实施持续的缺陷改进计划。
“你必须有一个管理良好的工厂,一个强大的质量体系和贯彻高质量的理念,才能够获得制造汽车产品所需的认证。在汽车行业里,质量控制始于工艺设计和工厂规划,并一直延伸到实际生产芯片。”联电副总裁温文婷表示。
晶圆厂中,人们使用检测系统定位晶圆缺陷。一般来讲,芯片制造商不会检查每一片晶圆,因为那样不仅耗时长而且成本高,抽样检测某些晶圆或者部分芯片是最好的办法。
对于消费级芯片来说,过程简单。“当我们开发一项技术时,我们进行认证,通常来讲,抽样的样本数量总是有限的。”温文婷表示。
但汽车级芯片要求就不同了。“你必须测试大量的样本才能得出故障率,这个过程的成本非常高。”温文婷说。
所有问题和挑战都是需要大量时间和资金去解决。如果芯片在经过检测后符合规范,就可以把晶圆从晶圆厂分发到封测厂。
同时,压力就转给封测厂了。为了帮助测试,KLA-Tencor设计了一种技术方案来解决晶圆厂的问题。这一技术被称为在线零件平均测试(I-PAT),它利用PAT的概念。但是,与在测试部门进行的PAT及其变体不同,I-PAT在晶圆厂中执行。
I-PAT不一定会与传统的第三方异常检测供应商竞争。它的目标是提供更多的测试数据,补充既有的测试组合。通常来讲,这个过程仍然需要执行传统的异常检测。
KLA-Tencor的技术涉及硬件和数据分析软件包。简言之,先将检验数据输入到计算机建模程序中,然后分解数据,并查看晶圆图上的硅片,最后在晶圆厂的多个检查步骤中查找异常缺陷。
举例来说,这个技术将显示具有五层的芯片晶圆图,包括源区、栅极、触点层、金属层1和金属层2。
假设金属层1上可能会有800个缺陷。计算机从晶圆上随机选择10个芯片,然后,使用各种I-PAT算法,系统最终确定这10个芯片中有9个存在潜在的可靠性缺陷。
KLA-Tencor高级营销总监David Price说。 “通过不断重复,可以看到缺陷的统计性质如何帮助你找到有可能包含可靠性缺陷的芯片。”
I-PAT可用于挑选有问题的芯片。 另外,这些数据可以与其他异常检测方法结合使用,以改进测试通过或不通过的决策。Price说:“通过在晶圆厂中实施I-PAT技术,能够减少传统PAT方法的不足。”
晶圆厂到测试厂之路
晶圆从晶圆厂转移到测试厂后,进行晶圆分类、最终测试,有时也会进行系统级测试。
检查和测试会产生巨大的数据量。但是,在大量数据面前,如何知道器件是否仍存在潜在的可靠性缺陷或其他问题呢?
这也为什么汽车厂商希望他们的供应商在测试过程中执行传统异常检测。
PAT是最基本的边界检测形式,可以检测出一个超出不合格阈值的芯片。测试阈值可以设置为静态(SPAT)或动态(DPAT)模式。
在SPAT中,测试阈值是基于该批次的数量决定的;在DPAT中,则会在每次晶圆测试时计算阈值。
在SPAT和DPAT中,都会执行一个算法,最终得出测试通过或失败的结果。
但是,这些算法可能在某些情况下会失败。有的器件的特征可能和其它器件明显不同,但是它也在合理范围内。有的器件可能是远离正态分布的极端异常。
虽然异常检测专家已经加入了一些程序来解决这些问题。但是,多年来,这些芯片变得越来越复杂,因此需要更先进的异常检测技术。
据新智驾了解,有一些基于几何分布、多变量和其它复杂异常检测算法可以和DPAT和SPAT结合一起使用。,例如通过它的几何分布邻近度来查看芯片质量。
GPAT有一个复杂版本,称为GDBN。GDBN基于一种理念:缺陷总是趋向于集中出现在晶圆的某些特定位置上。简单来讲,缺陷较多的区域可能会找出一些不合格芯片。
还有一种被称为最差残差(NNR)技术。“最差残差技术是在每个芯片的每一次测试中检查所有值,它不仅考虑整体晶圆,还考虑临近芯片的情况。”Optimal+ Schuldenfrei说。
通常,上述方法都可以结合使用。
未来趋势
展望未来,ADAS和自动驾驶将进一步推动检测技术的需求。随着汽车的自动化程度越来越高,芯片缺陷检测也将变得越来越重要。
此外,机器学习和人工智能的运算能力与功能也日益强大,我们相信,它们也会更多地参与到异常检测中来。
最后,把所有的数据集成在一起也许是最大的挑战。想象一下,从芯片获取数据,并将其与多个不同公司的电路板数据关联起来,需要共享数据才能实现更好的异常检测。【完】
欢迎在新浪微博、网易号、今日头条、天天快报、UC 头条、搜狐号、一点资讯关注@新智驾。
别小看意法半导体,狠起来也是自动驾驶“一霸”