2019年3月20日 星期三

又過熱了....

        不知道是帶賽還是怎樣,只要我經手的 Fan-less 系統,三不五時跟我說過熱。這次還說疑似過熱導致固件燒毀。只是,這種鳥問題都不是發生在試產或前幾次量產的時候,而都是不知道已經生產過幾次,才開始回報過熱的問題。不過,這次的機種,算是量產沒多久的的機種。


        當天,才開完會回到座位上,就看到該事件的相關 E-Mail。首先,當然是跟 PM 索取有問題的機器,目前還沒練到隔空抓藥的境界。PM 不知道是在我開會的時候就拿了機器給我主管,還是怎麼了?反正,我問到機器的下落,機器已經到我主管那邊了。接著,我去找我主管拿機器,但....但....但是....他已經把機器拆了。嚴格來說,是已經把板子與外殼分開,但這部機器,主要是用外殼在導熱,畢竟是 Fan-less Design。我....啞口無言了。但我想說的是,正常人分析問題前,應該先複製現象吧?如果能夠複製出來,當然就可以做進一步分析問題。如果複製不出來,耍賤就把測試結果寄給 PM 說無法複製現象,認真一點的,可能要做進一步的測試比對,畢竟有可能是測試軟體(通常 Thermal 的測試軟體與工廠的測試軟體不見得一樣),與測試手法上的差異。但是第一步,絕對不會是拆機器,至少對這部 Fan-less 的機器而言。

        後來我用了自己弄的測試軟體(為什麼是自己弄的測試軟體,因為我的測試軟體是操爆機器,壓力測試強度略勝工廠測試軟體),跑了一個晚上,溫度並不高。但畢竟不是在高溫 Chamber 測的,所以 PM 去 Booking 了 Chamber。後續就沒啥故事性了。

        而這次 CPU 的主角又是 Rangeley,這真是顆神奇的 CPU。為啥呢?因為我覺得他的溫度感應器超級不準,誤差有夠大。如同之前說的,這顆 CPU 在溫度較低的時候,量到過 Tj 低於 Tc 的。但不準歸不準,但也得頂到 Tj_max 也才會發過熱的訊號吧?即使實際物理溫度很高,但是只要不準的 Tj 還沒碰到 Tj_max,仍舊不應該發過熱的訊號,即使他的溫度是不準確的,但他的保護機制,卻應該是要如此的。看來,這問題可能是 Hardware 的問題比較大,看來這燙手山芋可以交接了。

        後記:自己搞的測試軟體,已經剩下最後一哩路了,只剩下加解密晶片無法加壓外,CPU 可以選擇用 Intel PTU,prime95,Burnin Test,或是工廠用的 stress(今天順便搞定這一部分的 script),HDD,NVME,LAN Chip,Wireless Module 都可以加壓了。

[更新: 2019/03/20]
        目前,一些跡象是指向線路設計的問題。

[更新: 2019/03/21]
        有此一說,上錯料。嘻嘻嘻....明天睜開眼睛,可能又有其他說法。但已經有現象了,目前看來過熱的訊號並不是由 CPU 發出,不了解 EE 為何還不去量測是否為電源 PWM 發出來的?

     

1 則留言:

Morris Huang 提到...

在系統廠很多時候已經不是純工程問題了, 部門間的歸責有時候凌駕於事實,老闆對於RD的尊重程度會影響到公司的風格,唯有正視到人才的重要,才會培養出集團的深度,不然也只是看到年終時選擇丟單而已 . 然後多年之後乾脆來開個小咖啡店,過過不一樣的人生 哈