這個客戶是以色列的客戶,在防火牆領域算是相當有名氣。前陣子,某產品的 RAID Card 要停產還是停止更新服務,所以物色新的 RAID Card,並要求在原來的機器上做驗證,這是一個很合理的要求,沒有任何理由可以拒絕。說實在,這不是我負責的產品,只是去年負責開發他們的新案(散熱部分),所以後來一些該客戶奇奇怪怪的問題都轉給我,這一次也不例外。
在測試前,如同往常一樣,都會要求 PM 提供 RAID Card 的規格書。無論是做設計或是做測試,當然要先了解產品的規格。我很好奇,很多人當不看規格書的,真不知道他們是怎麼設計他們的東西?當收到規格書後,大概看了 RAID Card 對環境的要求後,就開始佈 Thermocouple 線,我在 RAID Card 的周遭,佈了約六個點,對 RAID Card 周圍的環境溫度進行量測。測試結束後,理所當然提供 RAID Card 周圍環境的溫度,所有的溫度都在規格內,所以我判定為 PASS。只是客戶看了報告後,認為這是一份沒有用的報告。
『傑克,這實在太神奇了!』我依照 Datasheet 做的測試,客戶認為沒有意義。他認為沒意義是在於,沒有量測晶體的溫度。這....???
這是一個很有趣的問題。但說到後來,還是又回到問題的原點:你對散熱設計的看法為何?事實上,即使是 Thermal Engineer,仍未跳脫『晶體溫度』。這樣說好像也不對,畢竟晶體的溫度,才是影響壽命與可靠度的重要參數。晶體溫度是要知道,但應該由誰去做?
現在,先回到 RAID Card 的 Datasheet,上面指出,RAID Card 的操作環境溫度為 60C。以系統散熱角度而言,我只要證明系統可以對 RAID Card 提供一個符合規格的環境就可以了,去量晶體溫度,可以說是脫褲子放屁,多此一舉。要量晶體溫度,請找其他驗證單位,對我而言,我只要證明系統提個了一個適當的環境就可以了。
如果系統提供的環境符合 RAID Card 的 Datasheet,是否就一定不會出問題?說實在,理論上是不應該出問題,如果出問題,不是 Datasheet 的定義不恰當,那不然就是系統環境的驗證不夠確實,或是 Datasheet 所定義的環境,與實際的環境產生落差,才有可能發生問題。
有錢就是任性,由於是大客戶,所以,我還是量了晶體溫度給客戶。故事結束了嗎?答案是還沒!還沒的原因是,我只做了其中一種 RAID 的 Mode,他們要求其他 Mode 也要驗證。e04!
我在前面不是說過了嗎?我的系統只要符合 RAID Card 的 Datasheet,我管你用哪一種 Mode 去做 RAID?從另一個角度來看,今天我買了你家的機器,你會到我家來量機器裡面數十個主要晶體的溫度嗎?還是我家的環境溫度符合機器的操作環境溫度即可?
更新........
有趣的事情終於發生了。
現在有另一張 RAID Card 要驗證。而這 RAID Card 的製造商也頗有來頭,名氣不小。相信在不少的儲存設備,伺服器都可以看到他們家的產品。現在透過代理商仿造之前的方式,請 RAID Card 的製造商提供 RAID Card 上需要量測的熱點,代理商只回了個主晶片,另外還貼了個 RAID Card 的操作環境溫度。不知道代理商沒問製造商?還是製造商根本不鳥這問題?反正現在我就只等著哪些晶片或元件的溫度要量,不再去量客戶眼中無意義的環境溫度。如果真的只要量一顆主晶片的溫度,那真的實在是太爽了....總不會這次改量環境溫度,這我可是會翻之前的 E-Mail 來打臉的喲。光是這個小問題,已經拖了至少一個禮拜了,還沒有結論....唉....
2 則留言:
後來有update嗎?
這個問題,到現在我也沒有任何訊息 Update。我們公司這種問題拖久了,通常就不了了之了。我們公司的文化就是這樣子的。
張貼留言