資源描述:
《基于欠采樣隨機(jī)森林的Stacking模型研究--以半導(dǎo)體良率預(yù)測為例》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、2018年度同等學(xué)力申請碩士學(xué)位論文分類號:學(xué)校代碼:10269密級:學(xué)號:2013596基于欠采樣隨機(jī)森林的Stacking模型研究----以半導(dǎo)體良率預(yù)測為例院系:經(jīng)濟(jì)與管理學(xué)部統(tǒng)計(jì)學(xué)院專業(yè):統(tǒng)計(jì)學(xué)研究方向:應(yīng)用統(tǒng)計(jì)指導(dǎo)教師:李艷副教授學(xué)位申請人:尤芳芳2018年11月-1-2018TheSameEducationalLevelAppliedForMaster'sDegreeThesisUniversitycode:10269StudentID:2013596EastChinaNormalUniv
2、ersityTheRF-StackingModelwithUnder-sampling----PredictionforSemiconductorYieldDepartment:SchoolofStatistics,FacultyofEconomicsandManagementMajor:StatisticsResearchdirection:AppliedStatisticsSupervisor:AssociateProfessorLIYanCandidate:YOUFangfangNovember
3、,2018-2-√√華東師范大學(xué)碩士學(xué)位論文尤芳芳碩士學(xué)位論文答辯委員會成員名單姓名職稱單位備注趙曉兵教授浙江財(cái)經(jīng)大學(xué)主席吳賢毅教授華東師范大學(xué)吳述金副教授華東師范大學(xué)許忠好副教授華東師范大學(xué)賀思輝副教授華東師范大學(xué)IV華東師范大學(xué)碩士學(xué)位論文摘要當(dāng)前,半導(dǎo)體芯片通過多層次物理測試來判別芯片的優(yōu)良性能。半導(dǎo)體芯片測試產(chǎn)生了龐雜的數(shù)據(jù),這些數(shù)據(jù)背后隱藏著大量芯片質(zhì)量的信息。本文探討的是將數(shù)據(jù)挖掘技術(shù)應(yīng)用于半導(dǎo)體行業(yè),以提升半導(dǎo)體產(chǎn)品良率,降低半導(dǎo)體制造業(yè)成本。芯片測試產(chǎn)生的數(shù)據(jù)呈現(xiàn)出高維和不平衡兩個特性
4、。一般地,很多研究者分別對高維問題和不平衡問題進(jìn)行了研究,提出了一系列成熟的算法,但是這些算法對半導(dǎo)體行業(yè)這種同時存在高維特性和不平衡特性的數(shù)據(jù)效果欠佳。本文首先對數(shù)據(jù)的高維特性和不平衡特性作了介紹,并闡述了當(dāng)前針對這兩個問題的處理方法,描述了數(shù)據(jù)挖掘的模型評價指標(biāo)并定義了半導(dǎo)體行業(yè)評價指標(biāo)。接著結(jié)合行業(yè)實(shí)際闡述了半導(dǎo)體良率預(yù)測問題的提出和應(yīng)用場景以及半導(dǎo)體數(shù)據(jù)的預(yù)處理方法。然后分析了隨機(jī)森林算法的優(yōu)缺點(diǎn),并在此基礎(chǔ)上優(yōu)化了隨機(jī)森林算法,提出了基于欠采樣隨機(jī)森林的Stacking模型算法。最后用行業(yè)實(shí)
5、際數(shù)據(jù)進(jìn)行了驗(yàn)證,證明了該算法的有效性。這為數(shù)據(jù)科學(xué)替代一部分傳統(tǒng)芯片測試方案提供可行性基礎(chǔ),為半導(dǎo)體封裝測試大幅降低成本提供可能。關(guān)鍵詞:半導(dǎo)體測試,高維不平衡,隨機(jī)森林,Stacking模型,芯片,良率預(yù)測V華東師范大學(xué)碩士學(xué)位論文ABSTRACTInSemiconductormanufacturing,wehavemultiplelevelsoftestingtotestthechipperformance.Thereishugedatafromtesting,whichindicatesthe
6、chipperformance.Thispapertriestoapplydataminingmethodsinsemiconductorindustry,toimprovetheproductyieldandreducethemanufacturingcost.Thesemiconductormanufacturingdataisunbalancedanditishigh-dimensional.Researchershavedevelopedaseriesofalgorithmsonunbalan
7、ceddataorhigh-dimensionaldataseparately.However,thosealgorithmscannotworkwellonunbalancedandhigh-dimensionaldatalikesemiconductormanufacturingdata.Thispaperfirstlyintroducesthegeneralsolutionsofthesetwoproblemsandproposesthegoodnessindicatorsformodeland
8、forappliedindustry.AndthenthispaperdescribestheactualproblemformSemiconductorindustrythatyieldproductionisahighpotentialofcostsavingproject.ItanalyzestheprosandconsofRandomForestalgorithm,andproposestheRF-Stackingmodelwithunder-s