資源描述:
《利用apache+php+mysql構(gòu)建數(shù)據(jù)倉庫》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、利用Apache+PHP+MySql構(gòu)建數(shù)據(jù)倉庫利用Apache+PHP+MySql構(gòu)建數(shù)據(jù)倉庫利用Apache+PHP+MySql構(gòu)建數(shù)據(jù)倉庫利用Apache+PHP+MySql構(gòu)建數(shù)據(jù)倉庫利用Apache+PHP+MySql構(gòu)建數(shù)據(jù)倉庫牡丹江師范學(xué)院(自然科學(xué)版)2005.1$’JJ~Apache+PHP+MySql構(gòu)建數(shù)據(jù)倉庫木楚飛舟心J/(牡丹江廣電集團(tuán)牡丹江157000)數(shù)據(jù)倉庫是把一個單位的歷史數(shù)據(jù)收集到一個中央倉庫中以便于處理,是支持決策過程,面向主題,隨時問而變,持久的數(shù)據(jù)集合.調(diào)查研究表明,大多數(shù)企業(yè)并不缺乏數(shù)據(jù),而是受阻于過量的冗余數(shù)據(jù)和數(shù)據(jù)不一致.而
2、且它們變得越來越難于訪問管理和用于決策支持,信息中心面臨著開發(fā)決策支持應(yīng)用的需求被大量積壓,所要開發(fā)的應(yīng)用變得越來越復(fù)雜和耗費(fèi)人力,數(shù)據(jù)倉庫正是解決這一矛盾的工具.近年來,WWW成為當(dāng)今網(wǎng)絡(luò)上的信息主體,它是一個巨大的數(shù)據(jù)源,因此,人們自然產(chǎn)生了將www和數(shù)據(jù)倉庫相互轉(zhuǎn)換的需求,并形成了當(dāng)前Web數(shù)據(jù)庫的研究熱點(diǎn).1安裝并設(shè)置程序安裝相關(guān)軟件PHP4.3.5,mysql4.0.17,Apache.1.1編輯php的配置文件php.ini文件.修改相應(yīng)信息extensiondir=c:winntksystem32mysq1.default—host=localhostmy
3、sq1.dcfaultuser=rootmysq1.defauh_password=1.2修改Apache的配置文件httpd.confScriptAlias/php4,”C:/PHP4/”AddTypeapplication/x-httpd—php.php3AddTypeapplication/x—httpd—php.phpAdd1)peapplication/x-httpd-php.phtmlActionapplication/x-httpd-php”/php4/php.exe’’到此,安裝完畢,運(yùn)行apache:exe,注意運(yùn)行結(jié)果和提示信息.W_Warehouse數(shù)
4、據(jù)倉庫原型目前市場上的數(shù)據(jù)倉庫產(chǎn)品解決了從關(guān)系型數(shù)據(jù)庫和一些文件系統(tǒng)中獲取數(shù)據(jù).但是,還沒有一個數(shù)據(jù)倉庫系統(tǒng)很好地解決從web中提取數(shù)據(jù)的問題.W_Warehouse是一個在Windows平臺上,用ViscualC++開發(fā)的.W_Warehouse的特點(diǎn)及難收稿日期:2004-10—19點(diǎn)都在于從Web中提取數(shù)據(jù).目前W_Warehouse支持從SQI_Server及Web中獲取數(shù)據(jù).Visualc+十的MFC類庫可以通過ODBC(開放數(shù)據(jù)庫鏈接)和ODBC驅(qū)動程序訪問數(shù)據(jù)庫.而通過Winlnet類可以編寫使用Http協(xié)議從網(wǎng)絡(luò)數(shù)據(jù)源(服務(wù)器)訪問信息的Internet客戶
5、應(yīng)用程序.各模塊的功能:2.1WrapperWrapper將查詢轉(zhuǎn)換為數(shù)據(jù)源系統(tǒng)可以理解的命令或查詢,并將得到的原始的結(jié)果數(shù)據(jù)翻譯為數(shù)據(jù)倉庫中HBase的數(shù)據(jù)格式.對每一種數(shù)據(jù)源需要不同的Wrapper,因?yàn)閃rapper的功能依賴于數(shù)據(jù)源的類型.對于運(yùn)作數(shù)據(jù)庫系統(tǒng)(如:SOLServer),Wrapper的功能是將查詢轉(zhuǎn)化為在運(yùn)作環(huán)境中的查詢,并將數(shù)據(jù)從運(yùn)作數(shù)據(jù)庫中的數(shù)據(jù)模型翻譯成數(shù)據(jù)倉庫中的數(shù)據(jù)模型.2.2ViewSpecifierViewSpecifier的功能是提出查詢,指出Web頁中感興趣的數(shù)據(jù)及其關(guān)系模型的定義.Wrapper根據(jù)ViewSpecifier所定義
6、的視圖提取及翻譯數(shù)據(jù).Wrapper根據(jù)定義的視圖提取數(shù)據(jù),放入.WDB數(shù)據(jù)文件.目前在W—Warehouse中用圖形界面的形式實(shí)現(xiàn)視圖定義.2.3LoaderLoader將Wrapper獲取的數(shù)據(jù)文件轉(zhuǎn)化為HBase中的DBF數(shù)據(jù)庫文件,裝載到數(shù)據(jù)倉庫.在裝載從不同數(shù)據(jù)源獲取的數(shù)據(jù)時,Loader還有集成數(shù)據(jù)的功能.3Wrapper算法在W-Warehouse中,Wrapper根據(jù)ViewSpecifier定義的視圖提取web中相關(guān)數(shù)據(jù),由機(jī)器來確定哪些是用戶感興趣的數(shù)據(jù).采用機(jī)器學(xué)習(xí)中基于例子進(jìn)行學(xué)習(xí)的方法,給Wrapper輸入Web中的數(shù)據(jù)作為訓(xùn)練的實(shí)例,Wrappe
7、r通過學(xué)習(xí)獲得該頁中用戶感興趣的數(shù)據(jù)的格式描述,然后用模式匹配的方法將此Web頁中所有滿足(自然科學(xué)~)2oo5.i牡丹江師范學(xué)院?23?此格式描述的數(shù)據(jù)提取出來.對于不同Web的頁,根據(jù)視圖定義及訓(xùn)練實(shí)例,Wrapper均可提取出用戶感興趣的數(shù)據(jù),這一點(diǎn)對于不斷增加,變化的web頁是非常有意義的.3.1對HTML文本預(yù)處理HTML文件中沒有明確的標(biāo)記表示數(shù)據(jù)的結(jié)構(gòu),結(jié)構(gòu)隱含于標(biāo)簽中.預(yù)處理的目的是利用標(biāo)簽將文本劃分為邏輯上的行.各個Web站點(diǎn)的文檔結(jié)構(gòu)各不相同,體現(xiàn)結(jié)構(gòu)所用的標(biāo)簽也不同.例如,在一些文本中用<