論數(shù)據(jù)挖掘與電子商務(wù)的契合:電子商務(wù)數(shù)據(jù)挖掘
發(fā)布時間:2020-03-07 來源: 感悟愛情 點擊:
[摘要]指出以6個論題為基礎(chǔ)的數(shù)據(jù)挖掘可以有效地幫助企業(yè)優(yōu)化決策管理、客戶關(guān)系管理、協(xié)同商務(wù)管理、營銷模式管理、網(wǎng)站維護(hù)管理和風(fēng)險控制管理、確認(rèn)目標(biāo)市場,以獲得更大的競爭優(yōu)勢。其次通過對電子商務(wù)環(huán)境下Web挖掘技術(shù)的論述,具體分析Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘、Web訪問挖掘?qū)τ陔娮由虅?wù)的作用,并對具體技術(shù)進(jìn)行分析與評價。最后介紹國內(nèi)外電子商務(wù)數(shù)據(jù)挖掘的主要研究內(nèi)容。
[關(guān)鍵詞]數(shù)據(jù)挖掘 電子商務(wù) Web挖掘
[分類號]F713 TP393
1 引 言
電子商務(wù)最早于20世紀(jì)60年代初在美國等國家興起,但直到20世紀(jì)90年代隨著互聯(lián)網(wǎng)的高速發(fā)展,以互聯(lián)網(wǎng)為平臺和依托,電子商務(wù)才真正意義上發(fā)展起來,正在或終將從根本上改變社會經(jīng)濟(jì)的運(yùn)行模式、商務(wù)活動的運(yùn)作方式以及人們的消費(fèi)模式。它以電子交易為手段,借助計算機(jī)和網(wǎng)絡(luò)等技術(shù)快速而有效地完成商品和服務(wù)的買賣,實現(xiàn)商務(wù)活動的數(shù)字化、網(wǎng)絡(luò)化、自動化、智能化、無紙化和全球化,縮短商品流通時間、強(qiáng)化供需雙方聯(lián)系、減少費(fèi)用、拓展市場和提高服務(wù)質(zhì)量,達(dá)到樹立企業(yè)形象、增強(qiáng)企業(yè)競爭力和提高經(jīng)濟(jì)效益的目的。據(jù)美國有關(guān)機(jī)構(gòu)預(yù)測,Internet上的電子貿(mào)易額在2010年前后會持續(xù)猛增,最后相對穩(wěn)定在10000億美元左右。
然而,電子商務(wù)的健康、有序和迅速發(fā)展卻存在著一系列十分復(fù)雜而又亟待解決的問題。除了要明確我國電子商務(wù)的發(fā)展戰(zhàn)略和運(yùn)行環(huán)境、政府在電子商務(wù)中的作用與職能、管理模式、可信賴機(jī)構(gòu)的作用、對傳統(tǒng)企業(yè)管理模式的變革、良好的信息和安全基礎(chǔ)設(shè)施之外,還要重點解決與發(fā)展與電子商務(wù)有關(guān)的科學(xué)和技術(shù)及其應(yīng)用問題,例如電子商務(wù)環(huán)境下的數(shù)據(jù)挖掘。本文即是對電子商務(wù)與數(shù)據(jù)挖掘的契合方式、相關(guān)技術(shù)及其應(yīng)用、主要研究內(nèi)容的系統(tǒng)論述。
2 數(shù)據(jù)挖掘與電子商務(wù)契合方式
數(shù)據(jù)挖掘起源于20世紀(jì)90年代中期,推動其誕生、發(fā)展的眾多原因中,對商業(yè)數(shù)據(jù)背后潛在知識的迫切需求和人類分析信息的有限能力之間日益增加的矛盾是其根本動因。利用數(shù)據(jù)挖掘研究電子商務(wù)產(chǎn)生的不確定性海量數(shù)據(jù)中信息的分布規(guī)律,挖掘其中隱含的關(guān)系、模式和趨勢,進(jìn)而發(fā)現(xiàn)具有規(guī)律性的知識,可以幫助企業(yè)優(yōu)化企業(yè)決策管理、客戶關(guān)系管理、協(xié)同商務(wù)管理、營銷模式管理、網(wǎng)站維護(hù)管理和風(fēng)險控制管理,確認(rèn)目標(biāo)市場,獲得更大的競爭優(yōu)勢。
要使上述數(shù)據(jù)挖掘的效果真正體現(xiàn)出來,理論界和實務(wù)界認(rèn)為迫切需要研究和解決的問題有:①什么樣的商務(wù)站點可以贏得更多用戶的青睞?賣方如何根據(jù)用戶的嗜好改進(jìn)自己的商務(wù)站點,以吸引更多的潛在買方光臨?②賣方如何有效地利用商務(wù)站點展開宣傳攻勢?③賣方如何充分利用用戶瀏覽產(chǎn)生的信息,更好地為潛在買方提供個性化服務(wù)?④賣方如何根據(jù)自己掌握的有關(guān)信息預(yù)測客戶需求趨勢和潛在客戶群體?⑤用戶如何在浩如沙海的虛擬市場中找到自己需要的商品?⑥如何才能提高客戶的滿意程度?如何才能知道哪些客戶是公司的主要利潤來源?⑦如何防止或減少電子支付欺詐,以充分保障銀行和買賣雙方的利益不受損失?⑧競爭對手和自己網(wǎng)絡(luò)營銷上存在什么樣的區(qū)別?
本文從數(shù)據(jù)挖掘的角度,將與電子商務(wù)的契合方式抽象為如下論題:①論題1:Web頁面或資源聚分類研究;②論題2:客戶群聚分類研究;③論題3:頻繁訪問路徑挖掘研究;④論題4:交易關(guān)聯(lián)性挖掘研究;⑤論題5:異?蛻襞c異常交易檢測研究;⑥論題6:互聯(lián)網(wǎng)下供應(yīng)鏈關(guān)系挖掘研究。下文將對這6個論題所涉及的主要技術(shù)及其應(yīng)用、主要研究內(nèi)容進(jìn)行闡述。
3 電子商務(wù)環(huán)境下Web數(shù)據(jù)挖掘的主要技術(shù)評述
3.1 技術(shù)概述
電子商務(wù)產(chǎn)生的數(shù)據(jù)具備異構(gòu)、不確定性、無結(jié)構(gòu)或半結(jié)構(gòu)、動態(tài)性和海量性等特點,復(fù)雜程度已遠(yuǎn)遠(yuǎn)超出了人類目前已有的分析能力;赪eb的數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)挖掘有許多不同之處。上文所述論題的Web數(shù)據(jù)挖掘主要包括三種數(shù)據(jù)挖掘任務(wù):
3.1.1 對Web內(nèi)容的挖掘 互聯(lián)網(wǎng)電子商務(wù)數(shù)據(jù)呈指數(shù)形式飛速增長,然而當(dāng)用戶(無論買點、賣方或任何商業(yè)關(guān)聯(lián)方)面對整個Internet的海量數(shù)據(jù)時,卻感覺很難找到對自己有用的商業(yè)數(shù)據(jù)。例如:當(dāng)買方在互聯(lián)網(wǎng)尋找適合自己的商品和服務(wù)、比較商品價格和交易條件時,需要盡可能搜集此商品的相關(guān)Web頁面,即以商品作為Web頁面聚類或者分類的依據(jù),以此提高電子商務(wù)交易過程尤其是前期交易過程的效率?偟膩碚f為方便客戶,應(yīng)該為他們提供一步到位的查詢解決方案,Web頁面的自動聚分類方法有助于壓縮搜索空間,加快檢索速度,提高查詢精度,幫助客戶快速找到相關(guān)信息。
3.1.2 對Web結(jié)構(gòu)的挖掘 Web頁面是半結(jié)構(gòu)化的,在Web頁面不僅有各種內(nèi)容信息,而且存在特定的結(jié)構(gòu)標(biāo)記,其中最重要的標(biāo)記就是超鏈接。Web頁面所包含的知識不僅存在于各個頁面的內(nèi)容中,也存在于頁面之間的相互鏈接中。
對于電子商務(wù)而言,一個重要的問題是要找到對某個商業(yè)主題可以當(dāng)作核心信息源的一些網(wǎng)站和網(wǎng)頁。通過對Web電子商務(wù)進(jìn)行數(shù)據(jù)挖掘時理解和利用超文本鏈接結(jié)構(gòu),可以此核心信息源為基礎(chǔ),優(yōu)化供應(yīng)鏈和虛擬企業(yè)產(chǎn)生和運(yùn)作的效率,有助于網(wǎng)絡(luò)電子商務(wù)社區(qū)的發(fā)現(xiàn)和利用。
3.1.3 對Web訪問的挖掘 對Web訪問的挖掘是目前研究最深入的Web數(shù)據(jù)挖掘技術(shù)。在Internet電子商務(wù)中,電子時空下推拉互動的雙向交互信息被記錄在Web服務(wù)器的日志文件中。Web日志一般可分為訪問日志、代理日志和引用日志。
對于拓?fù)浣Y(jié)構(gòu)已知的特定商務(wù)站點,盡管用戶在不同時期可能有不同的瀏覽模式,但就長期而言用戶行為是有一定的規(guī)律及趨勢的。通過分析Web日志文件,可以發(fā)現(xiàn)其中蘊(yùn)涵的相似客戶群體、相關(guān)Web重要頁面和有關(guān)客戶訪問模式。以頻繁訪問路徑和相關(guān)Web重要頁面為依據(jù)優(yōu)化商務(wù)站點結(jié)構(gòu),實現(xiàn)網(wǎng)站自適應(yīng);以客戶分類為依據(jù)為客戶提供個性化服務(wù)(如電子商品推薦系統(tǒng)),以挖掘銷售數(shù)據(jù)發(fā)現(xiàn)交易關(guān)聯(lián)性為依據(jù)提高營銷活動效率和強(qiáng)化廣告宣傳效應(yīng)。這里部分理論是以市場營銷學(xué)的市場細(xì)分原理為基礎(chǔ),基本假定是“消費(fèi)者過去的行為是其今后消費(fèi)傾向的最好說明”。
3.2 具體評述
隨著互聯(lián)網(wǎng)的興起,數(shù)據(jù)挖掘技術(shù)已開始運(yùn)用到Web信息系統(tǒng)產(chǎn)生的海量數(shù)據(jù)上,在客戶關(guān)系管理、金融工程、信用管理、風(fēng)險預(yù)測、保險等諸多領(lǐng)域均得到廣泛應(yīng)用。
電子商務(wù)環(huán)境下Web數(shù)據(jù)挖掘技術(shù)既包括基于統(tǒng)計學(xué)的各類方法,也包括涉及機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、人工智能等理論方法,這其中又以規(guī)則歸納、神經(jīng)網(wǎng)絡(luò)、案例學(xué)習(xí)、遺傳算法、粗糙集等智能方法最為常見。但需指出目前電子商務(wù)環(huán)境下Web數(shù)據(jù)挖掘算法的研究尚處于起步階段,無論在Web電子商務(wù)數(shù)據(jù) 特點的挖掘算法上,還是挖掘結(jié)果的經(jīng)濟(jì)學(xué)與管理學(xué)解釋和挖掘結(jié)果的有效應(yīng)用方面,均尚未涉及或仍有很大研究余地。
3.2.1 Web內(nèi)容挖掘 文本是存儲和交換信息的最自然的方式,文本挖掘具有非常高的商業(yè)前景。事實上研究表明即使在企業(yè)的電子商務(wù)信息中,也有80%的信息保存在文本中,如電子郵件、網(wǎng)頁以及報告等。
目前Web內(nèi)容挖掘多數(shù)是基于文本挖掘算法的,和通常文本挖掘的功能和算法類似,適用于商務(wù)文本的挖掘算法還沒有較多的進(jìn)展。但由于互聯(lián)網(wǎng)上的數(shù)據(jù)基本上都是HTML或XML格式的文件數(shù)據(jù)流,因此可利用文檔中的HTML或XML標(biāo)記來提高Web內(nèi)容挖掘的性能。
但Web內(nèi)容的動態(tài)更新、存儲方式的特殊性、Web商務(wù)數(shù)據(jù)以及文本數(shù)據(jù)本身的特點使得Web內(nèi)容挖掘在處理下面這些任務(wù)中遇到很大困難:①難于處理具有主觀、非精確、非確定的數(shù)據(jù)和檢索要求;②現(xiàn)有搜索引擎沒有歸納和演繹的能力;③軟決策,而不是布爾代數(shù)的決策方式;④網(wǎng)頁評價,難以按照對于查詢的相關(guān)性對網(wǎng)頁進(jìn)行評價;⑤個性化,對于電子商務(wù)而言個性化的要求是非常重要的,必須根據(jù)每個用戶歷史訪問記錄等資料進(jìn)行相關(guān)挖掘;⑥互聯(lián)網(wǎng)上的數(shù)據(jù)基本上都是HTML或者XML格式的文件數(shù)據(jù)流,但利用文檔中的HTML或XML標(biāo)記來提高Web內(nèi)容挖掘性能的研究目前尚少見。
3.2.2 Web結(jié)構(gòu)挖掘 Web結(jié)構(gòu)挖掘是從www上的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識,由于超文本文檔間的關(guān)聯(lián)關(guān)系使得www不僅可以揭示文檔中所包含的信息,同時也可以揭示文檔問的關(guān)聯(lián)關(guān)系所代表的信息。利用這些信息可對頁面進(jìn)行排序,發(fā)現(xiàn)重要的頁面。Page-Rank法就是利用了文檔間鏈接信息來查找相關(guān)的Web頁,其基本思想是:一個頁面被多次引用,則這個頁面很可能是重要的;一個頁面盡管沒有被多次引用,但被一個重要頁面引用,該頁面也可能是很重要的。
此外,通過挖掘網(wǎng)站結(jié)構(gòu)和頁面結(jié)構(gòu),也可以對同一商業(yè)網(wǎng)站內(nèi)Web頁面進(jìn)行分類和聚類。對Web頁內(nèi)結(jié)構(gòu)的分析,相對于普通文本結(jié)構(gòu)分析,具備一些明顯不同的特征:通常沒有段落、句子等顯要區(qū)別、文本中文字屬性特征比較豐富、文本中標(biāo)題性文字較多;因此主要的分類方法為基于特征的分類方法。而對于事先不知道其網(wǎng)絡(luò)架構(gòu)的目標(biāo)網(wǎng)站,則應(yīng)當(dāng)運(yùn)用聚類方法,而主要的聚類方法為分裂分類法。
一些研究人員提出了一些模型化Web拓?fù)浣Y(jié)構(gòu)的算法,如HITS算法和上文所述PageRank算法等。HITS通過給鏈接結(jié)構(gòu)增加內(nèi)容信息,同時使用了外層過濾進(jìn)行改進(jìn)。這些算法主要用作計算每個網(wǎng)頁的質(zhì)量和相關(guān)性,并應(yīng)用到了Clover和Coogle等系統(tǒng)中。其他的一些應(yīng)用包括發(fā)現(xiàn)Web上的電子商務(wù)社區(qū)等。Madria討論了Web結(jié)構(gòu)挖掘在數(shù)據(jù)倉庫中的應(yīng)用,包括度量同一服務(wù)器中局部鏈接的頻率,度量數(shù)據(jù)倉庫中Web文檔的重復(fù),從而在特定鏈接的層次結(jié)構(gòu)中發(fā)現(xiàn)信息流對站點設(shè)計的影響等。
3.2.3 Web使用挖掘 Web服務(wù)器上的訪問日志數(shù)據(jù)是Web使用挖掘的最重要的數(shù)據(jù)源,它明確地記錄了站點訪問者的瀏覽行為信息,但須指出其是不完整的數(shù)據(jù),如緩存頁的訪問就不被記錄在日志中,目前尚無有效的算法處理此數(shù)據(jù)不完整性;其次可通過使用遠(yuǎn)程主體或?qū)ΜF(xiàn)有瀏覽器代碼的修改來實現(xiàn)客戶端數(shù)據(jù)的收集;第三,代理日志,即Proxy數(shù)據(jù)作為客戶端瀏覽器和Web服務(wù)器間的中間層緩存,采用Proxy跟蹤可揭示從多個客戶到多個服務(wù)器的HTTP請求,可用作刻畫共享一個Proxy服務(wù)器的一組商業(yè)客戶瀏覽行為的數(shù)據(jù)源。
常見的基于Web使用挖掘的客戶聚分類算法包括基于模糊理論的客戶群體聚類算法、K-paths聚類算法、客戶群體聚類的hamming聚類算法等;此外商務(wù)站點的結(jié)構(gòu)類似有向圖,用戶的訪問行為構(gòu)成其訪問子圖,研究該有向子圖有利于發(fā)現(xiàn)用戶興趣所在。而對基于Web使用挖掘而言的網(wǎng)頁聚分類,其挖掘數(shù)據(jù)的依據(jù)是Web的使用記錄而不是Web網(wǎng)頁的內(nèi)容信息,其數(shù)據(jù)范圍一般局限在一個或少數(shù)網(wǎng)站,這主要是由于很難追蹤用戶完整的上網(wǎng)訪問記錄;值得注意的是挖掘過程和Web內(nèi)容挖掘一樣常常需要一些商業(yè)背景或領(lǐng)域知識。
Web使用挖掘的實例包括兩類:學(xué)習(xí)用戶日志文件和用戶導(dǎo)航模式。商業(yè)信息的提供者希望通過改進(jìn)站點的設(shè)計和了解用戶的興趣和偏好,提供給用戶適合的信息。挖掘出的信息可以應(yīng)用到網(wǎng)頁個性化、站點修改、商業(yè)智能、信息檢索等領(lǐng)域中。
Perkowitz通過記錄用戶訪問站點的記錄改善站點的設(shè)計,幫助用戶更快地瀏覽商業(yè)站點。路徑遍歷模式挖掘則是另一種用戶導(dǎo)航模式,在分布環(huán)境下當(dāng)用戶尋找感興趣的信息時,可以通過超鏈地址從一個對象遍歷到另一個對象;很明顯理解這種環(huán)境下的用戶訪問模式不僅能提高系統(tǒng)的設(shè)計水平,還能促進(jìn)市場決策判斷(比如在適當(dāng)?shù)牡攸c放一個廣告)。
4 目前國內(nèi)外主要研究內(nèi)容
4.1 Web頁面聚分類應(yīng)用研究
頁面聚分類挖掘結(jié)果在電子商務(wù)各環(huán)節(jié)的應(yīng)用問題;以Web內(nèi)容挖掘為主結(jié)合Web結(jié)構(gòu)挖掘和Web使用挖掘的多智能集成算法的Web頁面聚分類模型的研究;如何改進(jìn)文本聚分類挖掘算法以適合電子商務(wù)Web頁面聚分類。
4.2 客戶群聚分類應(yīng)用研究
客戶聚分類在電子商務(wù)各環(huán)節(jié)的應(yīng)用問題,研究對營銷機(jī)制的影響;以Web訪問挖掘為主的多智能集成算法的聚分類模型;電子商務(wù)推薦系統(tǒng)的研制與開發(fā)。
4.3 客戶頻繁訪問路徑挖掘應(yīng)用研究
以客戶頻繁訪問路徑挖掘結(jié)果為基礎(chǔ)分析用戶訪問站點的規(guī)律、改進(jìn)網(wǎng)站的組織結(jié)構(gòu)及其性能,實現(xiàn)網(wǎng)站自適應(yīng);客戶頻繁訪問路徑挖掘算法。
4.4 交易關(guān)聯(lián)性挖掘應(yīng)用研究
以交易關(guān)聯(lián)性挖掘結(jié)果為基礎(chǔ)研究對企業(yè)決策管理、協(xié)同商務(wù)管理、政府監(jiān)管等方面的應(yīng)用問題,研究影響識別交易關(guān)聯(lián)性的關(guān)鍵或主要數(shù)據(jù)特征;基于多智能算法的交易關(guān)聯(lián)性挖掘模型。
4.5 異常客戶與異常交易檢測應(yīng)用研究
異常監(jiān)測在電子商務(wù)中的基本應(yīng)用框架,異常交易或者電子欺詐所具備的數(shù)據(jù)特征,異常交易或電子欺詐的識別算法。
4.6 互聯(lián)網(wǎng)下供應(yīng)鏈關(guān)系挖掘研究
互聯(lián)網(wǎng)下供應(yīng)鏈關(guān)系挖掘的研究范疇,電子供應(yīng)鏈和虛擬企業(yè)形成效率等的關(guān)系,電子供應(yīng)鏈關(guān)系挖掘的基本模型、算法和應(yīng)用,如何解釋和應(yīng)用電子供應(yīng)鏈挖掘結(jié)果以有效地優(yōu)化電子商務(wù)供應(yīng)鏈。
4.7 電子商務(wù)數(shù)據(jù)挖掘的解釋問題
電子商務(wù)數(shù)據(jù)挖掘涉及管理學(xué)、經(jīng)濟(jì)學(xué)、計算機(jī)科學(xué)、智能科學(xué)、數(shù)學(xué)等多領(lǐng)域、跨學(xué)科的理論知識,因此需研究Web數(shù)據(jù)挖掘結(jié)果的管理理論解釋問題和經(jīng)濟(jì)理論解釋問題中模型的建立機(jī)制、步驟和對挖掘結(jié)果和解釋理論本身的互動影響;主要涉及管理學(xué)和經(jīng)濟(jì)學(xué)理論的選擇;解釋的立場問題;挖掘所獲得新知識對解釋理論本身的修正問題。
4.8 商務(wù)數(shù)據(jù)挖掘過程改進(jìn)
商務(wù)數(shù)據(jù)挖掘須啟動過程改進(jìn),當(dāng)前國內(nèi)外無成熟的商務(wù)數(shù)據(jù)挖掘的過程研究。研究商務(wù)數(shù)據(jù)挖掘或商務(wù)智能項目實施過程,定義企業(yè)在該領(lǐng)域的標(biāo)準(zhǔn)過程,研究如何通過企業(yè)過程的改進(jìn)不斷提高ERP等商業(yè)數(shù)據(jù)系統(tǒng)的應(yīng)用價值。
4.9 電子商務(wù)數(shù)據(jù)集特征識別
必須在Web挖掘算法的挖掘前、挖掘中、挖掘后各階段充分考慮電子商務(wù)數(shù)據(jù)集所獨(dú)有的、區(qū)別于一般數(shù)據(jù)集的特征;根據(jù)識別出的商務(wù)數(shù)據(jù)特征設(shè)計新的數(shù)據(jù)挖掘算法或?qū)υ瓟?shù)據(jù)挖掘算法進(jìn)行改進(jìn)和優(yōu)化,即特征結(jié)合問題。
相關(guān)熱詞搜索:契合 數(shù)據(jù)挖掘 電子商務(wù) 論數(shù)據(jù)挖掘與電子商務(wù)的契合 數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用 數(shù)據(jù)挖掘與電子商務(wù)
熱點文章閱讀