數(shù)據(jù)挖掘技術(shù)在隨書光盤中的應(yīng)用
摘 要:本文分析了目前圖書館隨書光盤管理方面存在的問(wèn)題,闡述了數(shù)據(jù)挖掘技術(shù)在隨書光盤應(yīng)用中的需要,通過(guò)對(duì)隨書光盤信息進(jìn)行數(shù)據(jù)挖掘,發(fā)現(xiàn)讀者借閱歷史記錄中隱藏的一些關(guān)系,并對(duì)隱藏的這些關(guān)系進(jìn)行了具體的
摘 要:本文分析了目前圖書館隨書光盤管理方面存在的問(wèn)題,闡述了數(shù)據(jù)挖掘技術(shù)在隨書光盤應(yīng)用中的需要,通過(guò)對(duì)隨書光盤信息進(jìn)行數(shù)據(jù)挖掘,發(fā)現(xiàn)讀者借閱歷史記錄中隱藏的一些關(guān)系,并對(duì)隱藏的這些關(guān)系進(jìn)行了具體的分析。
關(guān)鍵詞:隨書光盤 數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則
關(guān)鍵詞:隨書光盤 數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則
隨著科學(xué)技術(shù)的不斷發(fā)展和進(jìn)步,現(xiàn)在越來(lái)越多的圖書都附帶隨書光盤,它主要是存儲(chǔ)與書籍內(nèi)容相關(guān)的圖像、音頻和視頻。讀者通過(guò)對(duì)光盤內(nèi)容的進(jìn)一步學(xué)習(xí),不僅可以大大地豐富其理論知識(shí),而且還能夠相應(yīng)的拓展其知識(shí)面,主要是可以把他們學(xué)習(xí)到的理論知識(shí)很好地運(yùn)用到實(shí)際工作和生活中。
目前,已經(jīng)有許多圖書館采用數(shù)據(jù)挖掘技術(shù)為圖書館的信息管理服務(wù),但一般以書籍借閱信息作為原始數(shù)據(jù)進(jìn)行處理。隨著圖書館隨書光盤的不斷增多,讀者自由選擇范圍的增大,圖書館的圖書借閱量呈直線上升趨勢(shì)。如何對(duì)隨書光盤借閱產(chǎn)生的大量數(shù)據(jù)進(jìn)行有效的分析,怎樣找出有價(jià)值的信息更好地為圖書館的管理服務(wù),讓圖書館的紙制資源、隨書光盤和電子資源整合并統(tǒng)一進(jìn)行數(shù)據(jù)挖掘,具有重大的理論價(jià)值和現(xiàn)實(shí)意義。
1 隨書光盤管理的現(xiàn)狀
圖書館隨書光盤的管理主要有三種模式:一是光盤隨書進(jìn)行流通管理,這種方式管理方便,缺點(diǎn)是容易造成混亂和損失。二是光盤和圖書分開進(jìn)行管理,讀者需要借閱光盤時(shí)進(jìn)行單位借閱和拷貝,優(yōu)點(diǎn)是減少損失,缺點(diǎn)是借閱不便。三是通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)進(jìn)行數(shù)字化管理,優(yōu)點(diǎn)是方便讀者借閱,缺點(diǎn)是管理成本高[1]。
在光盤和圖書分開借閱的管理方式下,
讀者需要進(jìn)行二次借閱,造成借閱量不高,使得許多圖書資源得不到有效利用,為知識(shí)的傳播帶來(lái)不便。為了更好的向讀者提供服務(wù),方便讀者使用隨書光盤,提高圖書館資源的使用率,目前隨書光盤正越來(lái)越多的采用網(wǎng)絡(luò)存儲(chǔ)管理。網(wǎng)絡(luò)管理的方式需要有相應(yīng)軟硬件設(shè)備,比如網(wǎng)絡(luò)設(shè)施、存儲(chǔ)設(shè)備和相應(yīng)的軟件,不僅要對(duì)原始光盤的數(shù)據(jù)進(jìn)行相應(yīng)的處理和存儲(chǔ),還要在使用過(guò)程中對(duì)相應(yīng)的軟硬件設(shè)施進(jìn)行相應(yīng)的維護(hù)。隨書光盤的網(wǎng)絡(luò)借閱管理將會(huì)產(chǎn)生大量與讀者查詢下載相關(guān)的借閱信息,如何利用這些借閱信息進(jìn)行有效的數(shù)據(jù)分析,是提高圖書館服務(wù)水平的重要工具。
2 數(shù)據(jù)挖掘
2.1 數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或者“挖掘”知識(shí),但這些數(shù)據(jù)是不完全的、模糊的、含噪聲的和隨機(jī)的,而數(shù)據(jù)挖掘就是要從中提取出那些隱含的、未知的、有價(jià)值的和潛在的信息的過(guò)程,它也可以看作是一種決策支持過(guò)程,通過(guò)對(duì)各組織的海量數(shù)據(jù)進(jìn)行分析,歸納推理并從中挖掘出潛在的模式,其結(jié)果將可為管理層的決策提供支持[2]。
2.2 數(shù)據(jù)挖掘工作的流程(見圖1)

第一,確定數(shù)據(jù)源對(duì)象。確定數(shù)據(jù)挖掘任務(wù)的應(yīng)用要求,對(duì)所需要處理的大量原始數(shù)據(jù)進(jìn)行收集。第二,確定目標(biāo)數(shù)據(jù)。根據(jù)數(shù)據(jù)挖掘的任務(wù)要求確定數(shù)據(jù)目標(biāo),從原始數(shù)據(jù)中選出需要進(jìn)行挖掘的數(shù)據(jù)。第三,預(yù)處理及轉(zhuǎn)換數(shù)據(jù)。預(yù)處理需要對(duì)目標(biāo)數(shù)據(jù)進(jìn)行處理,檢查數(shù)據(jù)是否符合一致性要求,去除掉數(shù)據(jù)含有的噪聲。數(shù)據(jù)轉(zhuǎn)換的主要任務(wù)是對(duì)預(yù)處理的數(shù)據(jù)進(jìn)行相應(yīng)操作,用以降低數(shù)據(jù)維數(shù),減少數(shù)據(jù)數(shù)量。第四,數(shù)據(jù)挖掘。根據(jù)對(duì)數(shù)據(jù)進(jìn)行挖掘的目標(biāo)和用戶的需要,確定要用到的挖掘算法,因?yàn)楦鶕?jù)不同的任務(wù)目標(biāo),可能用到的挖掘方法也不一樣,比如有分類、總結(jié)、聚類和關(guān)聯(lián)規(guī)則等方法。對(duì)數(shù)據(jù)通過(guò)確定的算法進(jìn)行相應(yīng)的數(shù)據(jù)挖掘,得到用戶需要的模式。第五,解釋評(píng)價(jià)。對(duì)得到的模式進(jìn)行解釋評(píng)價(jià),經(jīng)過(guò)用戶或機(jī)器的評(píng)估后,當(dāng)有冗余或無(wú)關(guān)的模式,要將其去掉;當(dāng)發(fā)現(xiàn)模式不是用戶期望要求,就需要重新選取數(shù)據(jù),采用新的數(shù)據(jù)變換方法,設(shè)定新的數(shù)據(jù)挖掘參數(shù)值,甚至換一種挖掘算法重新進(jìn)行數(shù)據(jù)的挖掘。第六,得到用戶需要的模式,并對(duì)它進(jìn)行評(píng)價(jià)以用戶可以理解的方式顯示給出來(lái)[3]。
3 圖書館隨書光盤的數(shù)據(jù)挖掘
3.1 關(guān)聯(lián)規(guī)則挖掘概述
關(guān)聯(lián)規(guī)則挖掘是為了發(fā)現(xiàn)數(shù)據(jù)庫(kù)中不同數(shù)據(jù)項(xiàng)集間隱藏的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)規(guī)則有兩個(gè)重要的標(biāo)準(zhǔn):一是支持度(Support),表示在事務(wù)中A和B同時(shí)出現(xiàn)的概率有多大,可用概率 P(AB)表示;二是可信度(confidence), 它表示關(guān)聯(lián)規(guī)則A出現(xiàn)時(shí)B同時(shí)出現(xiàn)的可能性有多大,它可用條件概率P(B|A)表示。關(guān)聯(lián)規(guī)則的挖掘算法是要在事務(wù)中找出具有設(shè)定的最小支持度和最小可信度的關(guān)聯(lián)規(guī)則。
3.2 Apriori算法及在光盤挖掘中的應(yīng)用
目前有大量關(guān)于關(guān)聯(lián)規(guī)則挖掘的研究成果,出現(xiàn)了各種各樣的挖掘算法。如Apriori、抽樣算法和DIC算法等[4]。 在隨書光盤挖掘中將使用Apriori算法對(duì)光盤借閱信息進(jìn)行關(guān)聯(lián)規(guī)則挖掘。
Apriori算法中首先要生成頻繁項(xiàng)集然后頻繁項(xiàng)集根據(jù)最小支持度和最小可信度產(chǎn)生關(guān)聯(lián)規(guī)則。
Apriori算法的步驟如下[5]:
輸入:事務(wù)數(shù)據(jù)庫(kù)D,最小支持度閾值minsup
輸出:D中的所有的頻繁項(xiàng)集
L1=search_frequent_1_itemsets( D );// ?所有頻繁?1?項(xiàng)集?
for(k=2;Lk-1 !=φ;k++)?
begin
Ck=apriori_gen(Lk-1,minsup); //生成候選項(xiàng)集 所有的k-項(xiàng)集中滿足其(k-1)- 子集都在Lk-1里的全體
//掃描數(shù)據(jù)庫(kù)事物集
for?each?transaction?t?in?D
begin
Ct=subset(Ck,t);
// Ct是Ck中被t包含的候選集的集合
for?each?candidate?c?in Ct
?c.count++;?
end
Lk?={c?∈Ck|c.count>=minsup};
// Lk?是Ck中滿足不小于minsup的全體項(xiàng)集
end
Result=Result∪Lk; //得到所有頻繁項(xiàng)集
3.3 隨書光盤的信息挖掘形式
其一,利用圖書查詢和借閱信息進(jìn)行綜合的數(shù)據(jù)分析,可以找到光盤的關(guān)聯(lián)關(guān)系。由于現(xiàn)在知識(shí)更新的非常快,所以只提取近十年的數(shù)據(jù)。首先需要把讀者按專業(yè)和年級(jí)進(jìn)行分類,然后根據(jù)學(xué)生的專業(yè)、班級(jí)等內(nèi)容按學(xué)期把學(xué)生借閱歷史信息提取出來(lái)。
從借閱歷史記錄中搜尋的原始數(shù)據(jù)可能存在許多空的數(shù)據(jù)和含有噪聲的數(shù)據(jù),這會(huì)影響最后挖掘結(jié)果的準(zhǔn)確性。在進(jìn)行數(shù)據(jù)挖掘前要對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理以消除噪聲和冗余信息。以一年級(jí)計(jì)算機(jī)專業(yè)為例,對(duì)光盤按登錄號(hào)進(jìn)行排序。下表1為根據(jù)學(xué)期分類的借閱信息。
表1 光盤借閱信息表
借書證號(hào) | 班級(jí)號(hào) | 光盤1 | 光盤2 | 光盤3 | 光盤4 | 光盤5 | 光盤6 | 光盤7 | …… |
14010112 | 030402 | 1 | 1 | 1 | 1 | 1 | …… | ||
14010113 | 030402 | 1 | 1 | 1 | 1 | …… | |||
14010202 | 030402 | 1 | 1 | 1 | …… | ||||
14010212 | 030402 | 1 | 1 | 1 | 1 | …… |
讀者借閱了光盤1又借閱了光盤2,就說(shuō)明光盤1和光盤2之間有關(guān)聯(lián)關(guān)系。從中可以找出具有關(guān)聯(lián)關(guān)系的光盤數(shù)據(jù),然后進(jìn)行統(tǒng)一處理,把有效的內(nèi)容推薦給讀者。根據(jù)學(xué)生開課進(jìn)行組織列成序列,形成課程相關(guān)的推薦圖書和光盤的內(nèi)容。
其二,可以引入與學(xué)生的學(xué)習(xí)成績(jī)相關(guān)的信息,根據(jù)與學(xué)生所開設(shè)的課程相關(guān)的圖書和光盤信息,分析學(xué)生怎樣使用圖書和隨書光盤進(jìn)行學(xué)習(xí)可以不斷提高學(xué)習(xí)效率,并找出具有針對(duì)性的光盤數(shù)據(jù)向?qū)W生進(jìn)行推薦。首先要找出學(xué)生開設(shè)的課程,然后根據(jù)開設(shè)的課程對(duì)其借閱的圖書和光盤進(jìn)行分類,消除產(chǎn)生的大量冗余信息,分析學(xué)習(xí)這門課的每個(gè)學(xué)生所借閱的與課程相關(guān)的各種光盤,如表2 所示。
表2 學(xué)生學(xué)習(xí)成績(jī)和光盤借閱信息表
借書證號(hào) | 成績(jī) | 光盤1 | 光盤2 | 光盤3 | 光盤4 | 光盤5 | 光盤6 | …… |
14010112 | A | 1 | 1 | 1 | 1 | …… | ||
14010113 | A | 1 | 1 | 1 | …… | |||
14010202 | B | 1 | 1 | …… | ||||
14010212 | C | 1 | 1 | 1 | …… |
采用關(guān)聯(lián)規(guī)則算法,把最小支持度設(shè)為30%,進(jìn)行數(shù)據(jù)挖掘可以得到關(guān)聯(lián)規(guī)則。
3.4 結(jié)果分析
數(shù)據(jù)挖掘結(jié)束后,要對(duì)所得到的用戶模式進(jìn)行解釋與評(píng)估,比如借閱光盤1的學(xué)生成績(jī)要好于不借的學(xué)生。可得出光盤1有效地提高了學(xué)習(xí)效率。那么就可以推薦學(xué)生進(jìn)行相應(yīng)的學(xué)習(xí)。通過(guò)引入數(shù)據(jù)挖掘,發(fā)現(xiàn)隨書光盤之間的關(guān)聯(lián)關(guān)系,并且找出能有效提高學(xué)生學(xué)習(xí)成績(jī)的圖書光盤,按照讀者的學(xué)習(xí)進(jìn)度推薦相關(guān)的內(nèi)容。
根據(jù)任務(wù)要求整個(gè)系統(tǒng)由三部分組成數(shù)據(jù)預(yù)處理、關(guān)聯(lián)規(guī)則挖掘和分析評(píng)估。主要系統(tǒng)可采用PHP程序語(yǔ)言、Linux操作系統(tǒng)、Apache服務(wù)器和MySQL數(shù)據(jù)庫(kù)來(lái)實(shí)現(xiàn)。
4 結(jié)語(yǔ)
隨書光盤作為一種重要的圖書館資源,它對(duì)讀者學(xué)習(xí)起到的作用不言而喻,尤其在計(jì)算機(jī)應(yīng)用廣泛普及的今天,大學(xué)里圖書館的服務(wù)對(duì)象主要是學(xué)生,如何讓學(xué)生更好的利用隨書光盤進(jìn)行相應(yīng)的知識(shí)學(xué)習(xí),不斷提高學(xué)習(xí)效率,值得我們進(jìn)一步探討和研究。在圖書館的日常工作當(dāng)中,有效地對(duì)隨書光盤進(jìn)行管理和使用已經(jīng)成為一項(xiàng)重要的工作內(nèi)容,我們借助于數(shù)據(jù)挖掘技術(shù)對(duì)其進(jìn)行了整體分析,目的就是讓讀者能夠有效地利用書籍和隨書光盤,同時(shí)也讓圖書館的工作效率進(jìn)一步提高,為讀者提供更多的學(xué)習(xí)支持和服務(wù)。

責(zé)任編輯:葉雨田
免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與本站無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
我要收藏
個(gè)贊
-
現(xiàn)貨模式下谷電用戶價(jià)值再評(píng)估
2020-10-10電力現(xiàn)貨市場(chǎng),電力交易,電力用戶 -
PPT | 高校綜合能源服務(wù)有哪些解決方案?
2020-10-09綜合能源服務(wù),清潔供熱,多能互補(bǔ) -
深度文章 | “十三五”以來(lái)電力消費(fèi)增長(zhǎng)原因分析及中長(zhǎng)期展望
2020-09-27電力需求,用電量,全社會(huì)用電量
-
PPT | 高校綜合能源服務(wù)有哪些解決方案?
2020-10-09綜合能源服務(wù),清潔供熱,多能互補(bǔ) -
深度文章 | “十三五”以來(lái)電力消費(fèi)增長(zhǎng)原因分析及中長(zhǎng)期展望
2020-09-27電力需求,用電量,全社會(huì)用電量 -
我國(guó)電力改革涉及的電價(jià)問(wèn)題
-
電化學(xué)儲(chǔ)能應(yīng)用現(xiàn)狀及對(duì)策研究
2019-08-14電化學(xué)儲(chǔ)能應(yīng)用 -
《能源監(jiān)測(cè)與評(píng)價(jià)》——能源系統(tǒng)工程之預(yù)測(cè)和規(guī)劃
-
《能源監(jiān)測(cè)與評(píng)價(jià)》——能源系統(tǒng)工程之基本方法
-
貴州職稱論文發(fā)表選擇泛亞,論文發(fā)表有保障
2019-02-20貴州職稱論文發(fā)表 -
《電力設(shè)備管理》雜志首屆全國(guó)電力工業(yè) 特約專家征文
2019-01-05電力設(shè)備管理雜志 -
國(guó)內(nèi)首座蜂窩型集束煤倉(cāng)管理創(chuàng)新與實(shí)踐
-
人力資源和社會(huì)保障部:電線電纜制造工國(guó)家職業(yè)技能標(biāo)準(zhǔn)
-
人力資源和社會(huì)保障部:變壓器互感器制造工國(guó)家職業(yè)技能標(biāo)準(zhǔn)
-
《低壓微電網(wǎng)并網(wǎng)一體化裝置技術(shù)規(guī)范》T/CEC 150
2019-01-02低壓微電網(wǎng)技術(shù)規(guī)范
-
現(xiàn)貨模式下谷電用戶價(jià)值再評(píng)估
2020-10-10電力現(xiàn)貨市場(chǎng),電力交易,電力用戶 -
建議收藏 | 中國(guó)電價(jià)全景圖
2020-09-16電價(jià),全景圖,電力 -
一張圖讀懂我國(guó)銷售電價(jià)附加
2020-03-05銷售電價(jià)附加