无码任你躁久久久久久久-激情亚洲一区国产精品-超碰97久久国产精品牛牛-久久se精品一区精品二区国产

首頁 > 文章中心 > 正文

圖書館的挑戰及應對措施

前言:本站為你精心整理了圖書館的挑戰及應對措施范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。

1大數據的特征與內涵

什么是大數據?目前,還沒有一個統一的定義,簡單一點可以理解為超出傳統數據管理工具處理能力的大規模、復雜的數據集合。IBM公司認為大數據具有“3V”特點,即種類(Variety)多、速度(Velocity),快、容量(Volume)大[6]。但以IDC為代表的業界將其歸納為具有“4V”特征———海量(Volume)、多樣性(Variety)、高速(Velocity)和易變性(Variability)。不管是“3V”,還是“4V”,其內涵包含了以下這些特性。第一,數據體量巨大。“大”是指數據規模,一般指在10TB規模以上的數據量。一部《史記》,共526500字,約1MB數據,一組用于基因研究的染色體照片數據量超過2TB。第二,數據類型繁多。這種類型的多樣性也讓數據被分為結構化數據和非結構化數據。互聯網的迅猛發展,現在的數據類型早已不是單一的文本形式,還包含了大量的網絡日志、微博、視頻、圖片、郵件等大量的半結構化與非結構化數據。第三,價值密度低。價值密度的高低與數據總量的大小成反比。大數據中有很多垃圾,有很多不相關的信息,只有一些有用的信息隱藏在大數據信息里面。以視頻為例,一部一小時的視頻監控過程中,可能有用的數據僅僅只有一兩秒。第四,處理速度快。大數據里面很多是實時數據,像微博、社會網絡、SNS這些,要求它進行立竿見影的分析和處理,而不是事后追訴。

2圖書館與大數據之關系

隨著信息化建設的發展,圖書館除了本身包含的大量數字資源外,日益增長的電子資源,高速網絡及移動圖書館的普及,云計算、RFID、語義網、社交網絡等新技術的發展提供了廣泛的數據來源,圖書館正在迎接大數據時代的到來。

2•1各種電子資源(電子書刊,多媒體資源等)的積累,給圖書館提供了海量數據信息技術的發展極大地促進了圖書館數字資源的生產,形成了包括電子圖書、電子期刊、數據庫、音視頻資源、網絡資源在內的海量數字資源,電子資源種類和數量正在超越紙本資源。據調查,全球新產出的信息量每3年翻一番,大約90%的信息都是以數據形式儲存。截至2011年底,中文網頁數量達866億個,年增長率達44•3%。文獻的出版方式發生巨大的變化,數字出版日益普及,截至2010年底,中國電子書總量已達115萬種,年新增18萬種。單獨出版的數字報已達700份以上,電子期刊已近萬種。2010年底,清華圖書館機房有110臺服務器,集中存儲170TB,國家圖書館資源總量達到470TB。這些資源分布在不同的系統中,形態不同,組織方式各異,既包括傳統文獻的數字化,也包括各種類型的原生數字資源,還包括其它虛擬館藏等各種多媒體資源。各種電子資源的積累,給圖書館提供了海量數據。

2•2智能手機、高速網絡及移動圖書館的普及,使數據量呈現指數上升的趨勢信息技術、網絡技術迅猛發展,手機上網、數字電視等跨網絡等業務發展迅速。截至2011年底,我國網民人數達5•13億,互聯網普及率達38•3%,手機用戶已突破9億人,其中手機上網達3•56億,數字電視用戶超過1000萬戶,以上為數字圖書館提供了基于多網絡平臺的信息傳輸途徑和服務渠道。近幾年,移動設備如雨后春筍,智能手機、平板電腦為學習者提供了新的學習途徑,并以其它設備無法比擬的優勢提高學習體驗并與人產生更多的交互,使得數據快速增加。自2003年以來,移動圖書館越來越普及,移動閱讀,移動搜索等服務類型也不斷增加。未來3年內,移動設備所產生的數據量呈現翻倍的趨勢。

2•3云計算、RFID、語義網、社交網絡等新技術的發展,為大數據提供了廣泛的數據來源云計算的到來,突破了傳統圖書館發展局限,超強的數據處理能力,信息資源的整合,動態資源分配,簡化的IT結構,云計算為大數據的誕生創造了物質基礎。利用RFID技術,可實現圖書自動借還,智能盤點,自動分揀,圖書位置與信息的實時跟蹤導航。以Facebook、Twitter/微博為代表的社會網絡因為體現了開放、共享、參與、個性化、用戶驅動等Web2•0特性而深入人心。語義網是人們經過研究,期待已久,能夠使信息發生“革命”,從而上升到“知識”的技術。2009年,美國康奈爾大學和六家機構籌建一個Facebook風格的專業社交網絡———VIVO網,其宗旨是建立一個連接開發數據的語義Web。科學家通過VIVO網可以看到網絡中的研究人員正在進行的其它科學研究,便于快捷地找到同行并建立聯系,致力于新的發現和創新。由此可知,信息時代的發展使得圖書館具備大數據的特征。科學研究和科技創新越來越依賴于對數據的管理和利用,學科知識服務依賴于大數據的分析與挖掘。但是,要面臨的數據非常復雜,圖書館將遇到很多挑戰

3大數據時代下圖書館的挑戰與建設策略

大數據不僅挑戰圖書館傳統的IT架構與數據獲取、數據存儲、數據處理的模式,而且來自數據管理及數據應用、數據服務對圖書館的挑戰將更為突出。但從潛在的機會看,數據量的增加為圖書館提供了精確把握用戶群體和個體網絡行為模式的基礎,如果能夠充分利用,就可以探索個性化,精確化和智能化地進行推送和服務,幫助用戶從海量的信息中迅速找到所需要的信息,提升圖書館的數字知識服務水平,促進數字圖書館領域的發展。當前,圖書館的大數據挑戰主要集中在以下3個方面:問題一:傳統的網絡架構不適應“大數據”時代傳統的網絡結構設計是以用戶端向服務器發出請求,由服務器應答返回結果給客戶的垂直結構。而在大數據時代,這種垂直結構的服務請求將變得越來越少,取而代之的是水平結構的橫向請求服務。“大數據”時代,大量的數據都存儲在分布廣泛、不同地域、各種類型的服務器中。當用戶發出一個搜索或查詢請求時,最多的運算是服務器之間的信息交換,最后將結果返回給用戶。傳統的網絡架構已經不能滿足大數據時代網絡應用需求。新一代網絡架構要適應Web2•0時代的水平服務應用[7]。問題二:數據中心將面臨巨大壓力傳統的數據倉庫是通過ETL工具將數字資源中的數據抽取到數據倉庫進行集中存儲和管理,然后組織數據進一步從數據倉庫中讀取及訪問數據,并進行數據分析。但在大數據時代,圖書館數據庫里的內容不僅僅是多,而且結構已發生了極大改變,不是以二維表的規范結構存儲。大量的數據是非結構化的辦公文檔、文本、圖片、XML、HTML、各類報表、圖片和音頻/視頻等,面臨如此大量的非結構化數據,其移動和修改將耗費大量的人力物力,數據移動代價太高,讀取效率也將越來越低。更多的網絡設備將同時訪問數據中心,傳統數據中心難以適應快速變化,面臨巨大壓力[7]。問題三:如何快速找到自已的資源,如何獲取、管理和分析這些用戶信息行為數據并加以利用及服務。在大數據時代,用戶面對眾多圖書館的數據資源,深受大數據所帶來的困擾,很難方便、快捷、準確地檢索到所需數據資料。2011年麥肯錫公司在報告中指出全球新的數據不斷增長,但是卻有87•5%的數據,并沒有形成真正的知識源以供研究人員利用[3]。大數據時代,圖書館面臨大數據管理、技術和應用等方面存在的問題和挑戰,對這些問題的思考,未來圖書館,是以數據為紐帶,其形態將從物理圖書館逐漸轉變為“數據圖書館”及“智慧圖書館”。由此,圖書館應采取以下應對策略:

3•1管理層次上:成立數據管理部門與機構,制定數據管理政策、統一的標準及共享平臺大數據建設是一項有序的、動態的、可持續發展的系統工程,必須建立良好的運行機制,以促進建設過程中各個環節的正規有序,實現統合,搞好頂層設計。為此,圖書館應成立新的數據管理部門,負責數據管理,建立統一的數據獲取、使用、管理、分享的政策,加強校內,外各部門的數據協調工作。如在美國高校中,現在有些學校如MIT、弗吉尼亞大學及康奈爾大學圖書館成立了專門的“研究數據管理服務工作組(RDMSG)”,負責有關數據管理中所涉及的問題:如元數據標準、數據存儲、數據共享和重用、數據管理計劃、處理數據版權和合理使用數據問題、舉辦知識產權、開放數據、開放科研等主題的培訓和講座、研究數據知識庫的評估、管理、推介、導航服務等[8]。

3•2技術層次上:構建圖書館大數據架構,研究解決大數據采集、存儲,處理及分析相關技術問題大數據技術是指從各種各樣類型的巨量數據中,快速獲得有價值信息的技術。解決大數據問題的核心是大數據技術。迎戰大數據,進行技術前傾是關鍵。要把大數據作為一系統工程來考慮,從數據采集,數據存儲到數據處理,數據分析及數據應用等方面考慮。在大數據技術中,從圖書館系統角度,主要解決下面幾方面的關鍵技術:

3•2•1大數據的統一表示及融合圖書館大數據中包括越來越多不同格式的數據,從電子資源,到簡單的電子郵件、數據日志和閱讀記錄,社交網絡,再到實驗等科研中收集到的科學研究數據以及豐富的媒體數據(包括課件,照片、音樂、視頻資源等),這些不同格式的數據也需要不同的處理方法,給我們處理數據帶來了一定麻煩。從某種意義上來說,目前表示數據的方法,不一定能直觀地展現出數據本身的意義。數據不整合就發揮不出大數據的重大價值。大數據面臨的一個基本問題是各種數據和信息能否規范、統一的表示及方便地融合,構建文獻與數字資源體系。因此,要研究通過對海量的,來自異構資源的數據和各種對象數據進行抽取、映射、收割、導入等手段進行預收集,歸并映射到一個標準表達式,進行預聚合及融合,形成格式統一,內容豐富、結構清晰的數據,靈活構建各種分類和界面,按照知識本體進行組織和揭示,進而保障強大高效的檢索能力和良好的結果相關度排序。

3•2•2解決大數據量存儲的問題在大數據的挑戰問題中,大數據的第一個關鍵技術問題:就是對大數據的高效率存儲和訪問需求,對數據庫高可擴展性和高可用性的需求,隨著數據庫技術以及云計算技術的迅猛發展,大規模數據存儲要借助非關系型的數據庫分析技術———NoSQL、MapReduce和Hadoop。它們的優勢具有大規模并行處理、簡單易用等特點,非常適合非結構數據處理,也成為大數據分析領域的主流技術。大數據存儲也可采用基于云計算的分布式存儲技術,利用分布式的數據云存儲技術和與之相關的虛擬技術使得整合后的圖書館海量數據更加統一有序,能夠方便快捷地通過網絡,根據需求訪問計算與存儲等服務。

3•2•3解決非結構化數據的分析和挖掘的問題大數據中包含數據信息量大且復雜多樣,因此數據分析和挖掘工作具有重要作用。傳統的數據挖掘對關系型數據,非結構化的、半結構化的數據顯得力不從心。對于圖書館大數據中,待處理的非結構化數據與讀者興趣密切相關,通過分析讀者顯性行為和挖掘隱性行為,為讀者提供個性化服務。目前使用的推薦方法是基于內容的推薦方法和協同過濾的推薦方法。協同過濾算法是目前最為成功的算法,但依然存在讀者興趣變化、數據稀疏性、讀者評分的真實性及差異性等問題,根據讀者信息數據構建個性化讀者行為模型,結合基于讀者行為的協同過濾算法,挖掘模型中存在的規則,從而產生個性化服務值得研究。

3•3隊伍建設上:培養一支高素質的數據管理的館員隊伍大數據環境下,圖書館傳統的管理模式、工作內容、工作方式發生了本質的變化。而目前不斷增長的數據共享和數據管理需求為圖書館服務開辟了新的領域,圖書館需要抓住這個機遇,盡快開展數據管理服務,拓展支持研究的服務內容和能力,使圖書館員成為數據管理服務的提供者。美國國家科學委員會(NSB)提出的以數據獲取、處理、保存、分析、利用和可視化為職業的”數據科學家(DataScientist)中,其中含信息與計算機科學家,學科專家、數據處理員及圖書館員等。美國研究圖書館協會也已提出,研究數據管理將成為下一代圖書館員的能力之一[9-10]。因此必須培養和造就一支懂技術、懂管理的大數據建設專業隊伍。當前的任務是如何在現有基礎上,拓寬館員知識面,增強業務能力,培養出能滿足圖書館數據服務需求的高素質的“數據館員”,并使之成為學科信息資源的組織者、傳播者、導航者、教育者,促進圖書館事業更好的發展。

4基于大數據的圖書館的服務模式研究

大數據時代下的圖書館將從“物理圖書館”轉變為“數據圖書館”。圖書館服務不管是服務的方式、途徑、模式等也都將發生改變。從服務的理念上轉變為基于數據的服務。以“大數據”為基礎,圍繞從數據匯聚到信息加工,知識服務,智慧服務的四個層次展開服務,見圖2。下面具體對數據驅動下的圖書館的服務模式進行分析研究。

4•1基于數據整合的一站式資源服務大數據時代下,數據資源是海量的,理論上一個圖書館可以收集所有的數據資源,如各類文獻資源,科研成果,學術交流,甚至包括各種訪問,社交等日志信息等各種網絡資源等。但是,這些數據來源于不同的機構知識庫或讀者個人,圖書館可以充分利用機構優勢有組織地通過對各類數據源的定位和連接,實現數據的采集、傳輸和匯聚。鼓勵讀者開放存取各種數字資源,使用戶不僅是資源的接受者和學習者,而且是資源的的者和貢獻者[11]。由于數據資源具有數量巨大、類型多樣、變化快、無序等特點,因此很有必要建立數據的統一標準,迎合對于飛速增長的異構系統進行有效整合的需求。提供資源之間的無縫鏈接,提供各種數據管理服務,包括存儲備份、元數據加工、數據,數據共享等。在數據的洪流中,異構、分布和海量的各種數據資源得以匯聚及融合,形成中心知識庫,通過預索引的方式,為用戶提供快速,簡單,易用的資源發現及獲取服務,建立一站式數據資源服務平臺[8]。

4•2基于數據分析的學科知識服務圖書館作為知識服務平臺,通過對匯集數據的加工整理,數據建模,提高數據的價值密度。探索以數據為基礎的知識發現分析,通過基于數據的增值服務,面向用戶、滿足用戶的學科知識需求,開展知識服務。如以學科為基礎,將不同學科用戶的檢索瀏覽下載的信息行為數據進行分類;分析用戶檢索瀏覽下載的文獻(全文、摘要、關鍵詞)特征,加入時間緯度,歸納出某個學科某一時期的用戶感興趣的主題;利用數據挖掘、數據檢驗、相關性分析、回歸分析、聚類分析、社會網絡分析等進行學科熱點預測和交叉學科分析研究。構建基于圖書館流通日志的圖書借閱數據倉庫維度模型,構建基于OPAC日志點擊流數據倉庫,基于大數據的關聯關系分析,發現及展示學者、合作者、期刊、會議、文章之間的知識網絡;基于大數據的學科趨勢分析,通過對大數據的有序處理來提升圖書館服務的品質。

4•3基于數據應用的信息可視化服務大數據中包含大量重要信息,人們期待進行深層次分析,以便更好的從數據中發現知識。信息可視化作為一種關鍵服務理念與技術手段,在處理復雜異構的圖書館大數據方面有很大的優勢,能為用戶提供了一個方便易用的知識環境。如從檢索過程、檢索結果以及結果之間關系的角度實現主題可視化,到數據庫分布可視化、時間分布可視化和作者合著關系可視化。也可將信息可視化技術與科學計量學方法等相結合,生成具有各種屬性的科學地圖,表達學科、領域、專業、文獻、著者之間的關系,解釋知識領域的結構、映射知識領域的發展趨勢,促進信息獲取、使知識結構更加明顯,將數據集中看不見的抽象數據和數據之間的語義關系以一種可視化的方式呈現在用戶場景中。讓用戶充分發掘信息資源中潛在的價值資源,幫助用戶更好地組織、分析與利用信息。信息可視化作為將信息有效組織、分析、揭示的一種新技術,為大數據提供了一種新的服務模式。

4•4基于數據挖掘的智慧服務隨著讀者對知識需求的轉變,知識服務正在朝個性化,智慧化的方向發展。個性化服務是基于讀者對信息使用行為習慣及對信息的特定需求,是一種在分析預測用戶個體信息需求基礎上向用戶主動提供其可能需求但又無法獲取的信息資源的服務方式,是解決海量信息困惑問題的重要方法。智慧服務是知識服務的升華。智慧服務則是建在知識服務基礎上的的創造性服務模式,是圖書館知識服務的核心。圖書館大數據存在大量的用戶信息行為產生的數據,如用戶查詢書目產生的OPAC日志,用戶借還書產生的流通日志數據,用戶檢索瀏覽下載電子資源產生的日志數據,用戶訪問產生的流量數據及各種社交網絡等。這些數據中除了用于記錄讀者的個人信息外,還隱藏著許多重要的信息,因此可通過對這些數據進行挖掘分析,知識發現、智能等技術,描述用戶的行為,準確定位讀者需求,向讀者提供主動式推送服務,滿足其個性化的智能服務。

5結語

數字信息的爆炸式增長催生出“大數據”概念,正席卷整個IT相關行業,大數據已經漸漸的滲入到了圖書情報工作中,挑戰與機遇同在。展望未來,大數據服務技術等熱點將不斷涌現,將對圖書館知識服務的拓展和深化帶來重大影響,未來的工作將是“數據驅動”的圖書情報工作。本文重點探討了在大數據時代下圖書館的建設策略及基于大數據的一站式服務,學科知識及個性化智慧服務等服務模式。但是圖書館的大數據技術及服務是一項復雜的系統工程,涉及到數據管理的水平,數據處理的技術及數據服務的創新等等,均需要圖書館員的共同努力。

作者:朱靜薇李紅艷單位:合肥工業大學圖書館

主站蜘蛛池模板: 通辽市| 外汇| 南汇区| 新河县| 始兴县| 茂名市| 兴山县| 榆社县| 鹰潭市| 清远市| 庆城县| 木兰县| 晋宁县| 金溪县| 万荣县| 洪江市| 蛟河市| 沅江市| 家居| 海盐县| 西昌市| 朝阳区| 哈尔滨市| 江口县| 凯里市| 监利县| 高陵县| 玉溪市| 香港 | 宁化县| 延寿县| 香港 | 米易县| 疏附县| 陇川县| 泰州市| 南宁市| 宕昌县| 宁夏| 秀山| 金寨县|