當(dāng)前位置:首頁 >> 新聞資訊 >> 行業(yè)關(guān)注
發(fā)布時(shí)間:2022-11-18      文章分類:行業(yè)關(guān)注      瀏覽量:1138      文章來源:國(guó)家檔案局
在大數(shù)據(jù)技術(shù)和人工智能技術(shù)已經(jīng)把我國(guó)社會(huì)推向智慧社會(huì)或智能化社會(huì)的今天,在大多數(shù)檔案館(室)正在大力開展檔案數(shù)字化,一部分檔案館(室)已被認(rèn)證為數(shù)字檔案館(室)的新形勢(shì)下,我國(guó)檔案館(室)建設(shè)的新方向或新目標(biāo)是什么?我認(rèn)為是智慧檔案館(室)。 | |
一、什么是智慧檔案館(室) | |
我這里所說的智慧檔案館(室),同之前很多人所說的智慧檔案館(室),在概念上、內(nèi)涵上及側(cè)重點(diǎn)上,都是不同的。 2019年7月和8月,我不止一次地在有關(guān)學(xué)術(shù)會(huì)議上提出我對(duì)智慧檔案館(室)的新理解,并同時(shí)也提出了與之密切相關(guān)的“檔案數(shù)據(jù)化”這一新概念。在此之前,關(guān)于智慧檔案館(室)的概念,業(yè)界已經(jīng)使用了一段時(shí)間,但主要還是聚焦于怎樣用自動(dòng)化、智能化技術(shù)去實(shí)現(xiàn)檔案保管環(huán)境的自動(dòng)控制、檔案實(shí)體的自動(dòng)跟蹤、檔案裝具的自動(dòng)移動(dòng)、檔案信息系統(tǒng)的自動(dòng)集成與升級(jí)、檔案工作業(yè)務(wù)流程的自動(dòng)整合與再造等??傊?,其側(cè)重的是檔案館(室)的外在管理或物理管理,即:溫濕度及有毒有害氣體的管理、自動(dòng)報(bào)警、自動(dòng)滅火;案卷和資料的自動(dòng)跟蹤、自動(dòng)調(diào)取、自動(dòng)歸還;人流與物流的自動(dòng)監(jiān)控;信息流的順暢便捷等。但是,我所提出的智慧檔案館(室),卻不是這樣的。 我所說的智慧檔案館(室),首先應(yīng)該把檔案或檔案數(shù)字化圖像的內(nèi)容全文輸入電腦,即把檔案全部“數(shù)據(jù)化”,讓檔案內(nèi)容全都變成可被電腦全文檢索、任意組合、全部關(guān)聯(lián)、重新生成、主動(dòng)推送的數(shù)據(jù),使檔案里所包含的智慧,經(jīng)過電腦處理,成為人類智慧的一部分,成為人的外腦;其次,它也能對(duì)檔案實(shí)體、檔案裝具、檔案環(huán)境、檔案人流、檔案工作各環(huán)節(jié)等進(jìn)行智能化、自動(dòng)化、聯(lián)動(dòng)化的管理。它所側(cè)重的是檔案內(nèi)容的智慧性攝取或智慧管理、知識(shí)管理。智慧檔案館是繼傳統(tǒng)檔案館(室)及數(shù)字檔案館(室)之后的第三代檔案館(室),是檔案館(室)的3.0版。它可以說是目前已建設(shè)了20多年的數(shù)字檔案館(室)的升級(jí)版,也可以說是已開展了30多年的檔案信息化的升級(jí)版。 為什么說智慧檔案館(室)是對(duì)數(shù)字檔案館(室)的升級(jí)呢?根本原因在于數(shù)字檔案館(室)對(duì)傳統(tǒng)的紙質(zhì)檔案進(jìn)行圖像掃描,每頁檔案只是一張可供閱讀的圖像,每件檔案只有題名、形成者、形成時(shí)間、主題詞或關(guān)鍵詞等信息是可由電腦編輯處理的數(shù)據(jù),而大量的掃描圖像都是不可編輯的,檔案的全文內(nèi)容仍要人工來閱讀、檢索、組合、分析、挖掘。而智慧檔案館(室)的所有文字記錄的檔案甚至聲像檔案,都已經(jīng)經(jīng)過識(shí)別或轉(zhuǎn)換成了電腦可檢索的電子文檔,所有文字都已經(jīng)被輸入電腦,成為電腦可用大數(shù)據(jù)挖掘技術(shù)任意處理的信息或數(shù)據(jù)。這是數(shù)字檔案館(室)和智慧檔案館(室)的根本區(qū)別所在,也是智慧檔案館(室)比之?dāng)?shù)字檔案館(室)堪稱升級(jí)換代的原因所在。 為什么說智慧檔案館(室)也是對(duì)檔案信息化的升級(jí)呢?我們先看看信息和智慧兩個(gè)詞的含義。在現(xiàn)代科學(xué)中,信息指事物發(fā)出的消息、指令、數(shù)據(jù)、符號(hào)等所包含的內(nèi)容。而智慧則主要指人辨析判斷、發(fā)明創(chuàng)造的能力,它是一種高級(jí)的綜合能力,包含感知、記憶、理解、聯(lián)想、邏輯、辨別、計(jì)算、分析、判斷、決定等多種能力。從這兩個(gè)詞的含義當(dāng)中我們可以看出:信息是比較低層次的東西,只表示事物的客觀狀態(tài);而智慧則是比信息層次更高的東西,它包含了對(duì)事物狀態(tài)的理解、聯(lián)想、邏輯、分析、判斷、決定等更深刻、更高一級(jí)的認(rèn)知?;蛘哒f,信息只是未經(jīng)處理的數(shù)據(jù),智慧則是對(duì)數(shù)據(jù)進(jìn)行加工處理,具有了邏輯性、關(guān)聯(lián)性、推理性、創(chuàng)造性等,已經(jīng)不等于原來的信息了。智慧是綜合處理后的信息,是互相關(guān)聯(lián)的信息,是重新生成的信息,是處理了的、加工過的、升級(jí)了的信息。如果打個(gè)比方,信息是面粉,而智慧則是面粉做成的饅頭、包子、餃子、面包等面粉加工品;信息是大米,而智慧則是大米做成的米飯、米線、年糕、發(fā)糕等大米加工品。這就是信息和智慧的區(qū)別所在,是檔案信息化和智慧檔案館(室)的根本區(qū)別所在,也是智慧檔案館(室)比之檔案信息化堪稱升級(jí)換代的原因所在。 從智慧和信息的區(qū)別來看,信息基本相當(dāng)于數(shù)據(jù)。數(shù)據(jù)的含義是進(jìn)行各種統(tǒng)計(jì)、計(jì)算、科學(xué)研究和技術(shù)設(shè)計(jì)所依據(jù)的數(shù)值,是事實(shí)或觀察的結(jié)果,是用于表示客觀事物的未經(jīng)加工的原始素材,并被認(rèn)為是信息的表現(xiàn)形式和載體。所以,數(shù)據(jù)基本上跟信息是一樣的東西。隨著大數(shù)據(jù)技術(shù)的出現(xiàn),現(xiàn)在數(shù)據(jù)一詞很流行,幾乎和信息一詞在20世紀(jì)80年代的流行程度一樣。彼時(shí)是無事物無信息,現(xiàn)今則是無事物無數(shù)據(jù);彼時(shí)是信息一詞泛化,而現(xiàn)今又是數(shù)據(jù)一詞泛化。 智慧檔案館(室)首先要把檔案數(shù)據(jù)化或信息化。檔案數(shù)據(jù)化是相對(duì)于之前的檔案數(shù)字化而言的,是我在2019年的一次講話中為了區(qū)別于此前人們常說的檔案數(shù)字化而提出來的。其實(shí),它的意思就是把紙質(zhì)檔案或紙質(zhì)檔案數(shù)字化圖像中的每個(gè)字都轉(zhuǎn)換成電腦可以處理的數(shù)據(jù)或信息,并輸入電腦,進(jìn)入數(shù)據(jù)庫,供人們通過大數(shù)據(jù)技術(shù)進(jìn)行挖掘和處理。數(shù)據(jù)是智慧檔案館(室)的基礎(chǔ)。沒有數(shù)據(jù),特別是沒有檔案內(nèi)容的所有數(shù)據(jù),就不能把數(shù)據(jù)或信息變成智慧。也可以說,智慧檔案館(室)是基于數(shù)據(jù)的,有了數(shù)據(jù)和各種數(shù)據(jù)處理技術(shù),才有智慧檔案館(室)。所以,沒有數(shù)據(jù)就談不上建設(shè)智慧檔案館(室)。 智慧檔案館(室)的數(shù)據(jù)應(yīng)包括電腦可檢索的檔案全文數(shù)據(jù),即:信息流數(shù)據(jù);檔案實(shí)體、檔案裝具、檔案設(shè)備等方面的數(shù)據(jù),即物流數(shù)據(jù);檔案工作者、檔案利用者、檔案參觀者等方面的數(shù)據(jù),即人流數(shù)據(jù);檔案庫房溫度、濕度及各種有毒有害氣體濃度,水、火、菌、蟲、鼠等各種環(huán)境或條件的數(shù)據(jù),即環(huán)境數(shù)據(jù)。也就是說,“智慧檔案館(室)的數(shù)據(jù)=檔案全文數(shù)據(jù)+物流數(shù)據(jù)+人流數(shù)據(jù)+環(huán)境數(shù)據(jù)”。在這些數(shù)據(jù)中,檔案全文數(shù)據(jù)是最關(guān)鍵、最重要、最根本、具有決定性的部分。建設(shè)智慧檔案館(室),最重要的是運(yùn)用各種手段盡快地把紙質(zhì)檔案和紙質(zhì)檔案數(shù)字化圖像及錄音錄像檔案等全部轉(zhuǎn)化為電腦可以檢索的電子文檔,把檔案里的前人智慧挖掘出來,轉(zhuǎn)化為今人的智慧,這就是檔案數(shù)據(jù)化,即檔案的數(shù)據(jù)轉(zhuǎn)化工作。檔案數(shù)據(jù)化是智慧檔案館(室)建設(shè)的要義和核心。 目前,檔案數(shù)據(jù)化或是把檔案由文字、聲音轉(zhuǎn)化為數(shù)據(jù)的途徑至少有以下幾種:第一種,對(duì)原件上文字為鉛排、打印的紙質(zhì)檔案以及原件上文字雖然手寫但又十分工整的檔案,用?OCR?識(shí)別技術(shù)進(jìn)行轉(zhuǎn)化,其準(zhǔn)確率可在99%以上;第二種,對(duì)原件上文字為手寫且?OCR?技術(shù)不易識(shí)別的檔案,用特殊的手寫字識(shí)別技術(shù)進(jìn)行轉(zhuǎn)化,其準(zhǔn)確率目前最高可達(dá)95%左右;第三種,用人工錄入電腦的辦法轉(zhuǎn)化;第四種,用人工朗讀文字并通過音頻技術(shù)把聲音轉(zhuǎn)換成文字,其準(zhǔn)確率也可達(dá)95%左右。需要指出的是,目前這4種轉(zhuǎn)化方式都需要人工進(jìn)行校核,都不能100%準(zhǔn)確。在轉(zhuǎn)化過程中,文字能全部準(zhǔn)確轉(zhuǎn)化出來最好,如不能也不要緊。因?yàn)闄n案中并不是每個(gè)字都具有數(shù)據(jù)意義或檢索價(jià)值的,有的虛詞、連接詞、形容詞、裝飾詞、重復(fù)強(qiáng)調(diào)語等,即使這些字轉(zhuǎn)化不出來或不準(zhǔn)確,也并不會(huì)太大影響整份檔案的實(shí)際應(yīng)用。對(duì)全文數(shù)據(jù)來說,當(dāng)然是越多越好,但也不是每個(gè)字都不能少,或少一個(gè)字就不行。舉一個(gè)例子:“張建國(guó),他出生于一九四九年,也就是新中國(guó)成立的那一年。”這句話共24個(gè)字,但真正具有實(shí)際檢索意義的,只有“張建國(guó),一九四九年出生”這10個(gè)字。只要把這10個(gè)關(guān)鍵的字轉(zhuǎn)化出來了,這句話的基本意思或基本要素、主要信息、核心要義就有了,其他14個(gè)字,也就是一半以上的部分,能轉(zhuǎn)化出來當(dāng)然更好,即使不能轉(zhuǎn)化出來也不太影響全句主要意思和基本信息的表達(dá)。因此,現(xiàn)有的各種數(shù)據(jù)轉(zhuǎn)化技術(shù)都可以先進(jìn)行應(yīng)用,并在應(yīng)用中不斷提高其轉(zhuǎn)化準(zhǔn)確率,而不必等到某種技術(shù)完全成熟了再去用。 智慧檔案館(室),光有數(shù)據(jù)還不行,還必須有數(shù)據(jù)挖掘和主動(dòng)推送技術(shù)。數(shù)據(jù)挖掘就是通過算法從數(shù)據(jù)庫的大量數(shù)據(jù)中展開搜索,找出隱含的、先前未知的、有潛在價(jià)值的信息。為實(shí)現(xiàn)上述目標(biāo),需要利用統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識(shí)別、人工智能、可視化等多種技術(shù)手段。數(shù)據(jù)挖掘是通過分析每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中找出規(guī)律、找出相互聯(lián)系、找出因果關(guān)系的技術(shù)。它有3個(gè)步驟:第一步是數(shù)據(jù)準(zhǔn)備;第二步是對(duì)規(guī)律和關(guān)系的尋找;第三步是規(guī)律和關(guān)系的表示。數(shù)據(jù)挖掘的主要任務(wù)是分析,比如關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析、演變分析等。由此看來,數(shù)據(jù)挖掘技術(shù)實(shí)際上就是對(duì)大數(shù)據(jù)進(jìn)行智慧性處理的技術(shù),是把信息變成智慧的技術(shù),是讓蘊(yùn)含在檔案里的智慧更加顯性、更加集中、更加智慧的技術(shù)。通過數(shù)據(jù)挖掘技術(shù),能夠挖掘出檔案的潛在價(jià)值和潛在用戶,挖掘出用戶的潛在需求,從而大大提高檔案的價(jià)值。更為重要的是還能對(duì)挖掘出來的數(shù)據(jù)進(jìn)行關(guān)聯(lián)性推送、自主推送、定向推送,這就是主動(dòng)推送技術(shù)。如果說檔案全文數(shù)據(jù)是建立智慧檔案館(室)的基礎(chǔ)和前提,那么,數(shù)據(jù)挖掘與主動(dòng)推送技術(shù)就是建立智慧檔案館(室)的核心和關(guān)鍵。如果說,智慧檔案館(室)的全部要素要是100分的話,那么在我看來,檔案全文數(shù)據(jù)和數(shù)據(jù)挖掘、主動(dòng)推送技術(shù),二者要各占40分,其他各種要素加起來也就只占20分。因?yàn)槠渌卮蠖嘣跀?shù)字檔案館(室)中已經(jīng)具備了,有的甚至還會(huì)成為冗余,需要增加的新技術(shù)既不太多也不太難,而且更不是關(guān)鍵。 為什么說在智慧檔案館(室)中檔案全文數(shù)據(jù)和數(shù)據(jù)挖掘及主動(dòng)推送技術(shù)缺一不可呢?因?yàn)橹挥袛?shù)據(jù)的檔案館(室)還不能稱為智慧檔案館(室),也還不是真正的智慧檔案館(室)。數(shù)據(jù)只 是信息,沒有數(shù)據(jù)挖掘技術(shù)去處理它,它仍然成不了智慧,或者說稱不上是真正的智慧。必須依靠數(shù)據(jù)挖掘技術(shù),通過各種具有針對(duì)性的算法,對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析、聚類或分類分析、異常或異類分析、演變分析、對(duì)比分析等,才能讓數(shù)據(jù)產(chǎn)生關(guān)聯(lián),形成聯(lián)系和連接,形成趨勢(shì)和走向,看出規(guī)律和變異,從而生成經(jīng)過加工、集合、升華的新信息,甚至作出判斷和備選方案,變成智慧。沒有數(shù)據(jù)挖掘與自主推送技術(shù),數(shù)據(jù)就只是孤島,只是孤零零的數(shù)字或文字。打個(gè)比方,數(shù)據(jù)是米,數(shù)據(jù)挖掘與主動(dòng)推送技術(shù)是廚師,只有米而沒有廚師,就做不出香噴噴的米飯;再打個(gè)比方,數(shù)據(jù)是線,數(shù)據(jù)挖掘與自主推送技術(shù)是繡娘,沒有繡娘,就繡不出好看的繡品。離開數(shù)據(jù)挖掘與主動(dòng)推送技術(shù),數(shù)據(jù)永遠(yuǎn)是一;而有了數(shù)據(jù)挖掘與主動(dòng)推送技術(shù),它就能夠問一知十、問一知百,甚至知千知萬,而且還主動(dòng)告訴你,自動(dòng)推送給你,有針對(duì)性地推薦給你。因?yàn)樗褜⑾嚓P(guān)的數(shù)據(jù)和你以往的利用喜好、利用需求聯(lián)接起來了。比如,我們從網(wǎng)上查一個(gè)人的簡(jiǎn)歷,不但可以找到這個(gè)人的簡(jiǎn)歷,這個(gè)人所有在網(wǎng)絡(luò)中的文章、講話內(nèi)容、活動(dòng)、照片、音頻、視頻等,也會(huì)一同被顯示出來,甚至包括跟他同名的人、同職務(wù)的人、有關(guān)聯(lián)的人的信息也可以被呈現(xiàn)出來。這和數(shù)字檔案館(室)是有很大不同的。數(shù)字檔案館(室)是不查不知、查一知一的,而智慧檔案館(室)則是一查就全知,查一而知道所有或很多的。而這個(gè)差異,主要就是由數(shù)據(jù)挖掘與主動(dòng)推送技術(shù)造成的。當(dāng)然,除了數(shù)據(jù)和數(shù)據(jù)挖掘與推送技術(shù)外,智慧檔案館(室)還應(yīng)該有數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)傳輸?shù)刃滦图夹g(shù)和設(shè)備作為支撐。 綜上所述,我們就可以知道“智慧檔案館(室)=檔案全文數(shù)據(jù)+數(shù)據(jù)挖掘與推送技術(shù)+數(shù)據(jù)采集系統(tǒng)+數(shù)據(jù)存儲(chǔ)系統(tǒng)+數(shù)據(jù)傳輸系統(tǒng)”。智慧檔案館(室)必須有3個(gè)要素:一是以檔案全文數(shù)據(jù)為核心,包括其他各種檔案業(yè)務(wù)和檔案工作數(shù)據(jù)的大數(shù)據(jù);二是以數(shù)據(jù)挖掘與主動(dòng)推送技術(shù)為核心,包括數(shù)據(jù)采集、數(shù)據(jù)感知、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)傳輸?shù)鹊臄?shù)據(jù)處理及主動(dòng)推送技術(shù);三是可以將檔案實(shí)體、檔案裝具、檔案環(huán)境、檔案業(yè)務(wù)系統(tǒng)、檔案人員、檔案利用者連接起來的物聯(lián)網(wǎng)系統(tǒng)。所以,也可以說“智慧檔案館=檔案數(shù)據(jù)+數(shù)據(jù)挖掘與推送技術(shù)+物聯(lián)網(wǎng)”。這就是我所理解的智慧檔案館(室),它和現(xiàn)在其他人所提出、所理解、所認(rèn)為、所定義的智慧檔案館(室)不同之處有3點(diǎn):一是強(qiáng)調(diào)了檔案的全文數(shù)據(jù)化,而別人沒提到。二是強(qiáng)調(diào)了數(shù)據(jù)挖掘與主動(dòng)推送技術(shù),別人也沒提到。這兩點(diǎn)我認(rèn)為是智慧檔案館(室)的主要標(biāo)志和主要內(nèi)容,是智慧檔案館(室)的靈魂和核心,沒有這兩點(diǎn),智慧檔案館(室)是不充分的、名不符實(shí)的。三是別人強(qiáng)調(diào)了對(duì)檔案實(shí)體的自動(dòng)調(diào)取、跟蹤監(jiān)控,對(duì)檔案柜架的自主移動(dòng)、自動(dòng)開閉,對(duì)檔案保管環(huán)境的自動(dòng)監(jiān)控、自主調(diào)節(jié)等,而我認(rèn)為在智慧檔案館(室)中,這些并不是必要的,有些甚至還是冗余的。
| |
二、為什么現(xiàn)在要建設(shè)智慧檔案館(室) | |
我們?yōu)槭裁船F(xiàn)在要迫切地提出建設(shè)智慧檔案館(室)呢?因?yàn)楝F(xiàn)在有著5個(gè)方面的有利條件和現(xiàn)實(shí)基礎(chǔ)。 1.智慧社會(huì)的到來,為智慧檔案館(室)建設(shè)營(yíng)造了外部環(huán)境 “智慧社會(huì)”的提法,源于IBM在2008年11月提出的“智慧地球”的概念,2009年時(shí)任美國(guó)總統(tǒng)奧巴馬運(yùn)用了這個(gè)提法后,這個(gè)概念迅速躥紅。它包括三個(gè)要素,即物聯(lián)化、互聯(lián)化、智能化。這個(gè)概念提出后,很多城市又提出了“智慧城市”的概念,并開始了智慧城市的建設(shè)和評(píng)選,我國(guó)的許多城市就在積極地建設(shè)智慧型城市。2019年我在雄安看到了無人駕駛汽車、無人酒店、無人超市等,切切實(shí)實(shí)地感受到了智慧城市的雛形。伴隨著智慧城市的還有智慧小區(qū)、智慧樓宇、智慧家居等。此外,智慧教育、智慧交通、智慧醫(yī)療、智慧司法、智慧旅游、智慧人文、智慧物流等也已經(jīng)撲面而來,各行各業(yè)、方方面面都在以智慧為引領(lǐng),推進(jìn)智能化建設(shè)。正是在此基礎(chǔ)上,黨的十九大提出了“智慧社會(huì)”這一新的理念,智慧社會(huì)的到來為智慧檔案館(室)建設(shè)營(yíng)造了很好的社會(huì)環(huán)境,同時(shí)也增添了現(xiàn)實(shí)的迫切性。 2.人工智能和數(shù)據(jù)挖掘推送為智慧檔案館(室)提供了關(guān)鍵技術(shù) (1)先看人工智能技術(shù) 最近幾年我們先后看到,“阿爾法狗”這款智能人工軟件,先是在2017年以4:1戰(zhàn)勝了前世界圍棋第一人李世石九段。這是人工智能研究的一個(gè)標(biāo)志性成就和里程碑式事件。之后,它又在2018年擊敗了史上最年輕的“五冠王”、中國(guó)圍棋九段職業(yè)棋手柯潔,再次顯示了人工智能的威力。緊接著,在中央電視臺(tái)“中國(guó)詩詞大會(huì)”節(jié)目中出現(xiàn)了一款輸入了幾萬首詩詞的機(jī)器人,與詩詞高手們同臺(tái)競(jìng)賽,主持人任意出一個(gè)詩題,機(jī)器人都能根據(jù)題意寫出詩來,而且水平不亞于人類,與同臺(tái)選手的寫詩水平難分伯仲。同樣在2018年,我國(guó)應(yīng)用了機(jī)器人播音。它能模仿任何人進(jìn)行播音,只要把某人的聲音和影像資料輸進(jìn)去,它就能模仿這個(gè)人進(jìn)行播音,其動(dòng)作、表情、聲音都惟妙惟肖?,F(xiàn)在,科大訊飛可以根據(jù)聲紋來讓機(jī)器人模仿任何人的聲音,只要輸入不到一分鐘的真人聲音,機(jī)器人即可模仿出可以亂真的模擬聲音。 2019年11月,司法部在南京召開有關(guān)“智慧司法”的會(huì)議,重慶市司法局展示了法律服務(wù)智能機(jī)器人“大牛”,它的服務(wù)速度和準(zhǔn)確度已多次戰(zhàn)勝人類律師。最近我在參觀科大訊飛時(shí)得知,他們研制的智能機(jī)器人參加律師資格考試,竟然勝過90%以上的人類考生;智能機(jī)器人教師能夠批改考試卷,并且比人類教師批改得更加客觀公正,其評(píng)分一致率在中考試卷評(píng)分中普遍高于人類教師5%左右,在高考試卷評(píng)分中普遍高于人類教師10%左右;智能機(jī)器人醫(yī)生的診斷水平也高于很多人類醫(yī)生,因而被推薦到全國(guó)很多基層醫(yī)院做醫(yī)生助手使用。 由上可見,人工智能技術(shù)的發(fā)展,已使得機(jī)器人不但具有“智慧”,而且具有高于人類平均水平或高于普通人的“智慧”。以前,我們以為機(jī)器人只能干體力活,不能干智力活,但現(xiàn)在人工智能技術(shù)的發(fā)展,已經(jīng)打破我們的這個(gè)認(rèn)識(shí)。 (2)再看數(shù)據(jù)挖掘推送技術(shù) 近年來,我切實(shí)感受到數(shù)據(jù)挖掘推送技術(shù)的發(fā)展。它不但挖掘出很多新信息,而且還定向地、主動(dòng)地向人進(jìn)行推送。比如,我用手機(jī)和電腦錄入文字,剛輸入一個(gè)字,輸入法軟件就會(huì)彈出由這個(gè)字組成的所有詞或詞組供我選擇;我用搜索引擎查某個(gè)詞,也會(huì)出來一連串與之相關(guān)聯(lián)的自動(dòng)推送。為什么在新聞?lì)怉pp上會(huì)有很多我想看的消息?那是App?根據(jù)我過去的閱讀內(nèi)容、閱讀習(xí)慣而主動(dòng)推送給我的。這些都是運(yùn)用算法等數(shù)據(jù)挖掘推送技術(shù)來完成的。 定向推送技術(shù)最知名的應(yīng)用是所謂“俄羅斯干預(yù)美國(guó)大選”。據(jù)說俄羅斯運(yùn)用定向推送技術(shù),向美國(guó)各種不同的人群,定向地、主動(dòng)地推送美國(guó)總統(tǒng)候選人有關(guān)信息,對(duì)選民進(jìn)行“洗腦”和引導(dǎo),影響選民對(duì)候選人的好惡。 由上可見,數(shù)據(jù)挖掘與推送技術(shù)發(fā)展得也出乎想象地快,應(yīng)用得也出乎意料地普遍。今天,可能我們一不小心就會(huì)被別人“定向推送”,并加以左右甚至成功“洗腦”了。 人工智能技術(shù)也好,數(shù)據(jù)挖掘推送技術(shù)也好,都是把數(shù)據(jù)變成智慧的技術(shù)。這些技術(shù)的應(yīng)用和發(fā)展,為建設(shè)智慧檔案館(室)提供了關(guān)鍵性的技術(shù),讓智慧檔案館(室)不再是一個(gè)空話或標(biāo)簽,而是能夠變成現(xiàn)實(shí)、得以實(shí)現(xiàn)、成為實(shí)際。在它們沒有出現(xiàn)的時(shí)候,人們講智慧檔案館(室),只能是表面的、淺層次的、名義上的,甚至是誤讀的,而當(dāng)它們出現(xiàn)以后,建設(shè)智慧檔案館(室)就可以名副其實(shí)了,可以建成實(shí)質(zhì)意義上的智慧檔案館(室)。這些技術(shù)的出現(xiàn),是我這兩年開始提出建設(shè)智慧檔案館(室)的一個(gè)重要主因。 3.信息識(shí)別轉(zhuǎn)化為智慧檔案館(室)建設(shè)提供了技術(shù)手段 以前,傳統(tǒng)的紙質(zhì)和聲像檔案要轉(zhuǎn)化為電腦可檢索的數(shù)據(jù),實(shí)現(xiàn)手段只有一個(gè)—?人工輸入電腦。盡管有漢語拼音輸入、筆畫輸入、手寫輸入等方法,但輸入速度都比較慢。之后,又不斷地發(fā)展出一些新的信息識(shí)別轉(zhuǎn)化技術(shù)。 (1)OCR識(shí)別技術(shù) 目前只能用于印刷體或手寫特別工整的文字,其識(shí)別率可達(dá)99%以上。一頁印刷的或手寫工整的檔案掃描進(jìn)電腦,通過軟件即可把它轉(zhuǎn)化成電腦可以檢索的文字。前提是檔案頁面要整潔,沒有凌亂的筆畫,否則識(shí)別率就會(huì)降低。 (2)手寫字掃描識(shí)別技術(shù) 為了解決?OCR?技術(shù)識(shí)別不了手寫檔案的問題,人們又專門研究出手寫字的掃描識(shí)別技術(shù)。據(jù)我所知,科大訊飛的掃描識(shí)別技術(shù)在識(shí)別民國(guó)檔案上的繁體手寫字時(shí),準(zhǔn)確率已可達(dá)80%以上。銀雁科技的簡(jiǎn)體手寫字識(shí)別技術(shù)的準(zhǔn)確率也能達(dá)90%左右。前幾年,中國(guó)科學(xué)院自動(dòng)化研究所的掃描識(shí)別技術(shù)在掃描識(shí)別快遞上的簡(jiǎn)體手寫字時(shí),準(zhǔn)確率已可達(dá)95%以上。隨著掃描識(shí)別的不斷積累,識(shí)別率肯定還會(huì)繼續(xù)地不斷提高,將來一定能達(dá)到目前??OCR??對(duì)印刷體字的識(shí)別水平。 (3)聲音轉(zhuǎn)化文字技術(shù) 也就是通過人來讀檔案,機(jī)器再把人的聲音轉(zhuǎn)化成文字。只要讀音準(zhǔn)確,機(jī)器基本能“聽聲出字”,準(zhǔn)確率也很高,它的速度是電腦手工輸入的一倍以上。前不久,我在科大訊飛目睹了一場(chǎng)“嘴”和“手”的比賽:國(guó)內(nèi)一些數(shù)字化公司的錄入快手之間先進(jìn)行比賽,產(chǎn)生的冠軍再與訊飛的聲音錄入員比賽,結(jié)果“人嘴”完勝了“人手”,聲音轉(zhuǎn)化文字的速度大大快于計(jì)算機(jī)手工錄入文字的速度。 (4)人臉識(shí)別技術(shù) 主要是根據(jù)人的面部特征,把照片、錄像中的人物識(shí)別出是誰來。 智慧檔案館(室)建設(shè),關(guān)鍵在于建立檔案全文數(shù)據(jù);建立檔案全文數(shù)據(jù),關(guān)鍵又在于把檔案里電腦不能檢索的文字、聲音、圖像,轉(zhuǎn)化成可檢索的數(shù)據(jù)。當(dāng)有了以上這些途徑的識(shí)別轉(zhuǎn)化技術(shù)以后,檔案數(shù)據(jù)化就不再是不可能的了,而是變成完全可能了。這些技術(shù)的應(yīng)用和發(fā)展,也是我在今天提出建設(shè)智慧檔案館(室)的又一個(gè)主要原因。 4.檔案行業(yè)對(duì)建設(shè)智慧檔案館(室)有了更高的積極性,使智慧檔案館(室)建設(shè)有了實(shí)現(xiàn)主體 從檔案部門來說,有些檔案室十幾年前就通過手工錄入的方法,對(duì)檔案進(jìn)行了“數(shù)據(jù)化”,把檔案中的所有文字轉(zhuǎn)化成了電腦可以檢索的數(shù)據(jù)。只可惜那時(shí)尚無數(shù)據(jù)挖掘技術(shù),因而未對(duì)這些數(shù)據(jù)進(jìn)行智慧性開發(fā)、關(guān)聯(lián)性挖掘和自主式推送。2014年以來,浙江省和其他一些地方的檔案館(室)在數(shù)字檔案館(室)的基礎(chǔ)上,對(duì)檔案實(shí)體、檔案保管條件等方面進(jìn)行智能化、自動(dòng)化管理,進(jìn)行了他們所自定義的智慧檔案館(室)建設(shè)。 從檔案服務(wù)企業(yè)來說,科大訊飛2018年以來分別同國(guó)家檔案局、浙江省檔案館等單位簽署了包括人工智能應(yīng)用等“智慧檔案”建設(shè)在內(nèi)的戰(zhàn)略合作協(xié)議,并在相關(guān)檔案館進(jìn)行了紙質(zhì)檔案數(shù)據(jù)化建設(shè)的試驗(yàn)。還有一些檔案服務(wù)企業(yè),最近幾年也提出了基于檔案實(shí)體自動(dòng)化跟蹤和管理、檔案裝具自動(dòng)性移動(dòng)、檔案溫濕度自動(dòng)控制、檔案安全自動(dòng)報(bào)警等的所謂“智慧服務(wù)”。 檔案館(室)的積極性會(huì)帶動(dòng)起檔案服務(wù)企業(yè)的積極性和創(chuàng)造性。因?yàn)闄n案館(室)有建設(shè)智慧檔案的積極性,則會(huì)產(chǎn)生智慧檔案的需求;智慧檔案的需求,則會(huì)引發(fā)檔案服務(wù)企業(yè)產(chǎn)生積極性,引導(dǎo)企業(yè)的技術(shù)和人力向這個(gè)方面發(fā)展、向這個(gè)方向投入。檔案館(室)是需方,他們有需求,但缺技術(shù)、缺人力;檔案服務(wù)企業(yè)是供方,他們有技術(shù)、有人力,但缺市場(chǎng)、缺用武之地。現(xiàn)在,需方和供方這雙方都產(chǎn)生了并且雙方都有積極性,就可以自然結(jié)合、互利共贏。他們的結(jié)合,可以很快讓智慧檔案變成現(xiàn)實(shí),讓智慧檔案館(室)建設(shè)起步、起飛。他們的積極性,讓我看到了智慧檔案館(室)建設(shè)的可行性和現(xiàn)實(shí)性。 5.在推進(jìn)紙質(zhì)檔案數(shù)字化的過程中,不厘清思路將造成人力和財(cái)力的浪費(fèi) 檔案數(shù)據(jù)化之于檔案數(shù)字化,智慧檔案館(室)之于數(shù)字檔案館(室),是迭代式的更新和發(fā)展,是覆蓋性的提高和增強(qiáng),是管理方式的根本性變化、轉(zhuǎn)向性發(fā)展。不少工作在數(shù)字檔案館(室)建設(shè)中是必要項(xiàng),而在智慧檔案館(室)中則會(huì)成為非必要項(xiàng),成為閑置的、冗余的、無用的東西。如果我們盡早開展檔案數(shù)據(jù)化,則可以不做這些不久將會(huì)無用的工作,避免不必要的人力、物力和時(shí)間的浪費(fèi)。比如,我在2019年年底到一個(gè)省級(jí)檔案館參觀時(shí),看到他們正在大規(guī)模地開展檔案數(shù)字化,其中有幾十個(gè)人都在搞檔案題名的著錄。但是在智慧檔案條件下,檔案已經(jīng)全文數(shù)據(jù)化,每個(gè)字都可以供電腦任意檢索了,現(xiàn)在著錄的題名、責(zé)任者、文種、形成時(shí)間等,就沒有單獨(dú)存在的意義了,因?yàn)樗呀?jīng)包含在全文數(shù)據(jù)當(dāng)中了。一份檔案的每句話、每個(gè)詞、每個(gè)字,都可被檢索出來,無需人工再去重新擬寫標(biāo)題并著錄各項(xiàng)主要內(nèi)容。前不久,在一次觀看人工著錄標(biāo)題與錄音轉(zhuǎn)化著錄標(biāo)題的比賽時(shí),主持人曾問我,這種人工著錄標(biāo)題將來的前景怎樣?我就回答了3個(gè)字:“會(huì)消失!”因?yàn)闄n案全文數(shù)據(jù)化后,就無需再做現(xiàn)在這些費(fèi)時(shí)費(fèi)力的標(biāo)題著錄工作了。還有一些檔案館(室)熱衷于搞檔案實(shí)體的自動(dòng)跟蹤、監(jiān)控和管理,在這方面花人力、花時(shí)間、花經(jīng)費(fèi),其實(shí)也大可不必。因?yàn)闄n案數(shù)字化或數(shù)據(jù)化以后,紙質(zhì)檔案實(shí)體應(yīng)全部進(jìn)入封存狀態(tài),一般情況下,在庫房?jī)?nèi)不會(huì)再移動(dòng),無需再去自動(dòng)跟蹤、監(jiān)視、管理它。所以,人們今天正在費(fèi)人、費(fèi)力、費(fèi)錢去做的一些事,將在檔案數(shù)據(jù)化后失去意義。因此,各個(gè)檔案館(室)越早開展檔案數(shù)據(jù)化工作,就越能避免更多重復(fù)勞動(dòng)或無效勞動(dòng),越能避免花更多冤枉錢,越能更好地提高我們的工作水平。 以上這些,都為智慧檔案館(室)建設(shè)提供了各方面的條件,使智慧檔案館(室)建設(shè)具有了現(xiàn)實(shí)的可行性,也有了實(shí)際的可操作性,甚至還有了緊迫性。因?yàn)椤爸腔刍笔悄壳暗拇髣?shì)所趨,已不得不行。因此,智慧檔案應(yīng)該是我國(guó)檔案館(室)建設(shè)和檔案事業(yè)發(fā)展的新方向、新目標(biāo)、新任務(wù)、新出路。 | |
三、怎樣建設(shè)智慧檔案館(室) | |
1.切實(shí)轉(zhuǎn)變思想觀念 轉(zhuǎn)變思想觀念是建設(shè)智慧檔案館(室)的第一步,沒有這一步就不可能建設(shè)智慧檔案館(室)。轉(zhuǎn)變思想觀念主要是要樹立以下幾種新觀念: (1)樹立數(shù)據(jù)越多越智慧的觀念 這是一種全新的思想觀念,是和我們過去的傳統(tǒng)觀念完全不同的新觀念。因?yàn)樵谟辛藬?shù)據(jù)處理技術(shù)后,數(shù)據(jù)越多就越接近事物的原貌和全貌,智能機(jī)器人就越智慧、越聰明,回答的問題和給出的方案就越準(zhǔn)確、越精確。比如,擁有1億個(gè)用戶的導(dǎo)航系統(tǒng),肯定比只有1000萬個(gè)用戶的導(dǎo)航系統(tǒng)更準(zhǔn)確;存有10萬首詩的機(jī)器人,肯定比只存有1萬首詩的機(jī)器人更會(huì)作詩;存有100年氣象檔案的機(jī)器人,肯定比只存有10年氣象檔案的機(jī)器人預(yù)報(bào)天氣更準(zhǔn)確。這就說明,數(shù)據(jù)越多越智慧。 (2)樹立數(shù)據(jù)就是財(cái)富的觀念 早在2014年,我參觀阿里巴巴公司時(shí),相關(guān)負(fù)責(zé)人就告訴我:“對(duì)我們來說,數(shù)據(jù)不是包袱,而是財(cái)富?!蔽艺J(rèn)為,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)對(duì)任何單位都是正資產(chǎn)而不是負(fù)資產(chǎn),都是一筆財(cái)富而不是一個(gè)包袱。數(shù)據(jù)越多就越智慧、越有價(jià)值、越是真正的財(cái)富。為什么現(xiàn)在有很多公司免費(fèi)讓你用它的軟件,實(shí)際上就是為了“攢數(shù)據(jù)”。擁有的數(shù)據(jù)越多,這家公司就越值錢,上市后的市值就越高,越有人向它投資。將來決定同類智能機(jī)器人誰更精確、誰更智慧、誰更值錢,主要是看誰輸入的數(shù)據(jù)更多。所以,數(shù)據(jù)就是財(cái)富,在今天不但是理念和口號(hào),而且是活生生的現(xiàn)實(shí),是我們過去所從未見過、從未認(rèn)識(shí)到的。 (3)樹立數(shù)據(jù)都是檔案的觀念 由于數(shù)據(jù)都是記錄,而記錄就是檔案,所以,數(shù)據(jù)也是檔案。檔案工作者必須盡早地認(rèn)識(shí)到數(shù)據(jù)都是檔案,盡早地把數(shù)據(jù)看作檔案,并把數(shù)據(jù)當(dāng)作檔案去收集、去管理、去服務(wù)。這樣,檔案館(室)才能不喪失數(shù)據(jù)并擁有數(shù)據(jù),檔案部門才能不被數(shù)據(jù)部門所取代。否則,檔案館(室)將失去最大量、最重要的檔案資源—數(shù)據(jù),檔案工作和檔案部門也將逐步被數(shù)據(jù)工作、數(shù)據(jù)部門所覆蓋并取代。 (4)樹立“數(shù)據(jù)=檔案=財(cái)富”的觀念 既然上面我已說到兩個(gè)等式:“數(shù)據(jù)=財(cái)富”“數(shù)據(jù)=檔案”,那么我們也可以推導(dǎo)出第三個(gè)等式:“檔案=財(cái)富”,并可以把這三者畫等號(hào),得出“數(shù)據(jù)=檔案=財(cái)富”的結(jié)論。在大數(shù)據(jù)時(shí)代、智能化時(shí)代、智慧時(shí)代,檔案工作者一定要樹立“數(shù)據(jù)=檔案=財(cái)富”的新觀念,不要再認(rèn)為數(shù)據(jù)不是檔案,也不要認(rèn)為數(shù)據(jù)和檔案不是財(cái)富。否則,檔案數(shù)據(jù)化和智慧檔案館(室)建設(shè)就缺少了理論依據(jù)和精神動(dòng)力,就會(huì)增加認(rèn)識(shí)上和行動(dòng)上的阻力。 (5)樹立合作開展檔案數(shù)據(jù)化和數(shù)據(jù)挖掘的觀念 有些檔案部門的同志,一想到檔案數(shù)據(jù)化工程那么巨大,一想到數(shù)據(jù)挖掘和主動(dòng)推送技術(shù)那么高深艱難,檔案部門又缺少這方面的人才,就會(huì)打退堂鼓,不敢去想,更不敢去干。實(shí)際上,這些工作大都可以外包出去,讓科技服務(wù)企業(yè)幫你去干,讓專家?guī)湍闳ジ桑踔粱ㄥX買相關(guān)的軟件和設(shè)備,組織人去干。這樣你還覺得難嗎?過去,檔案數(shù)字化或者說是數(shù)字檔案館(室)的建設(shè),不就是這么干起來、干出來的嗎?下一步的檔案數(shù)據(jù)化和數(shù)據(jù)挖掘推送,或者說是智慧檔案館(室)建設(shè),也完全可以這么干,甚至可以說也必然會(huì)這么去干。目前,有的公司有這樣的積極性,有的公司有這樣的現(xiàn)成技術(shù)和現(xiàn)成設(shè)備,只要有檔案館(室)愿意去做,馬上就會(huì)有人同你合作、幫你去干,直到幫你干成、幫你干好。 2.及時(shí)收集新形成的檔案數(shù)據(jù) 目前,在各個(gè)檔案形成單位,文字方面的檔案都是電子檔案,都可自動(dòng)成為電腦任意處理的數(shù)據(jù),但還有不少活動(dòng)還完全沒有記錄,或者雖有錄音、錄像等記錄,但沒有轉(zhuǎn)化為文字,沒有成為電腦可處理的數(shù)據(jù)。這就造成了新數(shù)據(jù)的缺失。不久前,我在科大訊飛看到了他們的一些設(shè)備,很適合于幫助各個(gè)檔案形成單位及時(shí)地收集今后所有新形成的檔案數(shù)據(jù)。比如,過去領(lǐng)導(dǎo)外出視察、調(diào)研活動(dòng)中的即席談話,無人錄音或錄像,這些談話的原始數(shù)據(jù)就隨即消失了,只能靠后人零星的回憶。而現(xiàn)在科大訊飛的錄音設(shè)備,讓領(lǐng)導(dǎo)裝在衣袋里或夾在衣服上,所有講話都錄下聲音來,形成錄音檔案,同時(shí)又由設(shè)備轉(zhuǎn)化成文字記錄,形成電子檔案。又比如,過去開會(huì),大多數(shù)靠人工記錄,每個(gè)人的講話都記錄不全,甚至記錄不準(zhǔn)。少數(shù)的有錄音甚至錄像,但錄音、錄像都沒有及時(shí)整理成文字,仍然不能成為電腦可以處理的數(shù)據(jù)。而現(xiàn)在科大訊飛的設(shè)備可以把錄音、錄像中的講話內(nèi)容,全部都轉(zhuǎn)化為文字,讓它成為電腦可處理的數(shù)據(jù)。再比如,一些檔案館搞口述史記錄,對(duì)相關(guān)人員進(jìn)行錄音、錄像,但這些聲音也沒有及時(shí)轉(zhuǎn)化成文字即電腦可處理的數(shù)據(jù)。他們也可借助科大訊飛的相關(guān)設(shè)備和技術(shù),及時(shí)把這些聲音全部轉(zhuǎn)化為文字記錄,轉(zhuǎn)化為數(shù)據(jù)。這也可以叫“智慧建立檔案”或“智慧收集檔案”吧!它可以幫助人們把檔案建立得更豐富,把數(shù)據(jù)搜集得更廣泛。 3.積極開展非電子檔案的數(shù)據(jù)化工作 目前,在絕大多數(shù)檔案館(室)中,紙質(zhì)檔案和音像檔案這些非電子檔案普遍都沒有開展數(shù)據(jù)化工作,即電腦可處理文字的轉(zhuǎn)化工作。而這是建設(shè)智慧檔案館(室)的前提和關(guān)鍵,也是工作量最大的一項(xiàng)工作,是最實(shí)的一招。各個(gè)檔案館(室)都要以最堅(jiān)定的信心、最大的力量去完成這項(xiàng)工作。 (1)紙質(zhì)檔案或其數(shù)字化圖像數(shù)據(jù)化 已開放檔案可以先搞數(shù)據(jù)化,因?yàn)樗梢酝獍o檔案數(shù)據(jù)化企業(yè)去做。涉密檔案可以先不搞數(shù)據(jù)化,有特殊需要的可采購(gòu)設(shè)備,用自己人去搞。紙質(zhì)檔案數(shù)據(jù)化,可以各種技術(shù)并用,可用?OCR?識(shí)別技術(shù)轉(zhuǎn)化的,則用?OCR?識(shí)別技術(shù)轉(zhuǎn)化成數(shù)據(jù),因?yàn)樗俣茸羁?,成本也最低。不能?OCR?識(shí)別的,還可用其他技術(shù)和方法去轉(zhuǎn)化,一種是手寫字識(shí)別技術(shù),即把手寫檔案掃描進(jìn)電腦,電腦通過軟件識(shí)別成它可處理的文字;另一種是聲音轉(zhuǎn)化技術(shù),即由人把手寫檔案中的每個(gè)字讀出準(zhǔn)確的讀音來,設(shè)備通過聲音轉(zhuǎn)化成文字即電腦可處理的數(shù)據(jù);再一種是電腦手工錄入技術(shù),即由錄入員把檔案上的文字通過拼音或字碼錄入電腦,轉(zhuǎn)化成文字。以上這4種方法,檔案館(室)可以根據(jù)自己的檔案情況和經(jīng)費(fèi)情況等,或單獨(dú)運(yùn)用,或聯(lián)合使用,或多種并用。只要咬定青山不放松,用釘釘子的精神,一年接著一年干,堅(jiān)持?jǐn)?shù)年,必有大成。 (2)音像檔案數(shù)據(jù)化 就是把錄音、錄像檔案中的聲音通過聲音識(shí)別轉(zhuǎn)化技術(shù)或軟件,全部自動(dòng)地轉(zhuǎn)化成文字即電腦可處理的數(shù)據(jù),并把它導(dǎo)入數(shù)據(jù)庫。這樣,音像檔案中的所有聲音內(nèi)容就可以全部數(shù)據(jù)化了。這項(xiàng)技術(shù)不但可以把音像檔案中的文字全部轉(zhuǎn)化為數(shù)據(jù),讓它成為人類智慧的一部分,而且還可以通過聲音識(shí)別并找出數(shù)據(jù)庫中某個(gè)人的所有聲音?,F(xiàn)在,很多年代久遠(yuǎn)的音像檔案中有些聲音已不知道發(fā)言者是誰了,但只要有一份音像檔案知道是誰的,設(shè)備就可以根據(jù)這個(gè)已知人的聲音,把他的其他音像檔案都識(shí)別出來,讓人們知道那些也是這個(gè)人講的。并且設(shè)備還可以根據(jù)文字找到聲音在檔案中的位置,利用者通過文字即數(shù)據(jù)內(nèi)容可隨即聽到某段聲音或看到某段錄像。 (3)照片、錄像檔案中的人物數(shù)據(jù)化 這是通過人臉識(shí)別技術(shù)來完成的。在很多過去的照片和影像中,有的人對(duì)得上名字,有的人則對(duì)不上名字,人物數(shù)據(jù)沒被挖掘出來?,F(xiàn)在,通過相關(guān)的人臉識(shí)別軟件,輸入電腦的所有照片和影像中的人物,只要有一處被對(duì)上過名字,那么該人物在其他所有場(chǎng)景中都可以被準(zhǔn)確地識(shí)別出來,并對(duì)上名字。這樣,照片檔案和影像檔案中的很多人物就被自動(dòng)識(shí)別出來了,“無名氏”就變成了“有名氏”,人物的數(shù)據(jù)就會(huì)大大地?cái)U(kuò)充,變得更為廣泛。 通過這幾方面工作,紙質(zhì)檔案、音像檔案、照片檔案中的信息就可以完成數(shù)據(jù)化,并進(jìn)入相應(yīng)的大數(shù)據(jù)庫,成為被電腦所挖掘和推送的數(shù)據(jù),成為智慧檔案館(室)的源頭和儲(chǔ)備。數(shù)據(jù)儲(chǔ)備越多,檔案館(室)就越智慧、越有價(jià)值。 4.廣泛收集數(shù)據(jù) 建設(shè)智慧檔案館(室),數(shù)據(jù)是基礎(chǔ)。各個(gè)檔案館(室)要運(yùn)用各種數(shù)據(jù)自動(dòng)收集技術(shù),廣泛收集各種數(shù)據(jù)。 (1)收集檔案內(nèi)容數(shù)據(jù) 也就是檔案的全文數(shù)據(jù)。要運(yùn)用各種技術(shù),把紙質(zhì)檔案、照片檔案、音像檔案中能夠轉(zhuǎn)化的,全部轉(zhuǎn)化為電腦可處理的數(shù)據(jù),并把它們同電子檔案數(shù)據(jù)匯合在一起,建立起檔案全文數(shù)據(jù)庫。這是基礎(chǔ),是重點(diǎn),是最要緊、最關(guān)鍵的數(shù)據(jù)。收集得越早越好,收集得越廣泛、越齊全越好。除檔案外,報(bào)紙、雜志、內(nèi)部出版物等資料的數(shù)據(jù)將來也可收集進(jìn)來,它們對(duì)檔案數(shù)據(jù)也是重要的補(bǔ)充。 (2)檔案實(shí)體數(shù)據(jù) 即檔案的編號(hào)、數(shù)量、位置、被移動(dòng)情況、被利用情況、損壞或修復(fù)情況等方面的數(shù)據(jù)。在智慧檔案館(室)里,檔案實(shí)體是基本不動(dòng)的,對(duì)它的監(jiān)控不需要太復(fù)雜,主要記錄它的位置、數(shù)量、動(dòng)用等就可以了。 (3)檔案環(huán)境數(shù)據(jù) 即檔案庫房的溫濕度、有毒有害氣體濃度、灰塵濃度、煙霧濃度等數(shù)據(jù)。這些數(shù)據(jù),各地可以因地制宜,主要收集有損檔案安全的主要數(shù)據(jù)。比如,一些溫濕度變化不足以影響檔案安全的地區(qū),就無需建立溫度和濕度的數(shù)據(jù)。 (4)人流數(shù)據(jù) 包括檔案工作者人數(shù)、檔案利用者人數(shù)、檔案參觀者人數(shù)、工作交流者人數(shù),以及他們的位置等。 (5)其他數(shù)據(jù) 比如,檔案裝具的數(shù)量及位置,庫房的數(shù)量及位置,工作用房和技術(shù)用房的數(shù)量及位置,檔案設(shè)施設(shè)備的數(shù)量、位置、年限等。 檔案館(室)只有把各方面數(shù)據(jù)都收集齊全,才能根據(jù)這些數(shù)據(jù)進(jìn)行智慧性管理。擁有以上這些數(shù)據(jù)后,通過利用大數(shù)據(jù)技術(shù)和物聯(lián)網(wǎng)系統(tǒng)就可以實(shí)現(xiàn)檔案館(室)中的信息與電腦、人與電腦、物品或設(shè)備與電腦,以及信息與信息、人與人、物與物、人與信息、人與物、信息與物等等之間的互聯(lián)互通、互感互知。 5.千方百計(jì)確保數(shù)據(jù)安全 有了數(shù)據(jù),還要用各種方法保證數(shù)據(jù)的安全。因?yàn)?,?shù)據(jù)是智慧檔案館(室)的靈魂,數(shù)據(jù)一旦丟失,檔案館(室)就只剩下外殼。 (1)對(duì)全部數(shù)據(jù)在異地備份一套以上 數(shù)據(jù)都是電子的,電子數(shù)據(jù)的最大弱點(diǎn)是不安全因素很多,安全系數(shù)比較低,安全風(fēng)險(xiǎn)比較大。為了確保它的安全,就要對(duì)它全部進(jìn)行異地備份,在幾百公里以外的多處地方備份保存一套以上,從而確保特殊情況導(dǎo)致數(shù)據(jù)丟失后,能有備份數(shù)據(jù)頂上來,不會(huì)造成數(shù)據(jù)的“全軍覆沒”。 (2)應(yīng)用自動(dòng)報(bào)警設(shè)備 要普遍應(yīng)用防火、防水、防盜、防遠(yuǎn)程攻擊等的自動(dòng)報(bào)警設(shè)備。在高溫、高濕地區(qū)還要有高溫、高濕的自動(dòng)報(bào)警與調(diào)控設(shè)備。 (3)應(yīng)用自動(dòng)滅火裝置 數(shù)據(jù)庫房要用防火、防水材料進(jìn)行隔離,而且一定要有自動(dòng)滅火裝置,以確保即使庫房發(fā)生火災(zāi)也能自動(dòng)撲滅,不致?lián)p毀數(shù)據(jù)。 (4)設(shè)置防遠(yuǎn)程攻擊的“防火墻” 電子數(shù)據(jù)的一個(gè)軟肋是黑客可以通過網(wǎng)絡(luò)發(fā)起遠(yuǎn)程攻擊,竊取、篡改、調(diào)換、鎖住或銷毀數(shù)據(jù)。所以,數(shù)據(jù)庫房必須采用最先進(jìn)的信息安保技術(shù)和設(shè)備,為數(shù)據(jù)建立“防火墻”“安全盾”“生命線”。 6.積極采用數(shù)據(jù)挖掘推送技術(shù) 對(duì)智慧檔案館(室)來說,數(shù)據(jù)是它的硬件,數(shù)據(jù)挖掘推送技術(shù)則是其軟件。離開這個(gè)軟件,智慧檔案不能真正實(shí)現(xiàn)。各級(jí)檔案館(室)要開始重視這方面的技術(shù)、人才和企業(yè)。各級(jí)檔案館(室)要眼睛向外,尋找具有數(shù)據(jù)挖掘推送技術(shù)背景的人才和企業(yè),同他們開展合作,先對(duì)目前已有現(xiàn)成數(shù)據(jù)的電子檔案運(yùn)用算法進(jìn)行挖掘和推送。以此為基礎(chǔ),先建立智慧檔案館(室)的框架和基礎(chǔ)。既可以在簽訂保密協(xié)議、確保數(shù)據(jù)不外泄的基礎(chǔ)上,把數(shù)據(jù)挖掘與推送外包給有關(guān)企業(yè),就像過去搞檔案數(shù)字化和信息化一樣。當(dāng)然,各級(jí)檔案館(室)也可以引進(jìn)相關(guān)人才,自己來搞,特別在招收新錄用人才時(shí),要招收一些數(shù)據(jù)挖掘推送方面的人才,就像過去招收計(jì)算機(jī)人才一樣。 檔案服務(wù)企業(yè)更要注重?cái)?shù)據(jù)挖掘推送技術(shù),盡早地研究這項(xiàng)技術(shù),并開展這項(xiàng)工作。這一技術(shù)將來的應(yīng)用前景會(huì)很大,因?yàn)樗鼘⑾褚酝挠?jì)算機(jī)技術(shù)一樣,全面地覆蓋全國(guó)所有的檔案館(室),將來真正風(fēng)行全國(guó)、風(fēng)行世界的,將是這項(xiàng)技術(shù)和人才。 高等學(xué)校要盡早開設(shè)數(shù)據(jù)挖掘推送技術(shù)方面課程,培養(yǎng)這方面的人才。因?yàn)檫@方面人才現(xiàn)在社會(huì)上很急需。未來幾年、十幾年中,數(shù)據(jù)工程師必然會(huì)像十幾年前的網(wǎng)絡(luò)工程師一樣稀缺和緊俏。檔案服務(wù)企業(yè)和檔案館(室)可以和高校聯(lián)合培養(yǎng)或在高校定向培養(yǎng)這方面人才,并優(yōu)先錄用這方面人才。 7.盡快地主動(dòng)推送檔案信息 智慧檔案館(室)在有了一些基礎(chǔ)后就要積極地投入應(yīng)用,主動(dòng)地向領(lǐng)導(dǎo)、向各方面利用者推送現(xiàn)有的檔案數(shù)據(jù)。比如,領(lǐng)導(dǎo)要本地某一年糧食方面的數(shù)據(jù),你不但迅速給他提供出這一年的糧食數(shù)據(jù),而且還給他主動(dòng)推送出本地歷年的糧食數(shù)據(jù)及增減趨勢(shì),今年糧食數(shù)據(jù)在歷年中的位置和比較,再推送出跟糧食有關(guān)的本地歷年油料、棉花、水果、蔬菜、氣象、災(zāi)害等數(shù)據(jù),外地這一年和歷年的糧食數(shù)據(jù),本地這一年和歷年同外地的比較等。再比如,某利用者要用張三的參軍證,你不但給他提供出張三的參軍證,而且還主動(dòng)推送出張三在部隊(duì)的立功證、受獎(jiǎng)證、培訓(xùn)證、學(xué)歷證、成果證明以及他參軍前的畢業(yè)證、參軍后的轉(zhuǎn)業(yè)證、退伍證,和他同一批參軍的其他人的參軍證等。這就發(fā)揮出智慧檔案館(室)的優(yōu)勢(shì)和作用來了,這就顯示出智慧檔案館(室)同以前兩代檔案館(室)的不同和高級(jí)來了。以前的館或室只是要什么給什么,要一只給一,而智慧檔案館(室),則是要什么都不只是給出什么,還給出其他相關(guān)的一切,即“1+N”,這個(gè)“N”,就是根據(jù)他以前的利用經(jīng)歷以及這次利用的主要內(nèi)容而主動(dòng)推送、自動(dòng)推送、無償推送的。在智慧檔案館(室)建設(shè)中,不要等全部建好了才推送,而要邊建邊推送,建多少數(shù)據(jù)推送多少數(shù)據(jù)。這樣,一方面是讓智慧檔案館(室)建設(shè)早日見成效,并爭(zhēng)取到更大的支持;另一方面也是通過較少數(shù)據(jù)的推送,來發(fā)現(xiàn)問題、吸取教訓(xùn),堵塞漏洞、取得經(jīng)驗(yàn),讓數(shù)據(jù)挖掘推送軟件更好用,讓智慧檔案館(室)更智慧。 8.積極采用物聯(lián)網(wǎng)技術(shù) 物聯(lián)網(wǎng)技術(shù)可以把檔案館(室)的人、物、信息、環(huán)境等方面全部連接起來,實(shí)現(xiàn)自動(dòng)感知和自動(dòng)調(diào)控。檔案工作者不管身在何處,都可用手機(jī)掌控一切。 建設(shè)智慧檔案館(室)除了以上這些工作之外,肯定還有其他事情要做,我不再一一列舉了。 在建設(shè)智慧檔案館(室)過程中,檔案工作者要敢于想、善于想,想我們的各方面需求,并向合作方提出我們的需求。甚至可以說,在智慧檔案館(室)建設(shè)中,檔案人的主要任務(wù)就是提需求。在這個(gè)時(shí)代,只有想不到而沒有做不到的。只要我們提出需求,就會(huì)有人幫助我們實(shí)現(xiàn)需求。檔案服務(wù)企業(yè)也要幫助檔案人想,主動(dòng)地針對(duì)他們的需要點(diǎn)、實(shí)用點(diǎn)、興奮點(diǎn)、難點(diǎn)和痛點(diǎn)提出解決方案。只要檔案部門與檔案服務(wù)企業(yè)同心協(xié)力,共同聯(lián)手,智慧檔案館(室)就一定能早日地、大批地并最終全部地建成。 那將是我國(guó)檔案工作、檔案事業(yè)一個(gè)新階段的開始! 那將是我這個(gè)“老”檔案人“新”夢(mèng)想的實(shí)現(xiàn)!
| |
來源:國(guó)家檔案局 聲明:版權(quán)歸原創(chuàng)所有,轉(zhuǎn)載此文是出于傳遞更多信息之目的。若有來源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益,請(qǐng)與本網(wǎng)聯(lián)系我們將及時(shí)更正、刪除 |