知識圖譜(Knowledge Graph)是顯示知識發(fā)展進程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,又被稱為知識域可視化或知識領(lǐng)域映射地圖,是用可視化技術(shù)描述知識資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識及它們之間的相互聯(lián)系。隨著大數(shù)據(jù)技術(shù)的發(fā)展以及海量數(shù)據(jù)轉(zhuǎn)化為知識時代的到來,知識圖譜技術(shù)能夠從海量非結(jié)構(gòu)化數(shù)據(jù)(如文本和圖像)和結(jié)構(gòu)化數(shù)據(jù)中進行知識獲取、知識共享,并在大數(shù)據(jù)時代進行知識創(chuàng)新。知識圖譜可以高效、直觀地描繪出目標對象(如企業(yè),事件等)之間的相關(guān)網(wǎng)絡,并在多維視角實現(xiàn)對象的真實情況和錯綜復雜的關(guān)系。在企業(yè)的實際業(yè)務中,面對海量繁多的財務會計憑證、賬簿、報表及電子數(shù)據(jù)等信息,審計人員常常通過抽查來發(fā)現(xiàn)問題。知識圖譜技術(shù)的出現(xiàn),提供了更高效的審計,提高審計工作效率,可以作為經(jīng)典審計方法的補充,在理想情況下甚至可以做到全面排查總體,這樣不僅能避免審計抽樣的風險,同時也降低了審計工作的復雜性和總體風險。本文基于百度問答的數(shù)據(jù),對審計領(lǐng)域的一些常見知識進行了收集,基于多源異構(gòu)審計數(shù)據(jù),構(gòu)建了結(jié)構(gòu)化審計數(shù)據(jù)庫,并通過可視化工具,進行初步的可視化分析產(chǎn)生可視化圖表,對審計信息進行分析和使用,有助于審計信息使用者快速了解特定領(lǐng)域的審計知識,為審計需求相關(guān)方的決策提供參考價值。
知識圖譜的應用大概分為通用知識領(lǐng)域和行業(yè)知識領(lǐng)域。通用知識領(lǐng)域的應用主要包括智能問答系統(tǒng),如Google。Google 知 識 圖譜是在Freebase 的基礎上研發(fā)的,F(xiàn)reebase 是 由Kurt Bollacker,Robert Cook, Patrick Tufts(2007)提出的通用人類知識數(shù)據(jù)庫。該數(shù)據(jù)庫具有實用、可擴展、圖形化、結(jié)構(gòu)化的特點,其靈感來自于語義Web 研究和協(xié)作數(shù)據(jù)通信,如Wikipedia。Freebase 允許通過HTTP 的圖形查詢API 進行公共讀寫訪問,用于研究、創(chuàng)建和維護結(jié)構(gòu)化數(shù)據(jù)以及應用程序構(gòu)建。近年來,國內(nèi)學者還開發(fā)出一款類似Google 的大規(guī)模開放知識圖譜---Zhishi.me。Zhishi.me 是 從互動百科、百度百科和中文維基百科中提取實體信息,并協(xié)調(diào)來自各個來源的知識以獲得規(guī)范的數(shù)據(jù)集,該圖譜的規(guī)模雖不及Google 研發(fā)的知識圖譜,但是卻也包含大約1000 萬個實體(周盛威,2018)。
知識圖譜行業(yè)知識領(lǐng)域的應用主要有醫(yī)學領(lǐng)域、金融領(lǐng)域等。醫(yī)學領(lǐng)域方面,張崇宇(2019)提出面向臨床醫(yī)療知識圖譜的自動問答方法,主要依托于構(gòu)建的臨床醫(yī)療知識圖譜的實體、關(guān)系及屬性,通過數(shù)據(jù)冷啟動機制生成語料,然后基于一種網(wǎng)格Bi-LSTM-CRF 算法的醫(yī)療實體識別和基于字-詞編碼CNN 模型的關(guān)系/屬性映射方法來完成問題的語義解析任務。然后通過業(yè)務分流和查詢邏輯轉(zhuǎn)換為Neo4j 圖數(shù)據(jù)庫,最終實現(xiàn)醫(yī)療應用場景的知識圖譜自動問答系統(tǒng)。在金融領(lǐng)域方面,張蕓蕓、方勇、黃誠(2018)提出基于Neo4j 圖譜檢測信用卡欺詐的方法,通過圖數(shù)據(jù)庫直觀顯示數(shù)據(jù)集的特征,并通過FICO評分標準建立FICO 模型,研究表明,該方法可以顯著提高信用卡欺詐的識別率。
信息可視化在可視化技術(shù)中占有重要地位,通過將抽象數(shù)據(jù)進行可視化展示,從而加強人們對數(shù)據(jù)的認知及數(shù)據(jù)獲取效率。Bernal 于1938 年繪制學科圖譜,但知識圖譜在我國于2005 年開始流行,相比于國外興起較晚。目前,國內(nèi)外關(guān)于知識圖譜的可視化工具層出不窮。國外最為經(jīng)典的知識圖譜可視化分析軟件是CiteSpace,它是一款針對科學文獻的可視化分析工具,用于計量特定領(lǐng)域的文獻,從而探尋該學科的發(fā)展方式和知識變遷。該軟件適合復雜的網(wǎng)絡關(guān)系可視化分析,但是CiteSpace被運行在java 平臺,適合專業(yè)基礎較高的人,使用門檻高。在國內(nèi),Plantdata 是一款較為成熟的知識圖譜可視化平臺。與傳統(tǒng)知識圖譜的可視化平臺不同的是,Plantdata 加入了時間屬性,支持儀表盤功能,并加入交互操作。其最為出色的一點是支持快速搭建高效精準智能深度搜索系統(tǒng),并以不同的形態(tài)展現(xiàn)給用戶,通過對多個維度進行分析,幫助用戶做出決策(楊卓,2019)。
圖1 csv 文件中部分數(shù)據(jù)
圖2 節(jié)點查詢示例圖
圖3 審計關(guān)系查詢的節(jié)點示例
經(jīng)過以上對國內(nèi)外研究的分析和比較,可以看出知識圖譜及其可視化服務正在迅猛發(fā)展,并開始逐步應用至各行各業(yè)。知識可視化的實質(zhì)是將內(nèi)容用圖形的方式表示,更符合人們對信息的感知與理解,從而進行知識傳播(劉琦,2018)。在企業(yè)審計領(lǐng)域中,由于審計知識領(lǐng)域涉及范圍較廣,審計知識之間的關(guān)系紛繁復雜,存儲、組織和表達方式較為松散,缺乏有效的管理。另外,審計知識檢索的效率不高,無法進行關(guān)聯(lián)知識的深度檢索。由此可見,將知識圖譜與可視化技術(shù)運用至企業(yè)審計領(lǐng)域中,與檢索者產(chǎn)生交互,顯示地表達知識的整體性與關(guān)聯(lián)性,將對知識的傳播起到推動作用。同時,企業(yè)也可通過運用審計知識圖譜,將傳統(tǒng)的業(yè)務推動數(shù)據(jù)模式轉(zhuǎn)化為數(shù)據(jù)推動業(yè)務模式,提高審計的效率,挖掘不易發(fā)現(xiàn)的審計數(shù)據(jù),為企業(yè)決策提供參考價值(樊世昊,2018)。國內(nèi)外對于實現(xiàn)信息化審計的研究仍處于起步階段,由于審計領(lǐng)域涉及范圍較廣,實現(xiàn)全面的大數(shù)據(jù)審計仍有難度。目前,雖有一些學者將知識圖譜應用在審計領(lǐng)域中,但尚無較為成熟的應用。
圖4 “審計”知識譜圖示例
圖5 模糊查詢
圖6 模糊查詢結(jié)果頁面
由表3可以看出,南京中考題的知識深度和知識廣度都比PISA題要高,說明中考題考察的知識內(nèi)容比較多,并且需要學生有扎實的數(shù)學基礎,而PISA題是用少量的知識點考察學生的數(shù)學能力.最后根據(jù)模型計算,假設α為0.5的前提下,PISA的難度為0.27,中考題的難度為0.31,中考題比PISA題難度高一些,PISA重視學生在不同問題背景下對所學知識和技能的靈活應用,而中考題注重考察學生對所學知識的掌握情況.
經(jīng)過對不同行業(yè)和領(lǐng)域?qū)徲嬓枨蟮恼{(diào)研,發(fā)現(xiàn)存在兩類數(shù)據(jù),第一類是審計領(lǐng)域內(nèi)的直接數(shù)據(jù),第二類是與審計相關(guān)聯(lián)的通識數(shù)據(jù)。
對于直接數(shù)據(jù),先從結(jié)構(gòu)化數(shù)據(jù)源的相應本體模型出發(fā),定義概念之間的分層關(guān)系,然后從多個數(shù)據(jù)源所定義的概念出發(fā)添加實體和屬性。通過定義知識圖譜的本體模式,以確保知識層次結(jié)構(gòu)的正確性,然后再針對定義好的本體模式,對領(lǐng)域數(shù)據(jù)中的相關(guān)知識進行抽取,通過知識融合、質(zhì)量評估等階段,篩選出滿足準確率要求的三元組進行企業(yè)審計知識圖譜的構(gòu)建,并將其存儲于MySQL 數(shù)據(jù)庫進行關(guān)聯(lián)。另外,由于非結(jié)構(gòu)化數(shù)據(jù)的知識是可信度相對低,抽取的精度也是有限的,這使得它難以滿足可用性標準。因此,具有高可信度的半結(jié)構(gòu)化的通識知識數(shù)據(jù)將被用作構(gòu)建企業(yè)審計知識圖譜,作為構(gòu)建審計知識圖譜的另一個層次的數(shù)據(jù)源,與審計數(shù)據(jù)互補。
對于通識知識數(shù)據(jù),將抽取百科頁面中的半結(jié)構(gòu)化數(shù)據(jù),作為關(guān)鍵性的知識,轉(zhuǎn)換成三元組,然而,對于關(guān)鍵知識中部分冗余的信息仍然存在,例如,存在實體名稱不一樣,但實際對應現(xiàn)實世界中的同一實體,需要對這些冗余的知識進行知識融合,保證所構(gòu)建知識圖譜的準確性。由于企業(yè)審計知識圖譜對準確性的要求較高,關(guān)系到企業(yè)的利益,因此將采用已有的算法,對這些冗余的知識進行篩選,然后再使用人工進行評估。這些冗余的知識,在百科數(shù)據(jù)中只是部分存在,而且比例很低,使用這種思路不會造成較高的人工成本,準確度和效率都是可接受的。
在審計領(lǐng)域中,由于審計知識領(lǐng)域涉及范圍較廣,審計知識之間的關(guān)系紛繁復雜,存儲、組織和表達方式較為松散,缺乏有效的管理(劉琦,2018)。另外,審計知識檢索的效率不高,無法進行關(guān)聯(lián)知識的深度檢索。對此,Neo4j 圖數(shù)據(jù)庫的存儲結(jié)構(gòu)與領(lǐng)域知識存儲與查詢功能,不僅能良好地支持知識庫中實體關(guān)系的管理,還能對知識進行快速查詢和清晰展示(葉帥,2019)。為了實現(xiàn)審計數(shù)據(jù)的信息化,知識圖譜中的語義關(guān)聯(lián)可以有效地整合多元異構(gòu)審計數(shù)據(jù)。知識圖譜的數(shù)據(jù)通常以三元組(S,P,D)的形式來表示實體、關(guān)系、屬性之間的關(guān)系,因此,本文用Neo4j 圖數(shù)據(jù)庫實現(xiàn)實體及實體關(guān)系的存儲,構(gòu)建審計知識圖譜。Neo4j 是一種圖形數(shù)據(jù)庫,是目前圖形數(shù)據(jù)庫中使用率最高的庫,Neo4j 具備本地存儲和數(shù)據(jù)處理的功能,與一般的數(shù)據(jù)庫有顯著的區(qū)別,它能夠保證數(shù)據(jù)的完整性和高讀寫性。審計知識圖譜構(gòu)建的目的是將經(jīng)典的審計方法與知識圖譜可視化方法相結(jié)合,從大量的企業(yè)結(jié)構(gòu)化和非結(jié)構(gòu)化文本中自動提取三元組,構(gòu)建審計的知識圖譜,方便審計信息使用者快速抓取信息,有助于審計決策的制定和實施。因此,本文從以下幾個方面入手,具體探討審計知識圖譜的構(gòu)建過程。
將上述數(shù)據(jù)導入Neo4j,其邏輯為:(1)node 相關(guān):CSV 文件首列為Source 節(jié)點,第三列為Target 節(jié)點,第二列為relation(關(guān)系)。消除完重復數(shù)據(jù)后,為每個節(jié)點生成唯一的id 和name 字段,方便查看節(jié)點的屬性。(2)relation 相關(guān):每種關(guān)系單獨生成一個關(guān)系類型,這樣在進行后續(xù)的查詢操作時可以針對某個關(guān)系或節(jié)點直接進行查詢。關(guān)系兩端的node 用生成的id 進行標示。(3)數(shù)據(jù)導入生成知識圖譜:清空Neo4j 現(xiàn)有的graph 并重啟Neo4j 程序。若啟動Neo4j 程序需要在cmd 中輸入如指令,指令輸入完成后打開Neo4j,利用Neo4j 的Cypher 語句進行查詢。
本 文 采 用Python 與Neo4j 圖數(shù)據(jù)庫連接的方式,進行數(shù)據(jù)導入工作。首先需要將已有的CSV 格式的數(shù)據(jù)導入py2neo 庫,需在Python中輸入如下代碼:from py2neo import Graph, Node, Relationship,Subgraph。隨后建立時間模塊與導入操作數(shù)據(jù)需要使用的模塊。下一步需要在Neo4j 中運用Cypher 語句建立索引、提高查詢速度,輸入CREATE 語 句:CREATE INDEX FOR (n: Entity) ON (n.name)。 之后需在Python 中設置自己本地的url與Neo4j 庫的用戶名與密碼,即可實現(xiàn)審計數(shù)據(jù)導入Neo4j,從而完成基于Neo4j 圖數(shù)據(jù)庫的審計知識圖譜的構(gòu)建。
審計知識圖譜的實現(xiàn)主要是通過信息抽取、知識融合、圖譜的構(gòu)建與儲存等核心技術(shù)從大量的異構(gòu)數(shù)據(jù)源出發(fā),抽取其中的實體、屬性等關(guān)鍵知識及其相互關(guān)系,再完成實體對齊與實體消歧等數(shù)據(jù)融合工作,然后采用符合質(zhì)量要求的知識構(gòu)建圖譜,并利用MYSQL 數(shù)據(jù)庫對構(gòu)建好的知識圖譜進行儲存。在上一節(jié)中進行了數(shù)據(jù)導入工作并在Neo4j 圖數(shù)據(jù)庫中構(gòu)建了企業(yè)審計領(lǐng)域知識圖譜。Neo4j圖數(shù)據(jù)庫中,共設有兩種節(jié)點類型,分別是Source 節(jié)點類型與Target 節(jié)點類型。用戶可以根據(jù)自己的需求進行查詢,進而清晰明了地了解節(jié)點以及節(jié)點與節(jié)點之間的關(guān)系。
比如,用戶需要在Neo4j 中查詢某一個節(jié)點(node)并且節(jié)點類型屬于Source 類型時,以查詢“中國投資服務網(wǎng)”為例,用戶需輸入如下查詢語句:MATCH(n:Source{name:‘中國投資服務網(wǎng)’})return n,點擊運行后會顯示出節(jié)點‘中國投資服務網(wǎng)’,若用戶需要查詢節(jié)點類型為Target 的節(jié)點,只需把查詢語句中的Source改為Target 即可進行查詢。如圖2所示。
再比如,當用戶需要在Neo4j 中查詢關(guān)系(relation)時,需要使用Match 語言進行查詢,以查詢“審計”關(guān)系為例,若想查詢圖數(shù)據(jù)庫中所有關(guān)于“審計”關(guān)系的節(jié)點,查詢語句如下:MATCH(n:Source)-[:‘審計’]-(m:Target)return n,m limit 20。這時圖數(shù)據(jù)庫會加載出所有以“審計”關(guān)系連接的節(jié)點,(其中l(wèi)imit 為控制節(jié)點顯示數(shù)量的參數(shù),可修改為任意數(shù)量),查詢結(jié)果如圖3 所示。
對審計領(lǐng)域的知識獲得全局認識,亦可以借助知識圖譜的手段。審計知識圖譜的構(gòu)建,有助于人們通過節(jié)點-關(guān)系-節(jié)點的方式,方便快捷、清晰明了地獲取審計領(lǐng)域的相關(guān)知識,完成審計知識的查詢和獲取。比如對于初次接觸審計領(lǐng)域知識的用戶而言,可以通過知識圖譜的方式查詢“審計”相關(guān)領(lǐng)域,例如查詢對于“審計(獨立性的經(jīng)濟監(jiān)督活動)”相應知識,查詢結(jié)果如圖4 所示,即可通過圖譜的方式獲得相應審計知識的展示,方便用戶快速、系統(tǒng)、較為全面地獲得審計領(lǐng)域知識。
另外,知識圖譜也提供了強大的模糊查詢的功能。當用戶在搜索框內(nèi)輸入想要查詢的詞語,隨后會出現(xiàn)下拉框,用戶可通過點擊某一詞語或句子,這時會出現(xiàn)用戶搜索的詞語的網(wǎng)絡關(guān)系圖。以搜索“cpa”為例,如圖5 所示,頁面的搜索框下會出現(xiàn)所有包含cpa 字段的詞語或語句,可通過點擊自己想要查詢的范圍來進行查詢。
例如,以選擇以“cpa[注冊會計師]”為例,用戶點擊此詞語,頁面會展示關(guān)于此詞語的知識圖譜,如圖6所示。
除此之外,若用戶需要在Neo4j中創(chuàng)建新的節(jié)點(node)類型、創(chuàng)建的節(jié)點類型與已有的節(jié)點建立新的關(guān)系(relation),以及刪除圖數(shù)據(jù)庫中的任意節(jié)點等,都可以進行相應語句的編寫與操作。這種通過圖譜的形式展示出來的、區(qū)別于傳統(tǒng)的百度搜索查找審計領(lǐng)域知識的方式,是大數(shù)據(jù)審計、信息化審計和智能化審計發(fā)展到一定階段的產(chǎn)物,有助于用戶對審計知識的查詢、獲取和使用,提高了用戶的決策相關(guān)性。
通過審計知識圖譜的構(gòu)建,相關(guān)人員可以快速準確地了解到當前環(huán)境下審計知識的現(xiàn)狀,精準抓取審計行業(yè)面臨的問題等等。對于審計從業(yè)人員而言,需要不斷加強大數(shù)據(jù)審計和智能化審計手段,提升審計信息化手段,不斷提高審計效率以及準確性。對于被審計單位而言,審計知識圖譜的構(gòu)建有助于企業(yè)從內(nèi)部審計出發(fā),快速精準地挖掘企業(yè)面臨的審計難題,提升公司內(nèi)部的管理水平,防患于未然,以降低不必要的損失;并結(jié)合注冊會計師(CPA)審計的相關(guān)知識,加強合作,確保審計意見的正確出具,并不斷提升自我在行業(yè)中的核心競爭力。對于監(jiān)管部門而言,通過對審計領(lǐng)域違規(guī)問題的查詢,可以系統(tǒng)地通過知識譜圖的方式展示審計異常的企業(yè)以及事務所的情況,實現(xiàn)審計違規(guī)的精準查處和精準治理。
? 2019-2021 All rights reserved. 北京轉(zhuǎn)創(chuàng)國際管理咨詢有限公司 京ICP備19055770號-1
Beijing TransVenture International Management Consulting Co., Ltd.
地址:梅州市豐順縣留隍鎮(zhèn)新興路881號
北京市大興區(qū)新源大街25號院恒大未來城7號樓1102室
北京市海淀區(qū)西禪寺(華北項目部)
深圳市南山區(qū)高新科技園南區(qū)R2-B棟4樓12室
深圳市福田區(qū)華能大廈
佛山順德區(qū)北滘工業(yè)大道云創(chuàng)空間
汕頭市龍湖區(qū)泰星路9號壹品灣三區(qū)
長沙市芙蓉區(qū)韶山北路139號文化大廈
歡迎來到本網(wǎng)站,請問有什么可以幫您?
稍后再說 現(xiàn)在咨詢