|
|
構(gòu)建知識圖譜需要滿足三項(xiàng)要素要求,分別是實(shí)體,關(guān)系和屬性。文本信息提取,則是在文本中提出三元信息,包括實(shí)體和關(guān)系的信息,實(shí)體和屬性的信息,然后將這些關(guān)系設(shè)置成數(shù)據(jù)庫的過程。
進(jìn)行信息提取的主要環(huán)節(jié)介紹:
1、確定要進(jìn)行信息提取的知識本體。
2、為每一個(gè)目標(biāo)知識點(diǎn)設(shè)立足夠的訓(xùn)練語料,或是抽取足夠的編寫規(guī)則
3、利用機(jī)器學(xué)習(xí)的方法,在訓(xùn)練語料和規(guī)則的基礎(chǔ)上,建立模型。
構(gòu)建知識圖譜**重要的環(huán)節(jié),NLPIR平臺KGB知識圖譜在文本信息提取的優(yōu)勢:
1、能夠解析不同格式文檔和圖片
KGB知識圖譜引擎,能夠?qū)Σ煌姹竞透袷降奈臋n進(jìn)行解析:TXT、DOC、EXCEL、PPT、PDF、XML等,對于圖片,OCR可自動(dòng)識別并抽取圖片中的文字信息。
2、對結(jié)構(gòu)化表格數(shù)據(jù)知識抽取
KGB能夠自適應(yīng)解讀并抽取結(jié)構(gòu)化表格數(shù)據(jù),實(shí)現(xiàn)知識的快速生成。
3、對非結(jié)構(gòu)化文檔知識抽取
KGB知識規(guī)則引擎,能夠快速定位非結(jié)構(gòu)化文檔中的關(guān)鍵信息(主體、時(shí)間、金額等),進(jìn)行高效抽取知識。
NLPIR大數(shù)據(jù)語義智能分析平臺,是基于中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺。
|