女生裸体视频一区二区三区_久久久久九九九_美日韩精品视频_欧美日韩亚洲一区二区三区在线_激情成人亚洲_亚洲一区自拍_日韩亚洲精品在线_国产精品入口66mio_亚洲在线日韩_久久亚洲二区

美林數據
ABOUT US
美林數據技術股份有限公司(簡稱:美林數據,NEEQ:831546)是國內知名的數據治理和數據分析服務提供商。

美林新聞/NEWS

首頁 美林數據 美林新聞

美林數據技術專家團隊|智能問答技術及其應用、批注、修訂、圖源標注

2021-12-16 10:29:00
自Turing于1950年在其經典論文中提出“圖靈測試”以來,問答機器人的發展藍圖和目標便得以明確。而作為問答機器人的核心,智能問答技術的發展一直備受人們關注。
早期的智能問答技術主要基于問答庫中維護的模板,然后采用模糊匹配的方式給出問題的答案,對語義分析和用戶意圖理解的程度還不深。近年來,隨著深度學習技術的快速發展,智能問答技術也取得了長足的進步,并在諸如搜索、智能客服、智能家居等領域落地應用,且取得了不錯的效果。
本文首先簡要介紹當前智能問答的技術架構,然后重點對其中涉及到的關鍵技術、適用場景與優缺點進行分析。
一、智能問答技術架構
智能問答,其核心任務是構建一個模型,對輸入的問句進行理解并給出問題的答案。一般來說,可以將問答作為搜索的一個特例——其提供了一種更為精準(只有一個結果)的搜索服務,因此,本文中提到的搜索,都是指包含了問答的搜索。為了提升模型的準確性和智能性,有時也會根據輸入來推薦可能的問題。其技術架構可以簡單示意如下:
智能問答
自動問答架構
問題理解
模型接收到用戶的輸入后,需要對其進行判斷與理解,例如,判斷該輸入是不是一個問題,該問題屬于哪一個領域,該問題中的實體有哪些,需要填充的槽位有哪些,問題的類型是什么,問題是否明確等。對于意圖不明確的問題,有時需要用到多輪對話技術對意圖進行澄清。
問題解答
在理解問題后,需要從模型所連接的知識庫和文檔庫獲取答案,所采取的技術方案根據答案來源的不同而不同,本文后續內容重點對這部分技術進行介紹。
搜索推薦
根據輸入,模型為用戶推薦相似的搜索內容,其主要體現在兩個方面,一是在用戶輸入的過程中根據已輸入的內容聯想其可能輸入的內容,二是在搜索結束后,根據搜索的內容推薦相似的搜索。
二、兩類典型的問答模型
1、Document QA:基于文檔的閱讀理解式自動問答
Document QA的核心任務為:給定一篇文檔和與之有關的問題,模型自動找到該問題的答案。Document QA中最具代表性的片段式提取(Span-extraction),即從給定的文章中提取一段連續的字符串作為問題的答案。這種方式一般借助于機器閱讀理解(Machine Reading Comprehension, MRC)技術,因此,有時也被稱為基于閱讀理解的自動問答。
目前,取得SOTA的MRC均采用預訓練模型,如BERT、ERNIE-Gram等,它們大都通過Transformer加注意力機制等方式來獲得文檔與問題的向量表示,再通過邊界預測的方式來確定答案片段的起止位置。
然而,在實際的問答系統中,往往無法要求用戶在輸入問題的時候同時輸入一篇包含該答案的文檔。較為合理的做法是,事先維護一個文檔數據庫,然后根據用戶的提問,從文檔庫中找到該問題的答案。
要實現上述想法,一般有兩種做法:一種是根據用戶輸入的問題,先找到最相關的一篇文檔,再對該文檔應用MRC模型,獲取答案。這種做法對篩選最相關文檔的算法要求比較高,如果選擇錯誤,那么基本上無法得到正確答案。
為了緩解上述弊端,另一種做法是找到一批(比如,10篇)文檔作為候選文檔,再逐文檔應用MRC模型,最后對獲取得到的候選答案進行評分,選擇分數最高的作為最終答案。
綜上,一個Document QA模型的整體架構可以分為三層:文檔提取(Retriever)、答案提取(Reader)、答案排序(Ranker)。
Document QA架構
Document QA架構
(如果采用的是做法1,則在Retriever階段只保留一篇文檔,取消Ranker模塊。)

Retriever
給定用戶輸入的query,采用算法(如tf-idf)從documents中篩選出topN最相關的文檔。此過程實際上就是傳統搜索引擎的計算過程,即計算query與各document相似度的過程,因此,也可以利用tf-idf算法來快速實現。
Reader
此階段采用MRC模型對輸入的query和document進行計算,并從document中找到連續的字符串作為答案。例如基于BERT的MRC模型結構如下:
基于BERT的MRC模型
基于BERT的MRC模型
首先將query和document連接起來作為輸入,經過BERT模型計算后,得到document中每個詞作為答案起始位置的概率、 作為答案結束位置的概率,根據概率大小得到候選答案在document中的起止位置Start和End,候選答案的得分一般由起止位置概率的乘積得到。
Ranker
通過上一步,可以分別從topN相關文檔中得到對應的N個候選答案和得分,在這一階段將答案按照得分從高到底排序,返回得分最高的作為最終答案。
Answer packaging
上述三步實際上已經完成了Document QA的主要功能,但在某些條件下該答案過于簡略,而且沒有對回答不出來的問題做處理。對于未抽取到答案的情況,可以根據具體要求輸出“未查詢到答案”、“超出知識庫范圍”、或其它約定好的內容;對于特定類型問題,可以用問題和答案的組合進行包裝,使其顯得更加智能,例如:問題“呼和浩特到北戴河多少公里”,模型抽取到的答案是“約763.0公里”,這里可以將答案包裝成“呼和浩特到北戴河763公里”。
Document QA相較于傳統的通過維護問答對實現自動問答的方案,一個顯著的優點就是不需要人工維護問答對和意圖模板,但在實際應用中,Document QA還存在一些短板待完善:
Document QA的計算過程是一個典型的“黑盒“,人們無法分析其得到答案的具體計算是如何進行的。
由于答案只能從原文截取,因此無法回答一些復雜的推理類問題,例如,給定一篇介紹姚明的文章,盡管文中出現“姚明出生于上海“之類的信息,但模型可能仍無法回答諸如”姚明的國籍是什么“的問題。
Retriever算法的效果直接影響后續答案的提取,特別是在針對某些特殊領域開發問答模型時,需要投入非常多的精力來使模型學習到該領域的語言特點。
需要標注一定規模的document-query-answer語料來訓練Reader模型。
2、KBQA基于知識庫的自動問答
KBQA,即Knowledge Base Question Answering,基于知識庫的自動問答(本文不區分知識庫與知識圖譜的概念,認為它們的含義相同),它的核心任務,是將以自然語言描述的問題轉化為可執行的結構化查詢語言(NQL),執行該查詢語句,得到問題的答案。根據存儲知識庫的數據庫種類不同,查詢語言一般有SPARQL、Cypher等。由于答案來源是質量較高的結構化知識,因此其最顯著的優勢,就是可以深入“理解“用戶的問題,并支持更多復雜的推理。
比較流行的KBQA方案有兩種,一是基于語義解析的方法,一種是基于搜索排序的方法。基于語義解析的方法的核心過程就是先將自然語言問題轉化為語義表示,然后再將語義表示轉化為可執行的查詢語言,這種方法的優勢之一,就是可解釋性強,能夠展示獲取答案的全過程。基于搜索排序的方法首先根據自然語言問題獲取知識庫中相關的實體,然后獲取與該實體有一步或多步關系的實體,并將其視為子圖提取出來作為候選答案集合,最后對候選實體進行匹配和排序,選擇最終答案。
? 語義解析的方法
語義解析的一個典型任務是給定一張表格,用戶用自然語言提出問題,模型自動生成相應SQL查詢邏輯,然后在表格中執行查詢得到答案。
語義解析方法
用戶輸入問題:“新浪和人人網的周漲跌幅分別是多少?”
模型會根據數據表格的內容,將該問題轉化成sql語句:“select 周漲跌幅 from 表_1 where 名稱=‘新浪’ or 名稱=‘人人網’”
這樣就可以從表中得到查詢結果:“-4.52 和 -9.55”
語義解析的方法可以分為基于訓練數據的有監督方法和基于規則的無監督方法兩類。
基于訓練數據的有監督方法需要事先準備標注的數據用于訓練,在KBQA這個任務里,標注數據的格式為:,其中,query就是自然語言問句,nql是結構化的查詢語句。這實際上也是NLP技術中的一個研究方向,叫作text2sql。在深度學習的背景下,text2sql一些效果比較好的解決方案大都采用基于「編碼器-解碼器」結構的seq2seq的方法,目前,相關的研究方向主要聚焦于以下幾個方面:研究更強的語義表示(BERT)和結構來增強Encoder端對語義信息的利用程度;研究不同的解碼方式(樹形結構解碼、填槽類解碼)來減小解空間的搜索范圍;研究提高SQL(或者其他結構化查詢語句)語言的抽象性的技術;研究利用搜索、重排技術等對多條候選結果進行正確答案的篩選。對text2sql模型進行評價的方法主要有兩種:一種是精確匹配率,指的是生成的SQL與正確的SQL在select、where、from等模塊達到字符串級別的完全匹配的比例;另一種是執行正確率,指的是生成的SQL能夠在數據庫執行并返回正確的答案的比例。
基于規則的無監督方法的典型過程包括以下步驟:
(1)問句分析:
把自然語言問句轉化成查詢語義三元組的形式;
(2)資源映射:
將三元組中的每個短語,確定其在知識庫中的對應資源;
(3)查詢語句的生成:
對不同類型的問題依據不同的模板生成對應的查詢語句。
? 搜索排序的方法
知識圖譜是以實體為節點的網絡,一般處理與實體相關的事實內容,比如答案為人名、機構名、地名的問題,這種類型的問答任務稱為事實型問答,在問句中都包含至少一個實體詞,問題所涉及的知識也就是該詞對應實體的事實,那么答案就是這些事實中的實體。
例如用戶輸入問題:“姚明的妻子是誰?”該問題的核心實體是“姚明”,從知識圖譜中查詢到實體“姚明”,并將該實體相關聯的實體提取出來作為候選答案。
知識圖譜
在本例中與實體“姚明”相關聯的實體及其關系為:
“姚明”--“國籍”-->“中國”
“姚明”--“配偶”-->“葉莉”
“姚明”--“出生地”-->“上海”
再通過計算每個相關聯實體與問題匹配程度,會得到與問題最匹配的答案是“姚明”--“配偶”-->“葉莉”,輸出答案“葉莉”。
基于搜索排序的知識問答就類似于人工回答的過程:首先,確定問句中的主題詞;然后,根據主題詞鏈接到知識庫中的實體,得到主題實體;其次,將主題實體以及知識庫中與主題實體相關的實體提取出來作為候選答案;最后,從候選答案中選擇出正確的答案。
找到主題詞并找到知識庫中與之對應的實體,是實體識別與實體鏈接的任務,這里主要介紹如何從問句和答案中提取特征,并對它們的匹配程度進行計算。
從問句中提取特征首先需要對問句進行句法分析,得到其依存句法樹。基于依存句法樹,可以進一步抽象得到許多有用的信息,主要包括:
(1)問題詞:
         例如,誰,哪,什么等;
(2)問句焦點詞:
        這個詞暗示了答案的類型;
        例如:名字,時間,地點等;
(3)主題詞:
       用于幫助找到知識庫中相關的知識點;
(4)中心動詞
作為候選答案的知識庫中的節點,都可以抽取出以下特征:節點的所有關系;節點的所有屬性及屬性值;節點與主題實體的路徑。
在提取了問句和候選答案的特征之后,接下來就是對其進行匹配。為此,可以將問句中的特征和候選答案的特征進行組合,并將關聯度較高的問題-候選答案賦予較高的權重。這種賦權過程可以通過機器學習模型來實現,具體地,將從候選答案中選出正確答案視為一個二分類問題,從而可以使用<問題-答案>的標注數據來訓練一個分類模型。
三、總結
本文主要介紹了兩類常用的自動問答技術的實現原理,縱觀整個自動問答的研究成果和技術現狀,仍需要對以下問題進行深入研究:
計算機能夠直接處理的只有數字,如何把自然語言包含的語義信息準確、無遺漏地映射成數字,是所有NLP任務面臨的挑戰。盡管基于預訓練模型的方法橫掃了各大NLP任務的榜單,但是在自動問答的任務上,此方法衍生出的模型所取得的效果仍然無法令人滿意。這類方法試圖通過龐大的參數和復雜的結構來對自然語言問句進行解析、推理、查詢和回答,隨著問句復雜程度的提升,該方法的推理能力會顯著地降低,從而導致回答錯誤或無法回答;此外,正如所有NLP任務所面臨的挑戰一樣,對跨領域的模型進行二次訓練所消耗的高額資源是阻礙其大規模應用的重要原因。
KBQA由于有高質量的知識庫作為底層支撐,往往具有較好表現效果。但是,拋開維護知識庫所需要投入的巨大資源之外,如何正確解析問句、從大規模的知識庫中快速定位到關鍵實體并根據關鍵實體找到對應的屬性(關系)作為答案,對于數據結構、硬件資源以及解析模型的要求仍是非常高的。

服務熱線
400-608-2558
咨詢熱線
15502965860-
美林數據
微信掃描二維碼,立即在線咨詢
女生裸体视频一区二区三区_久久久久九九九_美日韩精品视频_欧美日韩亚洲一区二区三区在线_激情成人亚洲_亚洲一区自拍_日韩亚洲精品在线_国产精品入口66mio_亚洲在线日韩_久久亚洲二区
轻轻草成人在线| 亚洲美女视频在线免费观看| 亚洲一二三级电影| 中文字幕日韩一区| 欧美国产精品中文字幕| 国产日韩三级在线| 国产亚洲欧美一级| 久久一二三国产| 国产亚洲精品精华液| 精品国产亚洲在线| 国产三级三级三级精品8ⅰ区| 精品国产一区久久| 日韩欧美成人午夜| 久久综合色综合88| 久久久99久久| 中文字幕一区二区三区在线不卡 | 久久成人免费电影| 免费av成人在线| 国产精品一级二级三级| 成人国产精品免费观看视频| 成人av在线资源网站| 成人激情动漫在线观看| 色综合天天狠狠| 一区二区三区视频在线播放| 久久99伊人| 欧美高清hd18日本| 久久久国产精品午夜一区ai换脸| 国产精品久久综合| 丝瓜av网站精品一区二区| 国内外精品视频| 99精品欧美一区二区三区综合在线| 欧美精选一区| 色综合久久久久综合体| 91麻豆精品国产91久久久资源速度| 久久综合国产精品| 日韩伦理电影网| 美美哒免费高清在线观看视频一区二区| 韩国女主播一区| 欧美日韩91| 色88888久久久久久影院野外| 欧美一区二区三区啪啪| 国产精品久久影院| 青娱乐精品视频| 91在线云播放| 老牛影视一区二区三区| 欧美成人三级在线| 亚洲电影第三页| 高清久久久久久| 亚洲精品一区二区三区樱花| 欧美日韩一区二区不卡| 国产拍欧美日韩视频二区| 亚洲成人福利片| 99精品久久久久久| 色哟哟亚洲精品| 国产精品免费av| 激情国产一区二区| 最新国产拍偷乱拍精品| 日韩亚洲欧美一区| 一区二区三区**美女毛片| 国产·精品毛片| 国产农村妇女精品一区二区| 91精品啪在线观看国产60岁| 亚洲综合激情网| 成人黄色小视频在线观看| 新67194成人永久网站| 久久久久久亚洲综合影院红桃| 午夜精品久久久久| 黑人一区二区| 久久婷婷一区二区三区| 美女免费视频一区| 亚洲一区二区三区免费在线观看| 日韩欧美一级二级三级久久久| 亚洲超碰精品一区二区| 国模精品一区二区三区| 91麻豆精品国产| 亚洲一级片在线观看| 欧美日韩视频在线一区二区观看视频| 欧美久久久影院| 日欧美一区二区| 激情综合激情| 久久精品视频免费观看| 高清不卡在线观看| 欧美亚洲精品一区| 五月综合激情婷婷六月色窝| 国产精品啊啊啊| 国产三区在线成人av| 成人一二三区视频| 91麻豆精品91久久久久久清纯| 亚洲影视在线播放| 亚洲精品一级| 亚洲三级在线观看| 国产一区二区三区自拍| 精品乱码亚洲一区二区不卡| 国产一区二区三区视频在线播放| 性8sex亚洲区入口| 亚洲成a人v欧美综合天堂| 亚洲国内自拍| 亚洲欧美日韩久久| 影院欧美亚洲| 亚洲男人天堂一区| 亚洲日产国产精品| 亚洲精品菠萝久久久久久久| 欧美日韩影院| 中文字幕中文字幕在线一区 | 欧美日韩专区| 亚洲欧美日韩中文字幕一区二区三区| 色综合久久综合| 亚洲国产高清在线观看视频| 欧美国产另类| 亚洲女同女同女同女同女同69| 亚洲高清av| 亚洲一区二区三区不卡国产欧美| 国产欧美激情| 午夜视频一区二区| 欧美性色aⅴ视频一区日韩精品| 麻豆精品视频在线观看视频| 欧美精三区欧美精三区| 国产成人综合亚洲网站| 久久影院午夜论| 亚洲大片在线| 亚洲第一二三四区| 欧美午夜精品久久久久久超碰 | 日本欧美肥老太交大片| 欧美自拍偷拍一区| 国产v综合v亚洲欧| 久久久www成人免费毛片麻豆| 国产一区美女| 亚洲成a人v欧美综合天堂 | 亚洲国产精品ⅴa在线观看| 亚洲人体一区| 免费在线成人网| 欧美大片拔萝卜| 欧美日韩国产综合网| 亚洲妇熟xx妇色黄| 欧美一区二区日韩| 欧美a级片网站| 五月天欧美精品| 欧美电影免费提供在线观看| 国产精品av久久久久久麻豆网| 亚洲精品videosex极品| 欧美私模裸体表演在线观看| 91在线视频在线| 亚洲电影一区二区三区| 欧美日韩免费观看一区二区三区 | 亚洲在线日韩| 国产精品一品二品| 亚洲视频一区二区免费在线观看| 色94色欧美sute亚洲线路二| 91免费看片在线观看| 天堂在线亚洲视频| 久久精品一区二区三区不卡牛牛 | 欧美成人激情免费网| 国产日韩综合| 国产jizzjizz一区二区| 亚洲免费av网站| 欧美一二三四在线| 亚洲一区免费| 91蜜桃视频在线| 七七婷婷婷婷精品国产| 国产欧美中文在线| 欧美日韩高清一区二区三区| 亚洲人人精品| www.亚洲在线| 蜜臀av性久久久久蜜臀av麻豆| 国产亚洲视频系列| 欧美日韩一区小说| 一区二区三区欧美成人| 99久久99精品久久久久久| 蜜桃视频在线观看一区二区| 亚洲图片欧美激情| 日韩美女在线视频| 欧美视频日韩视频在线观看| 亚洲午夜91| av亚洲精华国产精华精| 免费在线成人网| 亚洲一区欧美一区| 中文字幕乱码亚洲精品一区| 欧美丰满高潮xxxx喷水动漫| 国产伦精品一区二区三区视频黑人| 色综合天天综合网天天狠天天| 精品一区二区三区免费| 亚洲午夜av在线| 国产精品伦一区二区三级视频| 精品成人私密视频| 91精品婷婷国产综合久久 | 亚洲精品写真福利| 国产精品色眯眯| 精品日韩一区二区三区| 3atv在线一区二区三区| 久久蜜桃资源一区二区老牛| 最新亚洲一区| 亚洲高清资源综合久久精品| 欧美日韩一区二区视频在线| 99久久99久久精品免费观看| 国产成人精品免费在线| 国产在线一区观看| 黄色日韩三级电影| 精品一区二区国语对白| 六月丁香婷婷久久| 极品少妇xxxx偷拍精品少妇|