清華大學(xué)研究團(tuán)隊(duì)獲KDD 2020首屆時(shí)間檢驗(yàn)應(yīng)用科學(xué)獎(jiǎng)
個(gè)人自動(dòng)信息抽取
作者首先通過(guò)擴(kuò)展“朋友之友(FOAF)”來(lái)定義研究者檔案,包含研究者的基本信息(如研究者的名字、照片、職位、工作單位等),研究者的聯(lián)系信息(如研究者的電話、傳真、通訊地址、Email 等),研究者的教育經(jīng)歷(如畢業(yè)學(xué)校、獲得學(xué)位的時(shí)間、每個(gè)階段所學(xué)專業(yè)以及所發(fā)表的論文)。
研究者個(gè)人信息抽取分三步:相關(guān)頁(yè)面識(shí)別、預(yù)處理和信息提取。
在相關(guān)的頁(yè)面識(shí)別中,對(duì)于每個(gè)研究者,通過(guò) Google 搜索引擎的 API 獲得網(wǎng)頁(yè)列表,并判斷是否是研究者的主頁(yè)或者包含了較多的研究者個(gè)人信息的介紹性網(wǎng)頁(yè)。然后,使用支持向量機(jī)(SVM)作為分類模型對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行分類處理。
在預(yù)處理中,將文本進(jìn)行標(biāo)記處理,系統(tǒng)利用條件隨機(jī)場(chǎng)(CRF)作為標(biāo)記模型,來(lái)確定最可能的對(duì)應(yīng)標(biāo)記序列,每個(gè)標(biāo)簽對(duì)應(yīng)一個(gè)定義的屬性。
作者使用規(guī)則歸納模型算法和SVM模型方法作為概要文件提取的基準(zhǔn),通過(guò)研究每種特征類型在研究者檔案提取中的作用,發(fā)現(xiàn)僅使用一種類型的功能無(wú)法獲得準(zhǔn)確的性能分析結(jié)果。

圖2 :研究者個(gè)人主頁(yè)和理想的標(biāo)注結(jié)果
圖2中的左側(cè)給出了一個(gè)典型的研究者個(gè)人主頁(yè),其中包含研究者的姓名、照片、通信地址、Email地址、教育經(jīng)歷等信息,圖的右側(cè)顯示了最終想要的理想的標(biāo)注結(jié)果。
分析數(shù)據(jù)發(fā)現(xiàn),個(gè)人信息的各個(gè)屬性之間有依賴關(guān)系,而且有的屬性之間有很強(qiáng)的依賴關(guān)系。
研究者重名排歧
對(duì)于網(wǎng)絡(luò)上不勝其數(shù)的同名作者,如何精確的定位一位作者成為一大難點(diǎn),同名作者文章的排歧工作面臨每篇文章信息量有限和作者相關(guān)描述不確定性強(qiáng)的難點(diǎn)。
之前的研究工作中,采用監(jiān)督學(xué)習(xí)算法對(duì)每個(gè)排歧目標(biāo)的數(shù)據(jù)進(jìn)行學(xué)習(xí)和訓(xùn)練,這種方法可擴(kuò)展性差;無(wú)監(jiān)督學(xué)習(xí)方法受到可利用信息量的限制,排歧效果不太強(qiáng)。
針對(duì)這些問(wèn)題,作者在文中提出了一個(gè)基于隱馬爾可夫隨機(jī)場(chǎng)(HMRF)的概率框架,該框架可以捕獲每篇論文之間的依賴關(guān)系,從而更加靈活地將各種知識(shí)以約束的形式放到算法中,從而很好地利用各種指導(dǎo)和數(shù)據(jù)來(lái)提高重名排歧的精度。
具體而言,利用隱馬爾可夫隨機(jī)場(chǎng)理論構(gòu)造目標(biāo)函數(shù),將整個(gè)問(wèn)題轉(zhuǎn)化為最小化目標(biāo)函數(shù)問(wèn)題。目標(biāo)函數(shù)主要包含兩個(gè)部分:
一是聚類的每個(gè)類別中數(shù)據(jù)點(diǎn)之間的距離,用來(lái)衡量每個(gè)聚類結(jié)果的緊密程度;
二是當(dāng)前聚類結(jié)果所違背的所有約束的懲罰值之和。
整個(gè)算法的目標(biāo)是找到內(nèi)部緊密而且盡量少違背約束的聚類結(jié)果,來(lái)作為同名排歧的結(jié)果。作者在文中通過(guò)大量的實(shí)驗(yàn)數(shù)據(jù),證明這一方法在消除重名方面明顯優(yōu)于傳統(tǒng)方法。

圖3 :一個(gè)重名排岐的實(shí)例
圖 3 給出了一個(gè)重名排岐的實(shí)例。圖中每個(gè)點(diǎn)表示一篇論文,每條有向邊表示兩篇論文之間的不同類型的關(guān)系,這些關(guān)系即可以轉(zhuǎn)化為上述約束。兩個(gè)點(diǎn)之間的距離反應(yīng)了它們?cè)趦?nèi)容上相似度。實(shí)線框表示論文屬于同一個(gè)作者(聚類類別)。
從圖中可以非常直觀地看出,僅根據(jù)內(nèi)容相似度不能取得很好的聚類效果,但是不同類型的關(guān)系對(duì)于區(qū)分不同的作者非常有效。例如,根據(jù)節(jié)點(diǎn)3和8之間的合作關(guān)系,很容易將它們分配到同一個(gè)類別。
異質(zhì)網(wǎng)絡(luò)建模
學(xué)術(shù)網(wǎng)絡(luò)建模對(duì)于任何搜索或建議任務(wù)都是至關(guān)重要的。傳統(tǒng)上,信息通常是基于“詞袋(BOW)”模型來(lái)表示的。
AMiner 提供的核心服務(wù)是專家搜索,即根據(jù)用戶查詢的話題找出在相關(guān)領(lǐng)域的權(quán)威專家。因此,僅僅依靠關(guān)鍵詞進(jìn)行專家匹配,幾乎無(wú)法返回有效的結(jié)果。而如果我們知道自然語(yǔ)言處理領(lǐng)域的權(quán)威會(huì)議是“ACL”等,根據(jù)研究者發(fā)表的會(huì)議信息,就可以很容易判斷出他是否是該領(lǐng)域的權(quán)威專家。
因此,作者提出了一個(gè)統(tǒng)一的主題模型 ACT,同時(shí)對(duì)研究者論文、作者和會(huì)議的主題進(jìn)行分布建模,設(shè)計(jì)了一種可以有效地利用學(xué)術(shù)網(wǎng)絡(luò)的異質(zhì)實(shí)體與關(guān)聯(lián)信息,來(lái)發(fā)現(xiàn)領(lǐng)域內(nèi)專家方法。
文章提出主題模型 ACT 對(duì)研究者異質(zhì)信息網(wǎng)絡(luò)統(tǒng)一進(jìn)行建模,從中估計(jì)出不同類型的實(shí)體,包括研究者、會(huì)議、關(guān)鍵詞以及論文在不同隱含話題上的概率分布。

圖4 構(gòu)建話題模型生成研究者異構(gòu)信息網(wǎng)絡(luò)
ACT1 模型:每位作者與主題上的多項(xiàng)式分布相關(guān)聯(lián),并且論文中的每個(gè)單詞和會(huì)議標(biāo)記都是從抽樣的主題中生成的。
ACT2 模型:每個(gè)“作者-會(huì)議”對(duì)都與主題上的多項(xiàng)式分布相關(guān)聯(lián),然后從采樣的主題中生成每個(gè)單詞。
ACT3 模型:每位作者都與一個(gè)主題分布相關(guān)聯(lián),并且在為論文中的所有單詞標(biāo)記采樣主題之后,生成會(huì)議標(biāo)記。
有了這些概率分布,當(dāng)用戶給定一個(gè)查詢?cè)~,就可以推斷與之概率分布相近的專家,進(jìn)而還可以推斷出相關(guān)的會(huì)議和論文等異構(gòu)網(wǎng)絡(luò)中存在的各種實(shí)體類型。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來(lái)了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-

長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
即日-5.20立即下載>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來(lái)·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國(guó)機(jī)器人行業(yè)年度評(píng)選
-
精彩回顧立即查看>> 【在線會(huì)議】液冷服務(wù)器信號(hào)完整性及冷卻液關(guān)鍵電參數(shù)測(cè)試
推薦專題
- 1 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實(shí)測(cè):中文穩(wěn)、細(xì)節(jié)炸,設(shè)計(jì)師慌了
- 3 6000億美元估值錨定:字節(jié)跳動(dòng)的“去單一化”突圍與估值重構(gòu)
- 4 Tesla AI5芯片最新進(jìn)展總結(jié)
- 5 連夜測(cè)了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個(gè)短板了
- 6 熱點(diǎn)丨AI“瑜亮之爭(zhēng)”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫(kù)跑路,全員被封號(hào),還繼續(xù)扣錢!
- 8 2026,人形機(jī)器人只贏了面子
- 9 DeepSeek降價(jià)90%:價(jià)格屠夫不是身份,是戰(zhàn)略
- 10 AI Infra產(chǎn)業(yè)鏈卡在哪里了?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





