從記錄到(dào)紀要(yào / yāo):讓AI秘書讀懂企業辦公數字化會議
發布日期:2023-06-01 浏覽次數:2894
會議在(zài)企業日常運營過程中承擔很重要(yào / yāo)的(de)角色。會議讨論内容、會議資料、會議紀要(yào / yāo)、會議待辦事項等,大(dà)量執行信息從會議中産生。由于(yú)會議信息量龐大(dà)、會議記錄員個(gè)人(rén)理解不(bù)到(dào)位等因素的(de)限制,會議讨論過程中所包含的(de)大(dà)量内容,存在(zài)大(dà)量的(de)丢失情況,緻使會議決議不(bù)能順利推進,會議效果大(dà)打折扣。而(ér)與之(zhī)對應的(de),這(zhè)些信息内容抽取和(hé / huò)沉澱,能夠很大(dà)的(de)提高企業運營數字化程度以(yǐ)及信息共享程度。
在(zài)當前人(rén)工智能領域,對話摘要(yào / yāo)(Dialogue Summarization)任務在(zài)近兩年得到(dào)了(le/liǎo)工業界和(hé / huò)學術界的(de)廣泛關注。華爲(wéi / wèi)、阿裏巴巴、滴滴、微軟、三星、A*STAR等企業針對會議摘要(yào / yāo)任務進行特别研究。斯坦福大(dà)學、中弗洛裏達大(dà)學、佐治亞理工、北京郵電大(dà)學也(yě)有針對會議摘要(yào / yāo)任務進行研究。SIGDial2021針對多人(rén)會議摘要(yào / yāo)開設了(le/liǎo)專門的(de)SummDial Session。總體而(ér)言,對話摘要(yào / yāo)技術是(shì)緻使會議記錄到(dào)會議紀要(yào / yāo)轉變的(de)關鍵點,它可以(yǐ)從複雜的(de)對話數據中提取關鍵信息,從而(ér)大(dà)大(dà)降低理解對話數據的(de)難度,更好地(dì / de)輔助下遊任務,推動企業會議數字化解決方案的(de)完善。
二、會議紀要(yào / yāo)讓會議更智慧
在(zài)傳統的(de)日常辦公會議場景中,會議的(de)70%信息都依賴于(yú)視覺接收,隻有30%信息依賴于(yú)聲音接收,但僅通過聲音和(hé / huò)視頻去進行會議交流,遠不(bù)能滿足現代會議的(de)要(yào / yāo)求。用戶會後的(de)文件處理、會議紀要(yào / yāo)及特定用戶的(de)法定程序也(yě)要(yào / yāo)求必須以(yǐ)文字的(de)形式呈現。伴随着當前會議語音識别系統的(de)推廣,每個(gè)參會人(rén)員的(de)發言語音可以(yǐ)進行實時(shí)、完整、有序的(de)文字轉寫,并确保文字與各座席的(de)語音一(yī / yì /yí)一(yī / yì /yí)對應,新一(yī / yì /yí)代的(de)會議系統将能夠從會議過程中獲取會議議事的(de)完整讨論内容。
僅僅獲得會議議事的(de)讨論内容是(shì)遠遠不(bù)夠的(de),人(rén)的(de)正常語速1分鍾在(zài)200個(gè)字左右,這(zhè)個(gè)也(yě)就(jiù)意味一(yī / yì /yí)個(gè)1.5小時(shí)的(de)議事會議将會産出(chū)将近10萬字的(de)讨論内容,這(zhè)10萬字的(de)讨論内容與多個(gè)會議主題相關聯,相關主題會引出(chū)多個(gè)結論和(hé / huò)待辦事項,這(zhè)些内容構成一(yī / yì /yí)份龐大(dà)的(de)會議内容知識圖譜。于(yú)此同時(shí),在(zài)一(yī / yì /yí)些常規會議中,人(rén)工會議紀要(yào / yāo)的(de)長度往往在(zài)千字以(yǐ)内,這(zhè)也(yě)就(jiù)意味着人(rén)工會議紀要(yào / yāo)的(de)信息量大(dà)緻隻有會議讨論内容的(de)1%不(bù)到(dào),還需企業會議數字化解決方案。
鑒于(yú)人(rén)工記錄内容相對于(yú)會議實際讨論内容的(de)缺失,會議内容的(de)精細加工需要(yào / yāo)針對于(yú)會議實際的(de)讨論内容,也(yě)就(jiù)是(shì)從10萬字級别的(de)會議讨論内容中快速的(de)提取議題相關的(de)摘要(yào / yāo)、結論和(hé / huò)代辦事項,有些精加工内容的(de)提取不(bù)僅能夠極大(dà)提高會議紀要(yào / yāo)工作的(de)效率,同時(shí)也(yě)可以(yǐ)使得企業海量會議内容的(de)大(dà)數據分析成爲(wéi / wèi)可能。
綜合上(shàng)述場景可以(yǐ)得知,會議語音記錄隻是(shì)數字化會議的(de)開始,更大(dà)的(de)挑戰和(hé / huò)價值在(zài)于(yú)如何進一(yī / yì /yí)步抽取、加工、索引、再利用真正的(de)會議核心内容。
三、智慧會議紀要(yào / yāo)算法原理
傳統的(de)語義理解算法都是(shì)針對新聞或者文獻形式,無法很好的(de)支持上(shàng)述應用場景。而(ér)這(zhè)幾年人(rén)工智能領域也(yě)針對特定會議對話,逐步形成有效的(de)對話摘要(yào / yāo)提取算法,以(yǐ)作爲(wéi / wèi)會議内容大(dà)數據分析的(de)基礎算法。在(zài)此,我們提出(chū)一(yī / yì /yí)種有效的(de)會議摘要(yào / yāo)提取算法方案。
會議對話是(shì)一(yī / yì /yí)種由多人(rén)參與的(de)數據體裁,參與者接收對話上(shàng)文信息,結合自身常識知識進行理解從而(ér)參與到(dào)對話當中。常規的(de)文本摘要(yào / yāo)抽取算法應用于(yú)對話摘要(yào / yāo)抽取的(de)效果并不(bù)理想。除了(le/liǎo)上(shàng)下文語義的(de)理解之(zhī)外,目前已經有一(yī / yì /yí)些測試證明了(le/liǎo)融入常識知識可以(yǐ)幫助對話上(shàng)下文建模任務。
我們首次針對對話摘要(yào / yāo)任務探索常識知識的(de)利用。上(shàng)圖展示了(le/liǎo)SAMSum對話摘要(yào / yāo)數據集中的(de)一(yī / yì /yí)個(gè)樣例,“鮑勃因爲(wéi / wèi)車壞了(le/liǎo)向湯姆尋求幫助”。根據對話語句中的(de)“接我”和(hé / huò)“車壞了(le/liǎo)”可以(yǐ)引入“讓...搭車”這(zhè)一(yī / yì /yí)常識知識。一(yī / yì /yí)方面,這(zhè)一(yī / yì /yí)常識知識表達了(le/liǎo)鮑勃和(hé / huò)湯姆對話的(de)深層含義,另一(yī / yì /yí)方面,這(zhè)一(yī / yì /yí)常識知識也(yě)連接了(le/liǎo)對話中非鄰接的(de)語句,使得整個(gè)對話的(de)信息流更加清晰。最終,借助該常識知識,可以(yǐ)得到(dào)更加凝練、準确的(de)對話摘要(yào / yāo)。
最新的(de)算法首先通過大(dà)規模常識知識庫以(yǐ)對話的(de)形式引入常識知識,然後将對話中的(de)說(shuō)話人(rén)、句子(zǐ)以(yǐ)及引入的(de)常識知識視爲(wéi / wèi)三種不(bù)同類型的(de)數據,構建爲(wéi / wèi)異構對話圖(Heterogeneous Dialogue Graph,HDG),最後利用異構對話圖網絡模型(Dialogue Heterogeneous Graph Network,D-HGN)進行建模三類數據,生成最終對話摘要(yào / yāo)。我們在(zài)SAMSum數據集上(shàng)進行實驗,結果顯示,引入常識知識和(hé / huò)異構性建模均可以(yǐ)幫助模型生成更好的(de)對話摘要(yào / yāo)。除此以(yǐ)外,在(zài)Argumentative Dialogue Summary數據集上(shàng)的(de)結果顯示,引入常識知識可以(yǐ)使得算法模型具有更好的(de)泛化能力。
該算法在(zài)SAMSum數據集上(shàng)進行主實驗,并在(zài)Argumentative Dialogue Summary數據上(shàng)進行輔助實驗。并利用ROUGE指标進行評價。數據集統計如下圖所示。
下表顯示了(le/liǎo)算法在(zài)SAMSum數據集上(shàng)的(de)實驗結果,可以(yǐ)看出(chū)算法與基線模型相比取得了(le/liǎo)一(yī / yì /yí)定的(de)提升。與GCN、GAT、RGCN等同構圖神經網絡相比,算法也(yě)顯示出(chū)了(le/liǎo)一(yī / yì /yí)定的(de)優越性。
對于(yú)SAMSum測試集,經過圖網絡更新之(zhī)後的(de)、最後一(yī / yì /yí)層的(de)節點表示,然後使用t-SNE進行可視化,結果如下圖所示。可以(yǐ)發現,新的(de)算法(D-HGN)針對三種類型的(de)數據,可以(yǐ)學到(dào)更加容易區分的(de)表示,基線模型(D-GAT)即使采用同構圖神經網絡,也(yě)傾向于(yú)區分不(bù)同類型節點表示,說(shuō)明顯示的(de)異構性建模可以(yǐ)幫助學習更好的(de)表示。
最後讓我們看不(bù)同模型生成的(de)對話摘要(yào / yāo)。最新的(de)算法模型引入了(le/liǎo)“生日派對”和(hé / huò)“一(yī / yì /yí)些人(rén)”兩個(gè)常識知識。通過關注“生日派對”,我們的(de)模型生成了(le/liǎo)更加全面、質量更高、與标準摘要(yào / yāo)更加接近的(de)對話摘要(yào / yāo)。
四、AI智慧賦能未來(lái)企業辦公會議
有了(le/liǎo)最新的(de)人(rén)工智能算法的(de)加持,AI“理解”會議内容這(zhè)件事情逐步成爲(wéi / wèi)可能。随着新的(de)語音識别技術的(de)發展,越來(lái)越多的(de)會議内容通過AI智能語音識别得到(dào)沉澱,傳統的(de)會議紀要(yào / yāo)方式和(hé / huò)會議内容的(de)使用方式正在(zài)被颠覆,基于(yú)海量會議對話内容的(de)機器學習,會議紀要(yào / yāo)、待辦事項都可以(yǐ)被自動生成。對于(yú)企業來(lái)說(shuō),這(zhè)也(yě)意味着爲(wéi / wèi)會議精細化管理所配置的(de)大(dà)量人(rén)力可以(yǐ)被釋放出(chū)來(lái),同時(shí)會議所沉澱的(de)海量企業運營信息将通過新一(yī / yì /yí)代數字化會議系統得到(dào)充分運用,有助于(yú)企業會議數字化解決方案的(de)形成,企業也(yě)将從這(zhè)新型系統中提高運營效率,進一(yī / yì /yí)步提高管理信息的(de)數字化水平。
數字經濟發展中,新一(yī / yì /yí)代的(de)數字化會議系統勢必将成爲(wéi / wèi)企業日常運營管理的(de)核心系統之(zhī)一(yī / yì /yí),雲思正在(zài)此領域圍繞構建全新的(de)現代辦公模式,采用面向應用的(de)至上(shàng)而(ér)下頂層設計方法,持續豐富管理營運功能、努力拓展面向人(rén)的(de)最佳體驗的(de)應用創新。