在A股市場迎來中報季的背景下,上市公司的財報披露成為投資者和市場分析師關注的焦點。特別是在巨額募資活動的背景下,財報的準確性和透明度對于投資者決策具有至關重要的影響。合合信息的文檔解析技術通過輔助大模型深度解讀財報,為金融行業從業者提供了強有力的工具,以應對海量財報文件的分析需求。
隨著人工智能技術的深入發展,部分企業和個人開始嘗試用大模型進行財務報表分析。針對大模型“理解力”薄弱,數據讀取錯誤等問題,合合信息大模型“加速器”方案優化升級了PDF文檔解析技術,將非結構化的PDF內容轉換為結構化數據,提高大模型圖表類數據提取準確性和版面理解能力,助力大模型實現從“泛讀”到“精讀”的能力跨越。
在巨額募資活動中,投資者需要對公司的財務狀況、資金使用計劃和未來盈利能力有清晰地了解。合合信息的PDF文檔解析技術能夠準確識別和解析財報中的各類復雜表格、圖表和文本,確保關鍵信息不被丟失或誤解,為投資者提供了更為精準的數據分析和決策支持。
文檔解析技術是大模型理解和處理文檔的前提,相關能力的缺失,會導致大模型在理解版面不同區域的內容排列順序、要點時遇到障礙,影響大模型的“理解力”,財務報表中的關鍵信息可能會丟失或被誤解,使得模型生成的答案不夠精準,無法正確回答用戶的查詢。
圖 1:合合信息PDF文檔解析技術在大模型表格解析中的效果
據了解,合合信息PDF文檔解析技術具備多文檔元素識別、版面分析能力,可以識別文檔中的段落、公式、頁眉、頁腳等多種元素,并進行對應的處理。在應對財報中常見的無線表、合并單元格、不規則行距、跨段、跨頁等障礙時,該技術也能做到準確還原各類表格結構。
為了讓大模型像專業人士一樣閱讀文本,PDF文檔解析技術可對各類學術文獻進行版面元素的識別及閱讀順序的判定。該技術不僅能夠準確定位文檔中的關鍵信息段落,還能根據PDF文檔的布局和格式,推斷出人類閱讀時的順序,而非機械地判定為從左至右排序,避免把完整的段落文字“攔腰斬斷”,真正做到了“所見即所得”。
圖 2:合合信息PDF文檔解析技術對雙欄論文的解析效果
合合信息技術團隊成員表示,上市公司年報頁數大多集中在200至300頁的范圍內,一個熟練的分析師可能在幾天到一周的時間內完成對年報的基本分析,PDF文檔解析工具最快能在1.5秒完成百頁文檔的解析,按8小時為一天工作時間計算,解析工具可幫助大模型在一日內對數千家企業的年報數據進行精準分析。
相關稿件