基於知識圖譜的金融文本挖掘--需求分析與概念原型


一 前言

  本文對工程實踐項目——基於知識圖譜的金融文本挖掘,並結合《高級軟件工程》進行需求分析和概念原型設計,旨在了解從需求分析到軟件設計的基本建模方法及流程。

  項目介紹:主要內容包括四大部分,

1、獲取數據,主要是爬取新浪新聞,財經等各大新聞模塊的歷史數據。

2、搭建知識圖譜,針對爬到的數據提取實體及關系,構建金融的知識圖譜。

3、實時微博抓取,抓取微博的實時的金融相關信息。

4、知識推理,基於知識推理針對新的新聞事件展開事件影響預測。

二 需求分析  

  需求分析的兩種方法,即原型化方法(Prototyping)和建模的方法(Modeling)。

1、原型化方法可以很好地整理出用戶接口方式(UI,User Interface),比如界面布局和交互操作過程。

2、建模的方法可以快速給出有關事件發生順序或活動同步約束的問題,能夠在邏輯上形成模型來整頓繁雜的需求細節。

  針對基於知識圖譜的金融文本挖掘,主要參與者有兩種,即使用者User和管理者Admin,以下是具體的參與者業務流程以及各自的角色。

.

  具體的業務流程為,管理員首先抓取歷史新聞,通過實體抽取,關系抽取等構建知識圖譜。然后用實時爬蟲系統爬取實時的微博消息,並將微博消息提供給知識圖譜以便進一步完善系統 ,並且適應最新的變化。使用者可以查看最新的微博消息,以及這些事件預計將產生的影響,或者查看歷史相關,根據歷史相似信息加以自行判斷,並且還可以根據事件的要素查看與之相關的金融信息,了解更多的相關信息以輔助決斷。

三 業務類圖

 

  業務領域建模是開發團隊用於獲取業務領域知識的過程。因為軟件工程師往往需要工作在不同的業務領域或者不同項目中,他們需要業務領域知識來開發軟件系統。軟件工程師往往來自不同的專業背景,這可能會影響他們對業務領域的認知。因此業務領域建模有助於開發團隊獲取業務領域知識形成統一的業務認知。 開發團隊獲取業務領域知識的過程一般包括收集業務領域相關信息、執行團隊頭腦風暴、對業務領域相關的知識概念進行分類,最后用UML類圖將業務領域知識圖形化展示。

  業務領域建模的基本步驟:

即:

  • 第一步,收集應用業務領域的信息。聚焦在功能需求層面,也考慮其他類型的需求和資料;

  • 第二步,頭腦風暴。列出重要的應用業務領域概念,給出這些概念的屬性,以及這些概念之間的關系;

  • 第三步,給這些應用業務領域概念分類。分別列出哪些是類、哪些屬性和屬性值、以及列出類之間的繼承關系、聚合關系和關聯關系。

  • 第四步,將結果用 UML 類圖畫出來。

 

四 數據模型

  根據以上業務類圖,可以看出設計的數據模型主要有兩個存儲表,歷史新聞表和存儲知識圖譜的三元組,具體結構如下:

          news表

三元組:寫在csv中,導入neo4j數據庫

  

五 概念原型

 概念是人對能代表某種事物或發展過程的特點及意義所形成的思維結論。

  概念原型是一種虛擬的、理想化的軟件產品形式。

 

  工作流程:

1、由Admin抓取歷史新聞,提取信息去構建知識圖譜。

2、用戶查看最近消息,並查看預測影響。

3、用戶查看歷史相似信息,並查看相關聯的知識。

 

六 總結

  通過基於知識圖譜的金融文本挖掘的需求分析和概念原型,嘗試對項目進行需求分析,然后又對項目進行了業務領域建模,最后得出了項目的數據模型和概念原型。通過本文鍛煉了課堂上學習的知識,嘗試將其運用到實際的項目當中,借此次機會也鍛煉了自己。但是本項目也是剛着手開始做,對項目的認識還不夠深入,在一些地方尚有疑問,仍需要和指導老師進一步了解和學習。通過這篇博客也縷清了很多東西,對項目的認識不在僅僅局限到某一個功能的實現上,在以后的項目實踐中會多多嘗試這種分析和建模的方法以快速的把握項目的主體。

  參考資料:

https://gitee.com/mengning997/se/tree/master/ppt

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM