人工智慧醫療應用資料集選輯

franky
9 min readFeb 8, 2021

--

列舉十個人工智慧醫療應用資料集的問題說明及解題概要, 資料型態包括數字文字表格資料、時間序列資料、自然語言資料、圖像資料、音頻資料、圖網路資料。

Doctor Strange

1. 心臟病資料集

  • 參考鏈接: https://www.kaggle.com/cherngs/heart-disease-cleveland-uci
  • 問題說明: 根據病患的年齡/性別/胸痛情況/靜息血壓/膽固醇含量/… 等13 項指標判斷病患是否患有心臟病
  • 資料內容: 單一數字表格文件, 297 筆資料, 14 個欄位, 有心臟病 137, 無心臟病: 160
  • 解題概要: 監督式學習 (supervised learning) 二元分類 (binary classification)
  • 相關軟體: Scikit-Learn, XGBoost, Keras, PyTorch

2. 中風資料集

  • 參考鏈接: https://www.kaggle.com/fedesoriano/stroke-prediction-dataset
  • 問題說明: 根據病患的年齡/性別/高血壓/心臟病/婚姻工作情況/…等 10 項指標判斷病患是否具有中風傾向
  • 資料內容: 單一數字文字表格文件, 5110 筆資料, 12 個欄位, 中風 249, 無中風 4861
  • 解題概要: 非平衡資料集 (unbalanced dataset), 監督式學習 (supervised learning) 二元分類 (binary classification), 非監督式學習 (unsupervised learning) 異常檢測 (anomaly detection),
  • 相關軟體: Scikit-Learn, XGBoost, Keras, PyTorch, imbalanced-learn, PyOD

3. 醫療保險詐欺資料集

  • 解題概要: 非平衡資料集 (unbalanced dataset), 監督式學習 (supervised learning) 二元分類 (binary classification), 非監督式學習 (unsupervised learning) 異常檢測 (anomaly detection)
  • 相關軟體: Scikit-Learn, XGBoost, Keras, PyTorch, imbalanced-learn, PyOD

4. 醫療費用預測資料集

  • 參考鏈接: https://www.kaggle.com/mirichoi0218/insurance
  • 問題說明: 根據年齡/性別/身高體重指數/抽菸情況/子女人數/居住區域等 6 項指標預測醫療費用
  • 資料內容: 單一數字表格文件, 1338 筆資料, 7 個欄位
  • 解題概要: 監督式學習 (supervised learning), 回歸 (regression)
  • 相關軟體: Scikit-Learn, Keras, PyTorch

5. 藥品使用反饋資料集

  • 參考鏈接: https://www.kaggle.com/jessicali9530/kuc-hackathon-winter-2018
  • 問題說明: 根據病症/藥名/反饋/評分/日期等資料進行藥品使用分析
  • 資料內容: 訓練及測試兩份資料文件, 訓練文件包括 161272 筆資料 7 個欄位
  • 解題概要: 自然語言處理 (natural language processing), 資料挖掘 (data mining), 字詞編碼 (word embedding)
  • 相關軟體: NLTK, Gensim, Scikit-Learn, Keras, PyTorch

本資料集的前十大醫療情況: 1. Birth Control (28788), 2. Depression (9069), 3. Pain (6145), 4. Anxiety (5904), 5. Acne (5588), 6. Bipolar Disorde (4224),
7. Insomnia (3673), 8. Weight Loss (3609), 9. Obesity (3568), 10. ADHD (3383)

一個焦慮症患者對 Effexor XR 的使用反饋: “Was on this med for 5 years. Worked fine but not great. Stopped the panic attacks and gave me relief of every day nervousness that I was experiencing. Took months for the side effects to diminish when I first started taking it. What did not leave — insomnia, night sweats, lack of sex drive and poor orgasms (or no orgasms at all).”

6. 新冠肺炎全球趨勢資料集

  • 參考鏈接: https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset
  • 問題說明: 分析及預測新冠肺炎全球趨勢
  • 資料內容: 6 個資料文件含確診/治癒/死亡相關數據
  • 解題概要: 時間序列 (time series) 相關統計分析及機器學習深度學習
  • 相關軟體: Python, Pandas, Numpy, Matplotlib, statsmodels, Prophet, Keras, PyTorch

7. 胸部 X 光肺炎資料集

  • 參考鏈接: https://www.kaggle.com/paultimothymooney/chest-xray-pneumonia
  • 問題說明: 開發圖像分類檢測模型診斷病患胸部 X 光以區分正常圖像及肺炎圖像
  • 資料內容: 圖片資料分訓練資料/驗證資料/測試資料三組文件夾, 圖片格式 jpeg, 圖片數量及分辨率如下表:
  • 解題概要: 深度學習 (deep learning), 圖像分類 (image classification)
  • 相關軟體: OpenCV, Keras, PyTorch

8. 新冠肺炎電腦斷層掃描資料集

  • 參考鏈接: https://www.kaggle.com/andrewmvd/covid19-ct-scans
  • 問題說明: 開發圖像分割檢測模型診斷新冠肺炎電腦斷層掃描圖像並產生肺部圖像分割及感染部位圖像分割
  • 資料內容: 20 個病患的電腦斷層掃描, 每份資料都包含肺部/感染部位/肺部及感染部位三種分割標記, 圖像格式 nii
  • 解題概要: 醫療影像 NII 文件讀取, 深度學習 (deep learning), 圖像分割 (image segmentation)
  • 相關軟體: NiBabel, OpenCV, Keras, PyTorch

電腦斷層掃描圖像: 原圖, 肺部圖像分割, 感染部位圖像分割, 肺部及感染部位圖像分割

9. 心音檢測資料集

  • 參考鏈接: https://www.kaggle.com/kinguistics/heartbeat-sounds
  • 問題說明: 開發音頻分割檢測模型判斷第一心音及第二心音, 以及音頻分類模型判斷心臟疾病類型
  • 資料內容: 兩組音頻資料, set_a 資料來自 iStethoscope Pro iPhone app 包含 176 個音頻文件, set_b 資料來自數字聽診器 DigiScope 包括 656 個音頻文件, 音頻格式 wav
  • 解題概要: 深度學習 (deep learning), 音頻分割 (audio segmentation), 音頻分類 (audio classification)
  • 相關軟體: Librosa, Keras, PyTorch

心跳波形圖及頻譜圖範例

10. 藥物交互作用資料集

  • 參考鏈接: http://snap.stanford.edu/biodata/datasets/10001/10001-ChCh-Miner.html
  • 問題說明: 根據美國食品藥品監督管理局批准藥物的交互作用關係網路進行用藥分析及預測, 如哪種藥物最有可能和其他藥物共用時產生不良作用、是否能夠預測已知及未知的藥物交互作用
  • 資料內容: 網路圖的節點代表藥物, 網路圖的連接代表藥物之間的交互作用, 本資料集涵蓋 1514 種藥物的 48514 個交互作用
  • 解題概要: 網路分析 (network analysis), 節點編碼 (node embedding), 連接預測 (link prediction), 異常分析 (outlier detection)
  • 相關軟體: Networkx, Node2Vec, nodevectors, Spektral, PyTorch Geometric, Keras, PyTorch

根據資料繪出的網路圖, 落在網路邊緣及離群節點的藥物是否代表我們對該藥物的瞭解不足並有更大的用藥風險?

--

--

franky
franky

No responses yet