shaeo

ケモインフォマティクス

【第6回】Uni-Molを用いたモデル構築【PJ-LogD】

Transformerベースの事前学習モデルを活用した特徴量抽出と、それらを下流タスクに適用するためのファインチューニングで構成される表現学習フレームワーク「Uni-Mol」を用いてLogD予測モデルを構築します。
ケモインフォマティクス

【第5回】RDkit記述子×TabNetによるモデル構築【PJ-LogD】

特徴量としてRDkit記述子、アルゴリズムとして「TabNet」を用いたモデルを構築していきます。TabNetは表形式データの学習に特化したニューラルネットワークモデルです。表形式のデータは従来型の機械学習の方が向いているタスクが多いですが、TabNetはそれに匹敵する、あるいは超える性能をもつモデルだと言われています。
ケモインフォマティクス

【第4回】Attentive FPによるモデル構築【PJ-LogD】

グラフニューラルネットワーク(GNN)はグラフ構造のデータを取り扱うニューラルネットワークです。化合物の原子をノード、結合をエッジとみなし、GNNアーキテクチャの1種である「Attentive FP」を用いて予測モデルを構築します。
環境構築

CUDA Toolkitのインストールとconda環境でのバージョン指定

CUDA Toolkitのインストール方法とconda環境でバージョンを指定して利用する方法を紹介します。深層学習フレームワークではGPUでの計算が可能ですが、利用するためには「CUDA Toolkit」が必要です。環境構築の参考になれば幸いです。
ケモインフォマティクス

【第3回】Morgan Fingerprint×勾配ブースティング決定木によるモデル構築【PJ-LogD】

化合物の特徴として「Morgan Fingerprin」、機械学習アルゴリズムとして「勾配ブースティング決定木(XGBoost, LightGBM, CatBoost)」を利用したLogD予測モデルを構築します。また、3種のアルゴリズムをベースモデルとしてスタッキングモデルを構築します。
ケモインフォマティクス

Mol2vecのインストールとAmes予測への利用【2025年2月現在】

Mol2vecのインストール方法と機械学習への利用方法を紹介します。Mol2vecは自然言語処理で化合物空間の特徴を学習する教師なし学習アルゴリズムです。学習後のモデルは化合物の特徴量を抽出する目的で利用できます。
ケモインフォマティクス

【第2回】予測モデル構築に向けたデータクレンジング【PJ-LogD】

ChEMBLからAPI経由で取得したLogDのデータを予測モデル構築用にクレンジングする方法を紹介します。ケモインフォマティクス分野の最低限の処理は組み込んでいるので参考になれば幸いです。
環境構築

Minicondaを用いたPython3実行環境の構築【Ubuntu 22.04】

Minicondaを用いたPython3の実行環境構築方法をご紹介します。想定するOSはUbuntu 22.04です。各操作がどういったことを行っているのかについても説明しているので他OSでもMiniconda導入の参考になれば幸いです。
ケモインフォマティクス

【第1回】ChEMBLからLogDのデータを抽出する【PJ-LogD】

ケモインフォマティクス分野の基礎である「公共データの抽出〜予測モデルの構築」までをPythonで実装するProject-LogD。第1回目はChEMBLからWeb API経由でLogDのデータを抽出します。