aabbdd

Patauger dans l'inconnu …

<

aabbdd

Patauger dans l'inconnu …

講義資料

講習会 資料
農学生命科学情報特論 I @東京大学アグリバイオインフォマティクス教育研究ユニット (2020-06)
プログラミング言語未経験者を対象とした Python 入門講義。農学や分子生物学などの分野で利用される Python の最新事例を紹介しながら、Python の基礎文法の講義を行う。
第 1 回
Python 初心者講習会@京都府農林水産技術センター (2020-02)
プログラミング言語未経験者を対象とした Python 入門講習会および機械学習ワークフローの紹介。
Python 入門 /
演習問題
Python 初心者講習会@農研機構・広島福山 (2020-02)
プログラミング言語未経験者を対象とした Python ハンズオン講習会。内容は、Python 文法(リスト・ディクショナリ・関数・基本構文・文字列処理・ファイル処理)、パッケージ(NumPy・Pandas・matplotlib)の使い方など。
Anaconda 設定 /
Python 入門
機械学習勉強会@農研機構・つくば (2020-01)
機械学習の手法の全体像を掴むために、教師あり学習(回帰問題、分類問題)、教師なし学習(次元削減・クラスタリング)などの内容を取り上げる。各項目を深入りせずに、できるだけ機械学習とその周辺の概要を把握できるような構成。
機械学習入門 / ノート(
分類, モデル評価, 回帰分析, クラスタリング, 物体分類

データセット

ファイル名 データ
iris.txt 3 種類のアヤメ(setosa、versicolor、virginica)の雄しべと雌しべの長さと幅を測定したデータ。Python/Pandas データフレーム、R/tidyverse 練習用データ。
rice.txt イネの wt 系統と ANU843 系統に対して F10、NH4Cl、NH4NO3 処理を行い、そのシュートと根の乾燥重量を測定したデータ。Python/Pandas データフレーム、R/tidyverse 練習用データ。
diversity_galapagos.txt ガラパゴス諸島の面積とその島で生息している植物の種数を調査したデータ。Python/Pandas データフレーム、R/tidyverse、データ視覚化などの練習用データ。
sleep_in_mammals.txt 62 種の哺乳類の体重、脳の重さや睡眠時間などを調査したデータ。Python/Pandas データフレーム、R/tidyverse、データ視覚化などの練習用データ。
1alk.cif.txt タンパク質立体構造データベース(PDB)からダウンロードした 1ALK タンパク質の立体構造データ。mmCIF フォーマット。ファイル処理や文字列処理の練習用データ。
1alk.fa PDB からダウンロードした 1ALK タンパク質のアミノ酸配列データ。FASTA フォーマット。ファイル処理や文字列処理の練習用データ。
IWGSCv1.1.gff3 (0.1M) IWGSC で公開されている小麦のゲノムアノテーションの一部。GFF3 フォーマット。ファイル処理や文字列処理の練習用データ。
IWGSCv1.1.gtf (0.1M) IWGSC で公開されている小麦のゲノムアノテーションの一部。GTF フォーマット。ファイル処理や文字列処理の練習用データ。
ft.fa GenBank からダウンロードした FT 遺伝子(AF152096.1)の塩基配列データ。FASTA フォーマット。ファイル処理や文字列処理の練習用データ。
camara.jpg 水中や小川沿いで生息するタネツケバナの 1 種 Cardamine amara の写真。JPEG フォーマット。画像読み込みの練習用データ。
plantvillage.zip (13M) 画像分類用のデータセット。このデータセットは PlantVillage のデータの一部である。データは訓練データと検証データに分かれてあり、それぞれには 5 つのクラスが含まれている。
dna2aa.tar.gz (3.4M) 翻訳モデル作成用のデータセット。データは TSV フォーマットで保存してある。1 列目は DNA 塩基配列 30 文字、2 列目はその DNA 配列に対応するアミノ酸配列 10 文字のテキストデータが含まれている。DNA 配列を入力して、アミノ酸配列を出力する翻訳モデルを作成するためのデータセット。
flu_dna.tar.gz (26.9M) 自然言語処理用のデータセット。データは TSV フォーマットで保存してある。1 列目にはインフルエンザのヘマグルチニン(HA)またはノイラミニダーゼ(NA)の種類を記載してあり、2 列目そのタンパク質をコーディングする DNA 配列を記載してある。DNA 配列を入力して、HA/NA の種類を予測するモデルを作成するためのデータセット。
crisprcas9.tar.gz (0.9M) CRIPSR/Cas9 のゲノム編集効率の実験データの一部(Wang et al., Nat. Commun. 2019)。データは TSV フォーマットで保存してある。1 列目には編集効率を記載してあり、2 列目以降は gRNA の末端 21 塩基の種類を表す。ただし、塩基 A, T, C, G は整数 0, 1, 2, 3 へ変換してある。