aabbdd

Smile. Tomorrow will be worse.

   

aabbdd

Smile. Tomorrow will be worse.

Lecture Materials

Workshop Materials
農学生命情報科学特論 I @東京大学アグリバイオインフォマティクス教育研究ユニット (2021-06)
プログラミング言語未経験者を対象とした Python 入門講義。農学や分子生物学などの分野で利用される Python の最新事例を紹介しながら、Python の基礎文法の講義を行う。
第 1 回 / 第 2 回 / 第 3 回 / 第 4 回 / 確認問題解答例

Lecture Materials (online)

Course Materials
Python for Bioinformatics (PY4BI)
プログラミング言語概要 / Python 仮想環境 / データ型 / 基本文法 / テキスト処理 / 数値計算 (NumPy) / データ可視化 (Pandas) / バイオインフォマティクス / オブジェクト指向
Details
Brief Introduction to R (BI2R)
R 実行環境 / データ型 / 基本文法 / 可視化 / 回帰分析 / 検定 / tidyverse
Details
UNIX for Bioinformatics (UNIX4BI)
UNIX コマンド / bash / awk / sed / vim
Details

Dataset

Dataset Description
iris.txt 3 種類のアヤメ(setosa、versicolor、virginica)の雄しべと雌しべの長さと幅を測定したデータ。Python/Pandas データフレーム、R/tidyverse 練習用データ。
rice.txt イネの wt 系統と ANU843 系統に対して F10、NH4Cl、NH4NO3 処理を行い、そのシュートと根の乾燥重量を測定したデータ。Python/Pandas データフレーム、R/tidyverse 練習用データ。
diversity_galapagos.txt ガラパゴス諸島の面積とその島で生息している植物の種数を調査したデータ。Python/Pandas データフレーム、R/tidyverse、データ視覚化などの練習用データ。
sleep_in_mammals.txt 62 種の哺乳類の体重、脳の重さや睡眠時間などを調査したデータ。Python/Pandas データフレーム、R/tidyverse、データ視覚化などの練習用データ。
1alk.cif.txt タンパク質立体構造データベース(PDB)からダウンロードした 1ALK タンパク質の立体構造データ。mmCIF フォーマット。ファイル処理や文字列処理の練習用データ。
1alk.fa PDB からダウンロードした 1ALK タンパク質のアミノ酸配列データ。FASTA フォーマット。ファイル処理や文字列処理の練習用データ。
ft.fa GenBank からダウンロードした FT 遺伝子(AF152096.1)の塩基配列データ。FASTA フォーマット。ファイル処理や文字列処理の練習用データ。
IWGSCv1.1.gff3
IWGSCv1.1.gtf
IWGSC で公開されている小麦のゲノムアノテーションの一部。GFF3/GTF フォーマット。ファイル処理や文字列処理の練習用データ。
FASTQ (RNA-Seq)
(Google Drive)
RNA-Seq を利用した発現量定量および発現変動遺伝子を検出用のデータセット。このデータセットは Bazin et al., Front. Plant Sci. 2019 の一部であり、野生型が 3 replicate、変異型が 3 replicate からなる。
rnaseq_counts.txt RNA-Seq の発現量行列。タブ区切りのテキストファイル。Bazin et al., Front. Plant Sci. 2019 のデータの一部(野生型 3 replicate、変異型 3 replicate)を HISAT2 で定量した結果である。
FASTQ (GWAS)
(Google Drive)
SNPs/indels を検出する用のデータセットである。このデータセットは、このデータセットは Cao et al., Nat. Genetics. 2011 の一部であり、5 個体からなる。
plantvillage.zip (13M) 画像分類用のデータセット。このデータセットは PlantVillage のデータの一部である。データは訓練データと検証データに分かれてあり、それぞれには 5 つのクラスが含まれている。
mnist.zip (3.3M) MNIST データセットの一部。画像は JPEG フォーマットで保存してある。深層学習を利用した分類問題や回帰問題を解くサンプルデータとして使用する。
dna2aa.tar.gz (3.4M) 翻訳モデル作成用のデータセット。データは TSV フォーマットで保存してある。1 列目は DNA 塩基配列 30 文字、2 列目はその DNA 配列に対応するアミノ酸配列 10 文字のテキストデータが含まれている。DNA 配列を入力して、アミノ酸配列を出力する翻訳モデルを作成するためのデータセット。
flu_dna.tar.gz (26.9M) 自然言語処理用のデータセット。データは TSV フォーマットで保存してある。1 列目にはインフルエンザのヘマグルチニン(HA)またはノイラミニダーゼ(NA)の種類を記載してあり、2 列目そのタンパク質をコーディングする DNA 配列を記載してある。DNA 配列を入力して、HA/NA の種類を予測するモデルを作成するためのデータセット。
crisprcas9.tar.gz (0.9M) CRIPSR/Cas9 のゲノム編集効率の実験データの一部(Wang et al., Nat. Commun. 2019)。データは TSV フォーマットで保存してある。1 列目には編集効率を記載してあり、2 列目以降は gRNA の末端 21 塩基の種類を表す。ただし、塩基 A, T, C, G は整数 0, 1, 2, 3 へ変換してある。