aabbdd

Smile, tomorrow will be worse.

<

aabbdd

Smile, tomorrow will be worse.

講義資料

講習会 資料
Python 初心者講習会@農研機構・岩手盛岡 (2020-10)
プログラミング言語未経験者を対象とした Python ハンズオン講習会。内容は、Python 文法(リスト・ディクショナリ・関数・基本構文・文字列処理・ファイル処理)、パッケージ(NumPy・Pandas・matplotlib)の使い方など。
Python 入門
ゲノム解析勉強会 (2020-08) online
第二世代シーケンサーのデータ解析についての内容。RNA-Seq データを利用した発現変動遺伝子の検出および DNA-Seq データを利用した short variants の検出を中心に取り上げる。
資料 / 実習資料(発現量定量 / 発現量解析 / GWAS 実習資料
農学生命情報科学特論 I @東京大学アグリバイオインフォマティクス教育研究ユニット (2020-06)
プログラミング言語未経験者を対象とした Python 入門講義。農学や分子生物学などの分野で利用される Python の最新事例を紹介しながら、Python の基礎文法の講義を行う。
第 1 回 / 第 2 回 / 第 3 回 / 第 4 回

データセット

ファイル名 データ
iris.txt 3 種類のアヤメ(setosa、versicolor、virginica)の雄しべと雌しべの長さと幅を測定したデータ。Python/Pandas データフレーム、R/tidyverse 練習用データ。
rice.txt イネの wt 系統と ANU843 系統に対して F10、NH4Cl、NH4NO3 処理を行い、そのシュートと根の乾燥重量を測定したデータ。Python/Pandas データフレーム、R/tidyverse 練習用データ。
diversity_galapagos.txt ガラパゴス諸島の面積とその島で生息している植物の種数を調査したデータ。Python/Pandas データフレーム、R/tidyverse、データ視覚化などの練習用データ。
sleep_in_mammals.txt 62 種の哺乳類の体重、脳の重さや睡眠時間などを調査したデータ。Python/Pandas データフレーム、R/tidyverse、データ視覚化などの練習用データ。
1alk.cif.txt タンパク質立体構造データベース(PDB)からダウンロードした 1ALK タンパク質の立体構造データ。mmCIF フォーマット。ファイル処理や文字列処理の練習用データ。
1alk.fa PDB からダウンロードした 1ALK タンパク質のアミノ酸配列データ。FASTA フォーマット。ファイル処理や文字列処理の練習用データ。
ft.fa GenBank からダウンロードした FT 遺伝子(AF152096.1)の塩基配列データ。FASTA フォーマット。ファイル処理や文字列処理の練習用データ。
IWGSCv1.1.gff3
IWGSCv1.1.gtf
IWGSC で公開されている小麦のゲノムアノテーションの一部。GFF3/GTF フォーマット。ファイル処理や文字列処理の練習用データ。
FASTQ (RNA-Seq)
(Google Drive)
RNA-Seq を利用した発現量定量および発現変動遺伝子を検出用のデータセット。このデータセットは Bazin et al., Front. Plant Sci. 2019 の一部であり、野生型が 3 replicate、変異型が 3 replicate からなる。
rnaseq_counts.txt RNA-Seq の発現量行列。タブ区切りのテキストファイル。Bazin et al., Front. Plant Sci. 2019 のデータの一部(野生型 3 replicate、変異型 3 replicate)を HISAT2 で定量した結果である。
FASTQ (GWAS)
(Google Drive)
SNPs/indels を検出する用のデータセットである。このデータセットは、このデータセットは Cao et al., Nat. Genetics. 2011 の一部であり、5 個体からなる。
plantvillage.zip (13M) 画像分類用のデータセット。このデータセットは PlantVillage のデータの一部である。データは訓練データと検証データに分かれてあり、それぞれには 5 つのクラスが含まれている。
mnist.zip (3.3M) MNIST データセットの一部。画像は JPEG フォーマットで保存してある。深層学習を利用した分類問題や回帰問題を解くサンプルデータとして使用する。
dna2aa.tar.gz (3.4M) 翻訳モデル作成用のデータセット。データは TSV フォーマットで保存してある。1 列目は DNA 塩基配列 30 文字、2 列目はその DNA 配列に対応するアミノ酸配列 10 文字のテキストデータが含まれている。DNA 配列を入力して、アミノ酸配列を出力する翻訳モデルを作成するためのデータセット。
flu_dna.tar.gz (26.9M) 自然言語処理用のデータセット。データは TSV フォーマットで保存してある。1 列目にはインフルエンザのヘマグルチニン(HA)またはノイラミニダーゼ(NA)の種類を記載してあり、2 列目そのタンパク質をコーディングする DNA 配列を記載してある。DNA 配列を入力して、HA/NA の種類を予測するモデルを作成するためのデータセット。
crisprcas9.tar.gz (0.9M) CRIPSR/Cas9 のゲノム編集効率の実験データの一部(Wang et al., Nat. Commun. 2019)。データは TSV フォーマットで保存してある。1 列目には編集効率を記載してあり、2 列目以降は gRNA の末端 21 塩基の種類を表す。ただし、塩基 A, T, C, G は整数 0, 1, 2, 3 へ変換してある。