HiC-Proを遺伝研スパコンにインストールする

HiC-Proについて

ゲノムのcontigを正確にscaffoldingするために、Hi-Cリードデータが用いられる。HiC-Pro はfastq ファイル からコンタクトマップの描画まで、Hi-C データを処理するように設計されているソフトウェアである。
github.com

準備

  • 遺伝研スパコン利用
  • 以下のコマンドでメモリ容量多めにしてqloginする
  • メモリが足りないとインストールがうまくいかないことがある
qlogin -l s_vmem=20G -l mem_req=20G

gitからソースをダウンロード

git clone https://github.com/nservant/HiC-Pro

conda環境のupdate

minicondaをインストールできていない場合は、インストールする。

conda update conda && conda update --all

ダウンロードしたソースのフォルダ内にymlファイルがあるので、新たにcondaの環境を導入

conda env create -f {ホームディレクトリからenvironment.ymlまでのパス}/environment.yml -p {インストールするフォルダのパス}

環境のアクティベート

conda activate {上でインストールしたフォルダのパス}

HiC-Proをソースからコンパイル

【注意】

  • 通常ではHiC-Pro_3.1.0を/usr/local/bin/にコピーすることになっているが権限の問題でできない。
  • なので、make configureの後、Makefileの最後に書かれているcpコマンドのコピー先ディレクトリをホームディレクトリ下に変更することで解決する。
make configure
make install

インストール完了後、動作確認

{ホームディレクトリからHiC-Pro_3.1.0までのパス}/HiC-Pro_3.1.0/bin/HiC-Pro --help

helpが表示されればインストールが完了している。

遺伝研スパコン上でレファレンス配列のインデックスファイル(.fai)を作成する

NCBIなどからリファレンス配列をダウンロードした際に、scaffoldのIDやcontigのIDなどを知りたい場合がある。


その際に便利なのが、インデックスファイル(.fai)。


インデックスファイル(.fai)はSamtools faidxを実行することで作成できます。


www.htslib.org


基本のコマンドは以下。

samtools faidx ref.fasta


遺伝件スパコン上で動かす際は、例えばsamtools version1.9を使用する場合は、以下になる。

singularity exec /usr/local/biotools/s/samtools:1.9--h91753b0_8 \
samtools faidx \
/home//reference/ref.fasta


ここで注意なのが、Fastaファイルのパスは絶対パスを使用すること。


でないと、以下のようなエラーがでる。

[E::fai_build3_core] Failed to open the file

' rm ディレクトリ名' で削除できない場合

遺伝研スパコン上でディレクトリを削除しようとした時に、以下のようなエラーが発生した。

rmdir: `stderr' を削除できません: ディレクトリは空ではない

どうやら、ディレクトリ内にファイルが存在する場合(見えていないシステムファイルがある)、rmコマンドでは削除できないらしい。

対処法:

ir というオプションをつける事で、中身も一緒に削除できる。

rm -ir ディレクトリ名

コマンド実行後、以下のような表示が出るが、全て’y’と入力する事で削除できる。

rm: ディレクトリ `stderr' 配下に入りますか? y
rm: 通常ファイル `stderr/.e13446007' を削除しますか? y

PLINKでSNPをフィルタリングする方法(その1)

www.cog-genomics.org




遺伝統計ソフトのPLINK 1.90は、SNPのフィルタリングだけでなく、主成分分析や連鎖解析など、様々な解析に使用可能。


マイナーアリル頻度(MAF)やジェノタイピング率(Call rate)で、SNPをフィルタリングするコードの例が以下である。

plink \
--ped input.ped \   # インプットファイルのパス
--map input.map \   # インプットファイルのパス
--out out \   # アウトプットファイル名
--recode \   # PED形式で出力
--threads 30 \   # スレッド数
--allow-extra-chr \   # ヒト以外の染色体も許容
--maf 0.05 \   # マイナーアリル頻度の指定
--geno 0.1 \   # ジェノタイピング率の指定
--hwe 0.05   # ハーディーワインベルグからの逸脱

configureでソフトウェアをインストールする際に発生した問題について

sourceforge.net





Windowsで、家系解析ソフトウェアのFranzをインストールしたが、
アプリケーションが開かないという問題が発生した。

ウェブサイトには以下のような説明があり、
今のWindowsでは動かせない可能性がある。

Windows

If you want to install FRANz on Windows, you can use the installer available from our website. Currently, only the single CPU version is available for Windows. Linux and Mac are still the recommended platforms.






なので、Macにインストールすることにした。

上記のウェブサイトから
’lima1-franzpedigree-30eaf35.tar.gz’をダウンロードし、
以下のコマンドを実行する。

tar xvfz lima1-franzpedigree-30eaf35.tar.gz
cd lima1-franzpedigree-30eaf35
./configure 
make check
make install 

しかし、以下のエラーが発生し、インストールできない。

error: cannot find input file: `libdir/dcmt/lib/makefile.in'





解決策:

どうやら、ダウンロードしたソースコードが問題だったらしい。

上と同じウェブサイトから’FRANz-2.0.0.tar.gz’をダウンロードし、

再度インストールを実行する。

man FRANz

上のコマンドでFRANZを立ち上げてみると、
うまくインストールされたことが確認できた。

Franzman