2021-05

Python

【Python初心者】データを前処理から機械学習までを実行する|タイタニックデータセット

今回は、データの前処理から機械学習までを一貫して解説していきます。データを目の前にして、いきなり機械学習もモデルを作成することはありえません。データの前処理や可視化、特徴量エンジニアリングなどをしてから、モデルの作成、モデル...
Python

【Python初心者】カテゴリ変数を数値に置き換える

データ分析や機械学習に必要な前処理を行うときに、カテゴリ変数を数値に置き換える場合があります。今回は、カテゴリ変数を数値に置き換える方法をコードをもとにみていきましょう。 Pythonの環境構築は、Anacondaをインス...
Python

【Python初心者】正規化・標準化する方法|機械学習に必要な前処理

機械学習を行う前にする処置を前処理といいます。前処理は機械学習を正確にするための大切な処理です。詳細は省きますが、数値データは対処した方が正確な予測モデルができることが多いのも事実です。今回は、数値データの舞処理として、正規...
Python

【Python初心者】特徴量エンジニアリング|連続変数を分割、カテゴリ変数に変更する

特徴量エンジニアリングとは、今あるデータから新しいデータを作り出すことです。特徴量エンジニアリングのなかで、連続変数を分割したり、それをカテゴリ変数に変換することがあります。 今回は、タイタニックのデータセットを使って、年齢のデー...
Python

【Python初心者】簡単なヒストグラムの描き方

データ分析た統計解析をする前には、対象のデータがどのような分布になっているのかを確認する必要があります。 特に統計学では必須です。分布が前提となる解析方法があるからです。正規分布に従う必要がある、平均値・標準偏差、T検定、...
データサイエンス

欠損値の種類と対処方法

データ分析をするうえで、データに欠損があることはよくあります。原因は様々ですが、例として、アンケート用紙の未回答、データの入力忘れ、機器の不具合などが挙げられます。 このようなデータの欠損は分析結果に影響を与える可能性...
Python

【Python初心者】カテゴリ変数をダミー変数に置き変える方法|機械学習に必要な前処理

性別やクラス別など、大小の関係にない変数をカテゴリ変数(名義尺度)と言います。データ収集では、このカテゴリ変数を扱うことがあります。カテゴリ変数を使って、統計や機械学習を行うときは数値データに置き換えたほうが理解しやすいです...
Python

【Python初心者】主成分分析(次元削減)をいろんな学習モデルで実行し特徴を理解する

機械学習にはさまざまな問題があります。その一つに次元の呪いというものがあります。次元の呪いとは、特徴量の数が多くなりすぎて(数千以上)、訓練時間が遅くなったり、学習結果が悪くなってしまう問題のことです。 数が多い特徴量の中...
スポンサーリンク
タイトルとURLをコピーしました