Rを使ってデータサイエンスが学べる書籍

スポンサーリンク
R
【初心者】Rと統計学をいっぺんに学ぶ最初の5冊
Rとはオープンソースの統計解析用のプログラミング言語です。 誰でも無料で使えます。統計解析にはSPSSやSASなどが有名ですが、いずれも有料です。大学や研究機関でないと使えないですね。個人でも統計解析できた方が、職場に依存せずにス...

データサイエンスといえはPythonですが、Rでもできます。
Rは統計学に特化したプログラミング言語ですが、さまざまなデータ分析ができます。Rを使って、統計学だけでなく、データサイエンスを学びたい初心者におススメな書籍を紹介します。

ゼロ知識の初心者がデータサイエンスを完全無料で学習する方法5選

Rで基本的なデータ分析する

RユーザのためのRStudio[実践]入門−tidyverseによるモダンな分析フローの世界−

R言語を使うときは、Rをそのまま使うことは少なく、RStudioを使うことがほとんどです。
RStudioとはR言語のIDE(開発環境)のことです。エディタ、コンソール、グラフなどを1つの画面内で確認できるほか、データ分析プロジェクトをスムーズに進めるための機能が豊富に用意されているので、RユーザにとってRStudioを利用したデータ分析はスタンダードになっています。
内容は、Rの初心者でも難しくなく読み進められます。データの収集(2章)、データの整形(3章)、可視化(4章)、レポーティング(5章)など、データ分析に欠かせないこれらの要素の基礎を押さえることができます。また、本書はtidyverseパッケージを用いてこれらのデータ分析ワークフローを解説しています。
統計学というよりは、Rを使ってデータ分析ができるようになります。

macでR Studioをダークモードにする|形から入るデータサイエンテス

M1 macでRとR Studioをインストールする方法 データ分析や統計学に必須のソフト

Rではじめるデータサイエンス

ggplot2、dplyrといったRを代表するパッケージやRStudioの開発者の一人であるハドリー・ウィッカムと、『RStudioではじめるRプログラミング入門』の著者ギャレット・グロールマンドによる、Rプログラミングを通してデータサイエンスの理解と知識を深めるための一冊です。
データサイエンスに必要な要素とプロセス(インポート、整理、変換、可視化、モデル、コミュニケーション、プログラミング)を明確に定義し、それぞれ順を追い、各節の最後には練習問題を掲載して、ていねいに説明します。データサイエンティストを目指すなら必読の一冊です。
主な内容は、データの可視化やデータ加工などの前処理が多いです。データサイエンスの仕事は、ほとんどがデータの前処理です。前処理は地味な作業ですが、データ分析の基礎で最も大切な作業です。この本で、一般的な前処理ができるようになると思います。

Rグラフィックスクックブック

オープンソースの統計解析用のプログラミング言語、Rの強力な描画用パッケージggplot2を使ってさまざまなグラフを作成するためのレシピ集です。
棒グラフや折れ線グラフ、散布図といった基本的なグラフから、複雑なグラフや地図の作成方法だけでなく、きめ細かいカスタマイズ方法、効果的な使い方、色の使い方の注意、さらには文書用データへの変換方法まで、グラフに関することはほとんど網羅しています。
実際の「やりたいこと」に応じた解決法を提示。描きたいグラフがすぐに描ける実用的な一冊です。
いいですね。データの可視化だけに特化した書籍です。エクセルでは描けない、きれいで分かりやすいグラフが描けるようになります。

Rで文章を解析する(テキストマイニング)

Rによるテキストマイニング入門

ビジネスでもアンケート結果を分析することがありますが、日本語の文章を解析するのは結構難しいです。日本語は単語に分けるだけでも手間がかかります。英語では単語の間にスペースが入るため分析しやすいです。単語に分けることを形態素解析といいます。本書ではMeCabを使った形態素解析の方法から、文書データの可視化や実例を通した分析方法をRのコードで説明しています。実際にRを操作しながら学習できます。
Rをつかったテキストマイニングするなら、持っておいて損はないと思います。

実践 Rによるテキストマイニング:センチメント分析・単語分散表現・機械学習・Pythonラッパー

Rによるテキストマイニング入門の次に読む本です。「実践」と題しており、実践を通して学べます。少し複雑な分析方法を紹介しており、機械学習まで学べます。
今やテキストマイニングは、文章を単語に切り分けて、単語の出現頻度を数えるだけにはとどまりません。商品やイベントに対するSNS上の意見をポジティブ・ネガティブに分ければ、何が評価されて、どこを改善すべきかが一目瞭然。政治家の演説のトピックが、時代とともにどう移り変わってきたかを解析すると、社会の変化を見て取ることもできます。 小説の話題展開の流れや、登場人物とキーワードの結びつきも、自動で分析可能です。
総理大臣所信表明演説の解析や、夏目漱石『こころ』の解析、Twitter投稿テキストの評価などもRのコードで学べます。

欠測データの適切に処理する

欠測データ処理: Rによる単一代入法と多重代入法

本書はいままで紹介した書籍と毛色が違いますが、間違いなくおススメです。
データ分析をしていくと、必ずデータの欠測(欠損)の問題に出くわします。そのデータの欠測に対する方法に特化した書籍です。ワンポイントとして代入法を中心に解説しています。平均値のt検定、重回帰分析、ロジスティック回帰分析、時系列分析、パネルデータ分析といった社会科学において多く使われる分析方法で、データ欠測がある場合に多重代入法を用いてどのように欠測データを処理していけばよいかを具体的に教えてくれます。
「欠測データは全部取り除く」、「欠測データには平均値や中央値などの代表値を入れる」などはご法度です。間違ったデータ分析は、間違った結果しか生みません。正しくデータを扱えるようになりましょう。

【2021年】ゼロから統計学を独学したい人が読むべき書籍10冊
データサイエンスについて興味があり、統計学を学びたいけど、どんな学習方法がいいか分からない 統計学を独学するために必要な書籍が知りたい 統計...

コメント

タイトルとURLをコピーしました