DEVELOPER’s BLOG

技術ブログ

機械学習で採用予定人数を予測する。狙い目企業はどこ?

2020.08.28 芳賀 彩未
利用事例 機械学習
機械学習で採用予定人数を予測する。狙い目企業はどこ?

2022年卒大学生の皆さん!

コロナウイルスが流行していることで就活にどういう影響があるのか、とても不安ですよね。

今回は業界ごとに採用人数を予測し、「どの業界が狙い目なのか」機械学習を使った分析手順を紹介します!

目次

  1. 概要
  2. 手順
  3. 今後の課題


1.概要

データセットの内容

スクリーンショット 2020-08-25 9.47.11.png


分析対象の7業界・各4企業

  1. 化粧品
  2. 電子機器
  3. 商社
  4. 不動産
  5. 金融
  6. サービス
  7. IT・情報


説明変数と目的変数

特徴量
年初の株価、決算報告書提出翌日の株価、一株あたりの純資産額、従業員数、業界番号
決算報告書翌日の株価が出ていないところは提出後直近の株価を使用する。また、純資産額に関しては決算報告書が7/1の時点で未提出の場合に限り、昨年の値を使用する。


目的変数
採用人数
新卒採用人数は、リクナビorマイナビorキャリタスのデータを使用する。  

2.手順

今回は方法の紹介を行う。


欠損値の補完

従業員数
過去2年分の従業員数の変化率を使う。
例えば、2018年と2019年の従業員数の変化率を使って2020年の従業員を補完する。


株価
①複数企業での、同じ年代の1月株価と通期決算報告翌日の株価の変化率の平均を使う。
 例えば、リクルートの2018年の1月株価と決算翌日の株価の変化率をA、東京海上日動の2018年の変化率をBとする。ミクシィの2018年の決算翌日の株価を求めたい時(1月株価は既知)、AとBの変化率の平均値を1月株価に掛けて補完する。
②1月株価の値と決算翌日の株価の値、どちらも未知の場合は行を削除する。


純資産
直近の純資産で補完する。


モデル

回帰分析
回帰分析して、業界ごとの採用人数の平均値をとる。
説明変数:従業員数、株価(決算報告翌日)、業界、純資産
目的変数:採用人数


クラスタリング
①従業員数、純資産を複数の範囲に分けて数字or文字に置き換える。
 例えば、従業員数3000以下は「1」、3001〜5000を「2」で置く。
②①で数字に置き換えた二つのカラムを使い、純資産÷従業員数で得た結果を新しいカラム[value]に入れ込む。
③株価と採用人数も①同様に複数の範囲に分けて数字or文字に置き換える。
④数字で複数個の範囲に分けた採用人数を「down」「stay」「up」の3つのグループにまとめる。
説明変数:「value」「株価(決算報告書提出翌日)」
目的変数:採用人数


今後の課題

今回は5つの特徴量のみで行ないましたが、もっと良い特徴量があるかもしれません。 また、データ数が少なく欠損値が多かったため、期待する制度に満たない可能性があります。

精度を向上のためには、特徴量・企業のデータ数を増やすこと、欠損値の補完方法を変えるなど、様々な方法があります。今後はモデルの実装も含め行います。

関連記事

通信をすべてNAT Gatewayを通していませんか?棚卸しによる70%のコスト削減に成功!

目次 背景 原因究明 解決策 結果 背景  AUCでは、SRE活動の一環として、AWSコストの適正化を行っています。 (技術ブログ『SRE:コスト抑制のための異常値検知機構の実装』) コスト適正化における課題は、大きく分けて下記の4つです。 ①コストは月末にチェックしており、月中でコストが急激に上昇した場合発見が遅れてしまう。 ② 不要なリソースが放置されていたり、新たなリリースによって生じたコストを確認していない。 ③ AWSが提供するベスト

記事詳細
通信をすべてNAT Gatewayを通していませんか?棚卸しによる70%のコスト削減に成功!
AWS SRE 利用事例
SRE:コスト抑制のための異常値検知機構の実装

目次 実装前の課題 採用した技術と理由 実装した内容の紹介 改善したこと(抑制できたコスト) 実装前の課題  SRE(Site Reliability Engineering:サイト信頼性エンジニアリング)とは、Googleが提唱したシステム管理とサービス運用に対するアプローチです。システムの信頼性に焦点を置き、企業が保有する全てのシステムの管理、問題解決、運用タスクの自動化を行います。 弊社では2021年2月からSRE活動を行っており、セキュリ

記事詳細
SRE:コスト抑制のための異常値検知機構の実装
AWS SRE 利用事例
AWSを利用した弊社の開発環境

目次 AUCの使用ツール GitHub、CircleCI使用までの流れ AWSの構成図 まとめ AUCの使用ツール 弊社ではGitHubとCircleCIの2つのツールを利用し、DevOpsの概念を実現しております。 DevOpsとは、開発者(Development)と運用者(Operations)が強調することで、ユーザーにとってより価値の高いシステムを提供する、という概念です。  開発者は、「システムへ新しい機能を追加したい」  運用者は、「システムを

記事詳細
AWSを利用した弊社の開発環境
利用事例
機械翻訳の歴史と今後の可能性

目次 機械翻訳とは 機械翻訳の手法 現在の機械翻訳の欠点 欠点が改善されると 今後の展望 機械翻訳とは 機械翻訳という言葉を理解するために2つ言葉を定義する。 系列 : 記号の列のことで自然言語処理の世界だと文を構成する単語の列になる。 系列変換モデル : 系列を受け取り、それを別の系列に変換する際の確率をモデル化したもの。系列変換モデルはseq2-seqモデルとも呼ばれている。 この2つの言葉から機械翻訳は、ある言語の文章(系列)を別の言語の文章(系列)

記事詳細
機械翻訳の歴史と今後の可能性
利用事例 機械学習 自然言語処理

お問い合わせはこちらから