【締切済】2023年 データサイエンティスト 夏期インターンシップ募集
2023年 夏のインターンのお申込みは締め切りました。
たくさんのご応募ありがとうございました。
不満買取センターを運営しているInsight Techでは、機械学習 / 自然言語処理に特化したインターンを募集しています。
Insight Techのインターンシップの特徴
スタートアップ企業の生の雰囲気を体験可能
- Insight Techは社員数が30人規模の小さい企業です
- オンラインでの実施を想定していますので、雰囲気自体は感じにくいかもしれませんが、報告会等社員とやりとりする場も設ける予定です
実務レベルの自然言語処理技術を体験可能
- Insight Techは実務の至るところで自然言語処理を導入しています
- 「ビジネス価値がある自然言語処理」を知ることができます
インターン期間の結果次第では、論文執筆をしたり、OSSとして公開が可能
昨年、一昨年のインターンへのインタビュー記事もありますのでご参照ください
不満データ
期間
2023年8月〜9月
※ 参加者の予定、希望により調整が可能です。
※ これ以外の期間におけるインターンシップも可能ですので、希望があればご相談ください。
勤務場所
特別な希望がない限りはオンラインでの実施を想定しています。
待遇
時給: 1,300円
勤務時間: 原則として1日8時間・週5日(土日祝日を除く)
※ 参加者の予定を考慮してスケジュールの調整が可能です。
応募方法
以下のGoogleフォームよりご応募ください。
株式会社Insight Tech 2023夏期インターンへの参加希望申込フォーム
送信いただいた情報はインターンの選考にのみ利用し、その他の目的には一切利用しません。
※ 7月下旬頃まで応募を受け付ける予定ですが、充足次第応募を締め切る場合もありますのでご了承ください。
応募資格 / 実施テーマ
Insight Techでは複数のインターンシップテーマを用意しています。
この他のテーマも相談に応じますので、お気軽にお問い合わせください。
不満データを使うことでこういうことができるんじゃないか、こういうことをやりたい、といった提案も歓迎します。
テーマによって、求めるスキル・応募資格は若干異なりますが、共通する応募資格は次の通りです。
作業に使うPCを自分で用意できること
- Windows, Mac, Unix問いません
UNIX系システムの利用経験があること
- ログイン、ファイル操作等で十分です
Python利用に親しみがあること
- 「言語処理100本ノック 2020」の課題をPythonで記述できる程度
- 4章までは必須で、5章以降の記述経験もあるとよりよいです
テーマ例
1. 不満の分析の軸となる辞書の構築検証
- 不満買取センターに集まってきた投稿を分析するサービスとして不満ファインダーを提供しています。その中では、任意の辞書によって該当する不満のみを抽出、分析する機能が存在しています。
- このテーマでは、不満ファインダー上で利用可能な辞書を拡充するための手法の検証、あるいは、新たな辞書の構築検証を実施します。
2. LLMと不満データをかけあわせることによる生成検証
- 昨今LLMが話題ですが、不満買取センターに集まるデータとかけあわせることで、例えば該当する不満群の要約を生成する等、さまざまなビジネス活用の可能性を秘めていると考えています。
- このテーマでは、不満買取センターに集まるデータとLLMとをかけあわせることでどういった生成、要約が可能になりそうかを検証します。既存のLLMを利用することを想定し、新規にLLMの構築を実施することは想定していません。
3. 不満ユーザのクラスタリングの試行
- 不満買取センターにはさまざまなユーザから日々投稿が集まってきます。その中で、こういう種類の不満はどういったユーザの言及が多いのかを知ることはマーケティング観点で重要な示唆となります。ユーザの切り口としては、例えばカテゴリ別の投稿状況や発言しているトピック内容、あるいは文体等が想定されます。厳密なクラスタリングは難しいことを踏まえ、ソフトクラスタリングによる実験を想定しています。
- このテーマでは、これらの切り口に沿ったクラスタリング実験を実施します。時間に余裕があれば、クラスタごとの不満投稿の差異の検証やユーザクラスタリングを行うAPIの構築までを見込んでいます。
4. 日本語のフレーズ間のクラスタリング方法の改善検証
不満買取センターには現在3,900万件ほどの不満投稿が集まっています。大量の不満投稿の中でどういったことが言及されているかを俯瞰的に分析するために、Insight Techでは意見タグ[1]と呼ばれるフレーズ単位でどういった意見の集合があるのかをクラスタリング、可視化しています。
このテーマでは、意見タグベースでの意見のクラスタリングロジックの高度化に向けてその方法の探索、実験を行います。最終的にはクラスタリングを行うパッケージ化に取り組むことを想定しています。
[1] https://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/P18-2.pdf
5. 不満を読み解く補助情報の可視化方法検討
- 不満買取センターに寄せられる投稿には、わかりづらいといった不便さを伝える声や、こうなってほしいといった改善要望、あるいは純粋な不快感を示す声など、一口に不満と言ってもさまざまな声が集まっています。不満を群として見ることも有用な一方で、1つ1つのユニークな不満を見ることも重要となることがあります。そういったユニークな不満を見つけ、どこが要望を示しているのか、どこがユニークなのかを可視化して見せることは不満を紐解くユーザにとっては有用な情報です。
- このテーマでは、どういった情報が可視化されると不満を分析するユーザにとって有用かを模索し、その可視化がどういった方法で実現可能かを検討していきます。時間に余裕があれば、その可視化を実現するためのAPIの構築までを見込んでいます。
6. 新奇性が高い意見を抽出するロジックの探索、高度化
- 不満投稿文の中には多くの人が似たようなことを投稿している場合があります。それらを俯瞰的に分析するのも重要な一方で、少数の人のみが言っている面白い意見も存在し、そこから新しいアイディアにつながる可能性もあります。Insight Techではそんな新奇性が高いレアな意見を抽出するロジックの構築に取り組んでいます。
- このテーマでは、新奇性が高い意見の抽出ロジックの高度化に向けてその方法の探索、実験を行います。最終的にはその度合を判定できるパッケージ化に取り組むことを想定しています。
7. 不満投稿のクラスタリング検証
- 不満買取センターには現在3,900万件ほどの不満投稿が集まっています。大量の不満投稿の中でどういったことが言及されているかを俯瞰的に分析するための手法としては意見タグを活用していますが、一方でもっと俯瞰的なクラスタリングが求められる場面も存在しています。
- このテーマでは、投稿単位でのクラスタリングロジックの探索、実験、検証を行います。最終的にはクラスタリングを行うパッケージ化に取り組むことを想定しています。
問い合わせ先
その他、インターンシップに関するご質問等があれば、以下のメールアドレスまでご連絡ください。
data-service@insight-tech.co.jp
Company
会社情報2012年6月設立。不満買取センター運営。
マーケティングリサーチを通じ商品・サービス強化・ブランディングを支援。
独自の自然言語処理技術を活用し、
AI(人工知能)モデル構築からシステム開発・運用までをワンストップで提供。
2012年6月設立。不満買取センター運営。 マーケティングリサーチを通じ商品・サービス強化・ブランディングを支援。
独自の自然言語処理技術を活用し、AI(人工知能)モデル構築からシステム開発・運用までをワンストップで提供。