第二回研究交流会
Cypherメンバーによる研究進捗発表会
2026年3月25日開催 CYPHER 月次研究交流会 開催報告
2026年3月25日に開催されたCYPHER月次研究交流会では、「マルチモーダル基盤モデルとDS理論を用いた属性推定」についての発表と議論が行われました 。
SNSユーザーの属性情報(年齢・性別・居住地など)は、社会科学から医療に至る幅広い学術分野に加え、マーケティング等のビジネス領域においても極めて高い価値を持っています 。これまではフォロー関係や言語的特徴を用いた手法が提案されてきましたが、本研究では最新のマルチモーダルLLMと数理的アプローチを組み合わせ、情報の不完全さを克服する新たな可能性を提示しました 。
発表の主なポイント
1. 情報の断片化と「不確実性」への挑戦
SNSデータマイニングにおいて、ユーザー情報の意図的な欠落や表現の類似性は、推定精度を低下させる大きな要因(不確実性)となっています 。
- 従来のテキスト解析のみの手法から、プロフィール画像などの視覚情報を統合するマルチモーダルなアプローチへと進化を遂げています 。
- 言語情報だけでは曖昧なケースを、画像内の背景や持ち物といった視覚的ヒントで補完します 。
2. 証拠理論(DST)による数理的推論
情報の不足や証拠間の矛盾を数学的に制御するため、Dempster-Shafer理論(DST)を導入しています 。
- 「情報不足で判断できない」状態を「未知(unknown)」として明示的にモデル化できる点が特徴です 。
- 複数の「弱い証拠」を、Dempsterの結合規則を用いて数理的に統合し、最終的な推論の信頼性を定量化します 。
3. 高精度な検証パイプラインの構築
- 時間的アンカーの活用: ユーザー自身の誕生日投稿を「時間的アンカー(temporal anchor)」とし、推測ではない正確な年齢(グラウンドトゥルース)を特定しています 。
- 推論の透明性(CoT): Chain-of-Thought(思考の連鎖)指示により、モデルが「どの要素」に重きを置いて判断したかを言語化させ、ハルシネーション(根拠の捏造)を抑制しています 。
- 厳格な倫理管理: データの匿名化やIDのハッシュ化を行い、プライバシー保護と学術的妥当性の両立を図っています 。
今後の展望とロードマップ
データ蓄積のフェーズに移行しています 。 今後はサンプルサイズを大幅に拡張し、特に判断が難しい境界線上のユーザーに対してもDSTの矛盾解消能力を検証していく計画です 。最終的には、証拠抽出から最終判定までをシームレスに繋ぐエンドツーエンドの自動化パイプラインの完成と、シンポジウムでの成果発表を目指しています 。
交流会の様子
次回開催のお知らせ
次回の研究交流会は2026年4月27日に開催予定です。
参加する皆様との活発な議論を楽しみにしております。
是非サイファに参加しませんか?!
スタートアップメンバーもしくは、コミュニティメンバーとしてサイファに参加してくださる人大募集中です!
是非、気になる方はリンクにアクセスして応募してください!



