2018年语言学编程基础与机器学习入门工作坊


Date
Event

工作坊简介

随着近些年来计算机技术与高级数据分析逐步与语言学的各研究领域结合,语言学的一线研究者越来越需要掌握基本的编程能力,并了解诸如机器学习、贝叶斯统计等高级数据分析方法,以提高对研究数据的应用分析能力,加强研究结果的稳健性。为帮助语言学背景的学生快速入门计算机编程基础,迅速掌握应用这些知识进行数据分析的能力,并进一步了解这些方法在产业中的应用,PsychoR 团队特开设本次工作坊。

本工作坊旨在讲解语言学研究当中所需的编程基本思路和重要知识点,并在介绍常用机器学习方法的过程当中实操,使得参与学员能够:

  • 熟练掌握社会科学研究中的通用编程思路分析与解决研究中的编程问题

  • 掌握使用基本的编程语句与可视化技术分析研究数据

  • 掌握使用 Rmarkdown 撰写研究报告

  • 了解基本的机器学习概念与算法知识

  • 了解如何进一步训练自身编程能力

  • 通过与从业人员的座谈了解这些技术的具体应用

培训场合

2018年全国外国语言学及应用语言学博士生论坛,会前工作坊

面向对象

语言学等社会科学背景,零编程基础的硕、博士研究生

课程设置

第一天

  • 编程基础串讲(夏骁凯)
    • 社会科学研究中的编程通用流程
  • 数据结构与常用统计(杨逸东)
    • 数据类型
    • 数据结构的概念与数据操作
    • 常用统计分析的R实现

第二天

  • 可重复报告与可视化(郑鑫)
    • Rmarkdown 撰写可重复研究报告
    • 科研中的可视化思路
    • ggplot2 绘图
  • 机器学习算法入门(夏骁凯)
    • 机器学习概念
    • 常用机器学习算法
    • 简单机器学习流程实训

第三天

  • 贝叶斯统计与概率编程入门(夏骁凯)
    • 贝叶斯统计基本原理
    • 贝叶斯统计计算方法
    • 概率编程技术入门
  • 专家座谈会(Simon Blanchard,秦弋)
    • 自然语言识别技术在人才测评中的应用

座谈内容

Psychologists and linguists have known for decades that how a person uses language is very tightly coupled to who they are. However, only recently has compute power become cheap and plentiful enough for the analysis of very large language data sets to be practical.

Through natural language processing we’re able to teach machines to draw inferences about the person who produced the language. That is, knowing a person’s language is a proxy for knowing the person.

The initial practical application for this technology, that we’re tackling at Seedlink, is the HR industry. That is, matching people to jobs and predicting job success.

We will talk about the technology of computational linguistics, machine learning, natural language processing and their practical applications.

授课人员

夏骁凯

华南师范大学心理学院博士研究生,PsychoR 团队负责人,统计之都 COStudy 心理学项目临时秘书长,数据挖掘与分析应用高级工程师。研究方向为认知控制功能的计算模型。具有4年 R 语言教学经验,曾应邀在清华大学、南开大学、广东外语外贸大学进行 R 语言相关培训或讲座。

郑鑫

华南师范大学16级硕士研究生,PsychoR 团队成员。主要研究方向为创伤应激及睡眠研究。主要兴趣为 R 语言数据分析的可视化及可重复报告撰写,熟练掌握 ggplot2、Rmarkdown 的原理与操作,并能熟练运用 rCharts、recharts、dygraphs、plotly 等包进行数据可视化。

杨逸东

华南师范大学17级硕士研究生,PsychoR 团队成员。主要研究方向为语言认知及学习心理。信息安全专业背景,熟练掌握 R、Python、C++ 等多种编程语言。主要兴趣为数据清洗与整理,熟练掌握 tidyverse 语法。

邀请嘉宾

Simon Blanchard

Simon Blanchard is an accomplished executive who leads the technology team at Seedlink. Simon’s career spans 27 years across Europe and Asia. Before joining Seedlink Simon co-founded yaean design in Shanghai and Hong Kong, where he served as Chairman and CTO. Prior to that he was a department head at Philips Research, leading research in the fields of optical storage and digital television. Simon loves inventing, programming and his guitar. He’s a highly sought-after speaker and demonstrator who has presented at conferences globally.

秦弋

北京师范大学心理学学士,中国科学院研究生院管理学院管理学硕士,香港中文大学管理学博士。曾任大疆创新总经理助理、人才管理创新实验室负责人。曾任某一家专注产业转型升级的智库合伙人。秦弋的研究、咨询和培训涵盖以下领域:区域和产业创新生态系统、新经济时代企业家的思维转型、创新团队和领导力、新生代员工的发展、以潜力和角色管理为核心的新一代人才管理体系、前沿人才管理技术(能力素质模型、人才测评、行动学习、人工智能和人才管理的结合等)。曾在华为、华润创业、澳门大学、中山大学、彭博商业周刊人才高峰论坛、厦门海峡青年人才论坛及多个商会、行业协会作为演讲嘉宾。

Avatar
Xiaokai Xia
Ph.D. candidate

A doctor of TCM with Data Science and Psychological Counseling is learning psychology.